您好,欢迎访问三七文档
1.机房环境及物理检查1.1.机房内环境要求1.1.1.温度与湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度湿度:8-80%(在23摄氏度条件下)如果不是工作在最佳温度,请注意改善机房环境1.1.2.机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。1.1.3.电源要求电压:要求电压稳定,尖峰电压会损坏设备电压范围:220V+/-10%,即200-240V,50-60Hz电源功率:视机器类型和系统配置而定电源线:标准的零,地,火三相电,其中零,地电压不得超过1.0V.电源接驳:用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.1.2.硬件检查检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。1.3.服务器状态检查及其相关命令1.3.1.外观状态检查:1.当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。2.当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的ServiceGuide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。1.3.2.命令状态检查1、运行lsdev命令配以各种参数,所列各种设备状态都应为Available。#lsdev–C–H–Sa列出系统中可用设备。#lsdev–Ccprocessor列出系统中的所有CPU。#lsdev–Ccmemory列出系统中的所有内存。#lsdev–Ccdisk列出系统中的所有硬盘。#lsdev-Ccadapter|grepent列出系统中的所有网卡#lsdev-Ccadapter|grepscsi列出系统中的所有SCSI卡。#lsdev-Ccadapter|grepssa列出系统中的所有SSA卡。2、lspv命令#lspv显示系统中可用的PV。#lspvhdiskn显示hdiskn的具体信息。#lsdev–Ccpdisk显示磁盘阵列的硬盘的具体信息。对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“lsdev–Ccpdisk“,应该可以看到所有SSA硬盘,并且状态应为Available.。3、lsattr命令#lsattr–E–lmem0列出系统中内存mem0的大小,本项目中内存有4GB。4、lsvg命令#lsvg列出系统中所有的vg。#lsvgrootvg列出rootvg的详细信息。#lsvg–o列出激活的vg5、oslevel命令#oslevel显示操作系统版本信息。6、netstat命令#netstat–in显示系统中各网卡的配置。可查看网卡的IP配置好了没有。7、#diag命令通过运行#diag命令运行硬件诊断程序检测主机内所有硬件,检测结果为“Notroublefound”显示各部分工作正常。8、使用#diag命令(选择:TaskSelection-SSAServiceAids)对SSA硬盘链路连接的校验,可以通过SSA工具里的LinkVerification来检测。如有必要,可以用CertifyDisk运行硬盘诊断部分进行硬盘的表面分析测试,由1%至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。9、lsps–a查看PAGINGSPACE的使用情况如果使用率超过70%,就需要采取措施。10、lsvg–o|lsvg–il|grep–istale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施11、有否发给root用户的错误报告(mail)。12、检查双机状态lssrc–gcluster检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat–a检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息。13、用vmstat,topas,sar命令检查系统性能检查cpu\memoyr\IO,是否存在性能瓶颈。14、检查能否顺利进入CDE界面如果不能进入的话,要检查/etc/hosts表中有否错误的项目。15、用smittyssaraid查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了16、用sysdumpdev–l查看系统的DUMP设置是否正常。17、用instfix–ik|grepML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上18、使用df–kP查看磁盘空间占用率请确保以下文件系统的占用率高于80%立即上报://var/usr/home/tmp/zxindata/zxinbak,其余文件系统的占用率高于95%立即上报也可以到各文件系统下使用组合命令:find.–size+2048–octime1–execls–l{}\;查出大于1M或一天之内修改过的文件。19、系统性能内存:svmon、lsps-aCpu:sar硬盘:iostat文件系统:filemon其他命令:vmstat、topas、lvmstat20、磁带机是否需要清洗/usr/lpp/diagnostics/bin/utape-cdrmt0–n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗21、syncd参数值:缺省值:60;范围:1到任何正整数显示:grepsyncd/sbin/rc.boot或vi/sbin/rc.boot更改:更改在下次引导后有效,而且是永久有效。备用方法是使用命令kill来终止守护程序syncd并用命令/usr/sbin/syncdinterval从命令行重新启动它。诊断:当syncd正在运行时,文件的I/O被阻塞了。调整:在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整性对于HACMP而使syncdinterval明显缩小,会导致性能下降。更改命令为:#vi/sbin/rc.boot22、检查errdaemon,srcmstr是否正常运行#ps-ef|greperr#ps-ef|grepsrc1.4.性能监控与调优通过命令vmstat1来观察.kthrmemorypagefaultscpu---------------------------------------------------------------rbavmfrerepipofrsrcyinsycsussyidwa命令解析:vmstat命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.检查MEM是否为瓶颈,分别检查Memory的两项数值和Page的六项数值.命令解析:sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。通过命令psgv|more来观察。PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND0-A4:2071214516xx0145040.05.0swapper1-A1:3310378952790443276825360.029.0/etc/init命令解析:ps可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况。主要检查是否有标示为defunc的僵尸进程耗用系统资源,以及informix数据库的oninit进程的系统消耗情况。在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat1–dhdiskX观察磁盘。Disks:%tm_actKbpstpsKb_readKb_wrtn命令解析:iostat可以用来查看系统的I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度HHhHhh通过命令netstat–a进行查看。ActiveInternetconnections(includingservers)ProtoRecv-QSend-QLocalAddressForeignAddress(state)命令解析:netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait,这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。1.5.安全工作守则a.系统定期进行系统备份,系统盘建议镜像。b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。c.在7133和shark发现有硬盘故障的时候,请提醒客户注意当天的数据备份。在更换硬盘的时候,请确认当天数据备份已经完成。d.在更换敏感的电子元件,时候一定要防静电。e.在插拔外围设备的时候,请把外围设备下电。f.在进行主机微码升级时候,请留意微码的完整性。g.在进行文件删除的时候,请留意当前路径是否正确。h.在进行文件解压缩的时候,请留意参数和路径。2.系统日常维护流程2.1.系统启动系统启动正常顺序如下:首先对外设(磁盘阵列、磁带库等)加电。待所有外设加电自检完成后,主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.启动主机HACMP,启动后可用命令tail-f/tmp/hacmp.out来检查启动情况,在HACMP未完全启动前不要进行下一步。检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。检查各项应用是否工作正常。2.2.系统关闭停止HACMP(smittyclstop)。查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,lsvg-o等)。在HACMP未完全停止前不要进行下一步。关闭主机(shutdown–F)。重启系统可以使用:shutdown-Fr如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。2.3.查看系统的错误记录在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:#errpt|more查看系统所有的记录IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONE85C5C4C0426104399PSCFGLFTSOFTWAREPROGRAMERROR2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER9D4CF6E70426104399TOerrdemonERRORLOGGINGTURNEDON1E2AC07E0426103999TOerrdemonERRORLOGGINGTURNEDOFF1E5EER4T0423132999TOclstrmgrOPERATORNOTIFICATION其中IDENTIFIER为错误编号,当需要检查详细信息时常会用到。TIMESTAMP为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年T为Type,它记录的是错误类型P:为永久错误,需引起注意T:为临时错误。C为Class,它记录的是错误种类,如H:HardwareS:SoftwareO:ErrlogercommandmessagesU:undeterminedRESOURCE_NAME为错误来源DESCRIPTION为错误描述#errpt-ajIDENTIFIER查看系统详细记录内容其中IDENTIFIER为错误编号,如#errpt-aj0426104399#errpt-dH查看系统所有的硬件出错记录2.4.系
本文标题:IBM故障排除
链接地址:https://www.777doc.com/doc-3507680 .html