您好,欢迎访问三七文档
IBMAIX小型机巡检常用命令及流程第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。参考值:温度(摄氏℃)10℃-40℃湿度8%-80%第二:就是关于电源的检测,这个只要不是新装机,一般没问题。参考值:零-地电压小于1V火-地电压200-240V(补充:当然59系列的机器相间380V,相地240V)第三:关于报错。主要查看硬件的永久性报错#errpt-dH|pg软件的永久性报错#errpt-dS|pg还有系统又没又报警灯第三:机器的序列号:#uname-Mu第四:操作系统版本:#oslevel-r注:有时候不能使用是因为系统版本低的原因第五:其他检测执行sysdumpdev–l(检查dump是否设置为alwaysallowsysdump)执行sysdumpdev–e(检查当前dump大小应该为主dump设备的大小的80%以下)执行lsvg-lrootvg(检查有否stale状态的逻辑卷)执行lsps-s(检查内存交换区占用情况)执行df–k(检查文件系统的分配状况,一般不要超过80%)执行lsdev–Ccdisk(检查硬盘状态为available)执行lsdev–Ccadapter(检查PCI卡状态为available)执行lsdev–Cctape(检查磁带机状态为available)执行lsdev–Ccprocessor(检查CPU状态为available)执行lsattr–Elsys0|grepautorestart(检查系统crash后是否自动重新启动)执行lsattr–Elsys0|grepcpuguard(检查CPUGUARD是否开启)执行lsattr–Elmem0(检查内存状态正常size=goodsize)执行vmstat2iostat,topas观察us,sy,pi,po,(内存占用率,硬盘读写速度等检查是否有性能瓶颈)执行netstat–in和netstat–rn(观察网络状态)执行entstat–denX(检测网卡运行速率与交换机速率是否匹配)(网卡速率由10M半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smittyroute操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)执行ping命令(检查网络连接状况)执行lsdev–C|grepaio(检查异步IO是否可用)执行lssrc–gcluster(查看是否有三个进程均为active状态)(这个主要看起了几个HA的进程了,有的时候是一个或两个)执行/usr/sbin/cluster/clstat–a(查看cluster状态是否正常)检查/etc/hosts,确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)执行#more/usr/es/adm/cluster.log#more/usr/es/sbin/cluster/history/*#cat/tmp/hacmp.out(检查这三个日志中是否有error或者fail.)检查7133面板上的指示灯,如果黄灯亮则需要诊断问题HOTspare磁盘检测1、检查是否有raid保护#smittyssaraid---ListAllDefinedSSARAIDArrays2、检查是否有HotSpare#smittyssaraid---ListComponentsinaHotSparePool对于7133,执行Smittyssaraid?ListAllDefinedSSARAIDArrays查看7133raid状态,正常应该为good状态。对于7133,执行Smittyssaraid?Change/ShowUseofanSSAPhysicalDisk查看7133硬盘状态,正常应该为member或者spare状态对于FastT,分别登录上两个controller(登陆方法后面详细讲解),查看是否有错误日志。记录检查结果cpu(主频*数量)#lsattr-Elproc0内置磁盘个数:#lsdev-Ccdisk网卡信息:#lsdev-Ccadapter系统属性:#lsattr-E-lsys01.系统错误报告(ErrorLog)的检查:硬件故障检测命令:#errpt-dH-TPERM若有故障执行命令#errpt-a-dH-TPERM/tmp/harderror.log保存,分析结果报告给客户软件故障检测命令:#errpt-dS-TPERM若有故障执行命令#errpt-a-dS-TPERM/tmp/softerror.log保存,分析结果报告给客户2.有否发给root用户的错误报告(mail):#mail(1).观察所有未读消息,注意有关diagela的消息。(2).常用命令:h[]Displayheadingsofgroupcontainingmessaget[]Displaymessagesinorcurrentmessage.nDisplaynextmessage.qQuit(3).对发现的问题详细分析,结果报告给客户3.文件系统的检查:命令:#dfk%Used为文件系统的使用率。所有文件系统的使用率不能大于80%4.通信系统的检测:(1).网卡的状态命令:#ifconfiga输出判断:en0:flags=e080863inet192.9.200.2netmask0xffffff00broadcast192.9.200.255en1:flags=e080863inet192.9.201.1netmask0xffffff00broadcast192.9.200.255主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。(2).路由的检测命令:#lsattrElinet0authm65536AuthenticationMethodsTruehostnameh24HostNameTruegatewayGatewayTrueroutenet,,0,172.16.23.81RouteTruebootup_optionnoSerialOpticalNetworkInterfaceTruerout6FDDINetworkInterfaceTrue(3).网络的检测命令:#ping[ipaddress]输出判断:用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。5.系统DUMP设置的检查命令:#sysdumdevl输出判断:结果应为primary/dev/hd6secondary/dev/sysdumpnullcopydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF若不正确请用下列命令修改:#sysdumdevPp/dev/hd6s/dev/sysdumpnull6.系统硬件诊断:命令顺序为:(1).#diag(2).Enter(3).DiagnosticRoutines(4).SystemVerification(5).AllResources(6).F7输出判断:结果应为Notroublewasfound.7.补丁程序(PTF)的检查(1).系统维护补丁版本为ML09,检查命令为:#instfixi|grepML8.系统参数的检查(1).HIGHwatermarkforpendingwriteI/Os#lsattr-Elsys0|grepmaxpout输出判断:结果应为maxpout33HIGHwatermarkforpendingwriteI/OsperfileTrue(2).LOWwatermarkforpendingwriteI/Os#lsattr-Elsys0|grepminpout输出判断:结果应为minpout24LOWwatermarkforpendingwriteI/OsperfileTrue更改命令为:#chdev-lsys0-amaxpout='33'-aminpout='24'(3).Syncd参数#grepsyncd/sbin/rc.boot输出判断:结果应为nohup/usr/sbin/syncd10/dev/null2&1&更改命令为:#vi/sbin/rc.boot(4).aio参数#lsdev-Ccaio输出判断:结果应为aio0AvailableAsynchronousI/O#lsattr-Elaio0输出判断:结果应为minservers1MINIMUMnumberofserversTruemaxservers10MAXIMUMnumberofserversTruemaxreqs4096MaximumnumberofREQUESTSTruekprocprio39ServerPRIORITYTrueautoconfigavailableSTATEtobeconfiguredatsystemrestartTruefastpathenableStateoffastpathTrue更改命令为:#smittyaio(5).Limits文件的设置:#ulimita输出判断:结果应为time(seconds)unlimitedfile(blocks)2097151data(kbytes)262144//尤其是这项参数stack(kbytes)32768memory(kbytes)32768coredump(blocks)2097151nofiles(descriptors)2000更改命令为:#vi/etc/security/limits更改data为5242889.集群状态检查smittyssaraid→ListAllDefinedSSARAIDArrayshdisk140263B2E0DF74CKsystemgood91.1GBRAID-5array(如果是good就正常)IBM巡检流程1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog)3、有否发给root用户的错误报告(mail)4、检查hacmp.out,smit.log,boot.log5、关键系统的文件使用率不大于80%6、逻辑卷有否stale7、内存交换区使用率是否超过70%8、内存交换区的大小是否为物理内存的1.5倍9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)10、通信(网卡、IP、路由表、ping、etchosts、DNS设置等)11、是否有数据保护方式如RAID10RAID5,是否有Hotspare12、系统DUMP设置是否正确13、检查系统参数是否正确1)etcenviroment中的TZ不能有夏时制2)如有数据库:Aioavailable3)HACMP中IOpacingHighWaterMarkLowWaterMArk33244)HACMP中Syncd105)HACMP中PowerMonitoroff14、检查rootvg是否有镜象15、检查errdemon,srcmstr是否正常运行16、机房环境(电压、湿度)17、系统性能:有否性能瓶颈(topas,vmstat)18、补丁程序(PTF)、微码(是否需要升级)19、HACMP测试:ClusterVerification20、系统硬件诊断21、运行#snap-ac,生成文件snap+sn.pax.Z22、机器清洁注1~15为A类维护(季度维护),16~18为B类维护(半年维护),19~22为C类维护(年度维护)1、检查系统硬件情况:设备故障灯是否有亮2、系统错误报告(errlog)errpt-dH-TPERM对有怀疑的进一步errpt-aj错误代码more3、有否发给root用户的错误报告(mail)mail4、检查hacmp.out,smit.log,boot.log#cdtmplshacmp.out找到时间最近的字节不为零的文件,vi查看如果怀疑系统曾经有调整操作,检查smit.logalog-otboot5、关键系统的文件使用率不大于80%#df–k(查看%Used)6、逻辑卷有否sta
本文标题:巡检常用命令
链接地址:https://www.777doc.com/doc-4263251 .html