您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 【2019年整理】IBMP系列小型机故障定位故障排除
第三章、故障定位、故障排除根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。3.1硬件故障硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照ServiceGuide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。故障定位和排除:以上硬件故障信息都可以使用:液晶屏上的错误码或:errpt–dH查看到根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。3.2磁阵故障磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。7133磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照我们的经验,不管是什么硬件故障导致7133故障,系统都会产生告警,如果能及时发现问题并采取措施,一般都能防止故障的发生。故障定位:7133硬件故障也可以使用:errpt–dH查看到伴随的错误码有:B4C006180115140004PHssa0RESOURCEUNAVAILABLEFE9E93570401082304PHssa0DISKOPERATIONERRORFE9E93571205000803PHpdisk3DISKOPERATIONERROR03913B941122031103UHLVDDHARDWAREDISKBLOCKRELOCATIONACHIEVED613E5F381121125103PHLVDDI/OERRORDETECTEDBYLVM625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK26CA120B0206081104PHssa0CACHESTORAGECARD所有的错误码都预示着7133有异常,红色部分则表示肯定出现了硬件故障,需要立即进行检查并采取措施,否则磁阵将很快不能访问。对于蓝色部分:625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK表示ssa出现了开环,出现开环不仅影响IO性能,也增加了风险,即如果另一个环路也出现问题,将不能访问磁阵。开环一般有两种情况:1)如果625E6B9A报错比较频繁,如每天几次,则表示系统很有可能出了硬件故障,虽然不会导致访问磁阵失败,但需要立即查出原因并解决。查错方法可以参考下面的描述。2)如果625E6B9A错误偶尔报一次,则要具体情况具体对待,有可能是读写忙出现的误报,也按下面方法进行排查,如果没有查出具体的原因,则可以继续观察。26CA120B0206081104PHssa0CACHESTORAGECARD该错误一般是在:SSA卡带writecache并打开FastWrite,而ssa卡上用于writecache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。这类错误产生将影响IO写性能,并且由于在FastWrite打开的情况下,主备机需要同步ssa卡上的writecache,所以甚至会影响到主备机同步。具体解决方法可参考下文。故障排除:对于红色部分错误的问题排除,一般可以使用diag命令进行进一步诊断:#diag-TaskSelection-SSAServiceAids-LinkVerification检查环路中是否出现了???的盘符或状态不是good的硬盘或使用:#smittyssaraid-ListAllDefinedSSARAIDArrays查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了这时候不建议再进行单独硬盘的Certify,而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。625E6B9A0401090004PHssa0ADAPTERDETECTEDOPENSERIALLINK的排查方法:1、要求将7133中未插硬盘的槽位全部插上dummy盘。(dummy盘:哑元盘,就是那个空壳子,相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)2、看看Loop状态:diag---TaskSelection--SSAServiceAids--LinkVerification.正常AdapterPort下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有???????符号.或Status不是good,则说明已经存在硬盘或链路故障,这种情况则要立即采取行动,做进一步检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下:diag---TaskSelection--SSAServiceAids--CertifyDisk选择认为存在故障的硬盘进行检查3、如果7133存在硬件故障时,可从状态灯上观察到:当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮阵列的状态灯黄灯会亮或接SSA线的端口的指示灯也会熄灭如果通过以上三种方法都未发现问题,而系统仍报OpenSerialLink错误,建议继续跟踪。26CA120B0206081104PHssa0CACHESTORAGECARD的处理方法:背景介绍:IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池,该电池用于在突然停电的情况下保护ssa卡上的fastwritecache中的信息不丢失,这块电池的安全寿命一般是22000小时,差不多两年半的时间,也就是说,当fastwrite模式启动的情况下,一般两年半以后需要更换这块电池。问题表现:对ssa卡上的电池保护是通过卡上的一个计数器实现的,每运行一小时该计数器会增加一,当该计数接近或超过22000时,系统会有26CA120B硬件报警:26CA120B0206120904PHssa1CACHESTORAGECARD可以用如下命令检查ssa卡上的状态:(-a后带上卡的逻辑设备名,这里假设是ssa0)ssa_fw_status-assa0-p(检查电池已经工作的时间,小时为单位)ssa_fw_status-assa0-l(检查电池安全工作寿命,小时为单位)ssa_fw_status-assa0-c(检查ssa卡上的fastwrite功能是否被激活)处理步骤:(按优选方式列出,从中选择一种即可)1)更换电池选择系统闲时,更换主备机ssa卡电池,可以采用:停备机-》更换备机ssa卡电池-》起备机(双机服务)-》主备倒换-》停原主机-》更换原主机ssa卡电池-》起原主机(双机服务)2)如果系统出现26CA120B电池告警,使用ssa_fw_status-assa0-c检查主用ssa卡(一般是ssa0)的FastWrite是否处于inactive(未被激活)状态,如果是,则以root执行如下命令:ssa_format-lssa0-berrclear0/usr/lib/errstop/usr/lib/errdemon可以暂缓更换电池时间,等有电池后再更换,但这段时间对磁阵读写性能会有所影响。3)如果短期内不能更换电池,同时主机主用卡的FastWrite仍然处于Active状态,建议手工屏蔽fastwrite功能1)先停止双机2)在1号机修改hdisk该属性:smittydev-ssadisks-ssalogicaldisks-change/showcharactersof...-[choosehdisk2]-fastwrite[no]3)在1号机激活卷组varyonvgzxinvg4)在1号机去激活卷组varyoffvgzxinvg5)在2号机上执行smittydev-ssadisks-ssalogicaldisks-change/showcharactersof...-[choosehdisk2]-fastwrite[no]检查fastwrite是否已经改为no(只要1号机做了2好机就不用再修改了)6)在2号机上执行rmdev-dlhdisk2cfgmgr-v7)在2号机上执行lspv(查看hdisk2是否已找到)8)然后执行varyonvgzxinvgvaryoffvgzxinvg9)重新启动双机对于出现错误:B4C006180115140004PHssa0RESOURCEUNAVAILABLE而不伴随其他红色标出错误的情况,则通过以下方式排查:可能是hdisk中将‘enableuserofhotspare’打开了,而实际并没有配置hotspare盘,可以通过如下方式解决:检查RAID的状态:#smittyssaraidlistalldefinedSSARAIDarrays:allareinstatusgood(ssa0)检查是否配置了hotspare:list/identifySSAPhysicaldisks--Listhotspares:none修改每个ssa卡所配置的hdisk的属性::setenableuseofhotsparetono然后再执行:#/usr/lib/errstop#cp/var/adm/ras/errlog/var/adm/ras/errlog.bak#/usr/lib/errdemon#errclear0对于物理硬盘的接法可参考如下说明:(有可能老局未配置hotspare,则连线方法按未配置hotspare盘的个数计算)分以下几种情况讲述:1)数据盘小于等于6块,建议配置一块hotspare2)数据盘大于等于8块小于等于10块,建议配置两块hotspare3)数据盘大于等于12块小于等于14块,建议配置两块hotspare数据盘小于等于6块,配置一块hotspare的接线和配置规则:a)主机A1、A2接磁阵1、8位置;备机A1、A2接磁阵4、5位置b)保证磁阵前排1\4\5\8硬盘位置一定要插盘,其余的盘可以挑空位插,注意1-4、5-8两侧的数据盘保持轴对称关系插入(如1和8是轴对称的、4和5是轴对称的)c)没有插硬盘的位置一定要插上dummy盘d)做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,举例如下:ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev-C|greppdisk的方式找出其对应关系并记录下来,如:pdisk0Available11-08-1641-01-PSSA160PhysicalDiskDrivepdisk1Available11-08-1641-05-PSSA160PhysicalDiskDrivepdisk2Available11-08-
本文标题:【2019年整理】IBMP系列小型机故障定位故障排除
链接地址:https://www.777doc.com/doc-3882249 .html