您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > H3C S7500E交换机故障应急指导书
H3CS7500E交换机故障应急指导书杭州华三通信技术有限公司目录声明技术支持1.紧急故障处理原则2.故障处理前的准备工作3.紧急故障处理注意事项4.信息收集方法5.紧急故障处理方法1.紧急故障处理原则收集必要的信息,供后续分析定位;尽快恢复业务,缩短业务中断时长。2.故障处理前的准备工作准备装有TCL、SecureCRT等控制台程序的PC或笔记本电脑了解用户组网,设备配置等信息获取登陆设备的用户名密码等信息现场工程师需携带S75E交换机的最新软件版本(S75E:R6105P10或R6305),或客户统一使用的版本。3.紧急故障处理注意事项1.接到故障申告时,同步准备备件;2.操作记录必须捕获并保存至文档;3.应急恢复前必须收集设备的诊断信息(diag信息)。具体收集方法见后文。4.信息收集方法1.诊断信息收集方法执行displaydiagnostic-information。收集完成后,请隔数分钟,再次收集一次信息。共收集两次。[S7502E-R]displaydiagnostic-informationSaveordisplaydiagnosticinformation(Y=save,N=display)?[Y/N]:——注1注:1)选择Y,将诊断信息生成一个文件,保存在Flash里。文件名可用默认的,也可自行修改。信息收集完成后,可将该文件拷贝至电脑。在Flash剩余空间足够的情况下(大于1M即可),推荐使用该方法。选择N,将诊断信息打印在控制台程序上,需打开控制台程序里的log记录功能,将这些信息在电脑上生成一个log文件。2)每次收集诊断信息的时间在5至10分钟左右。通过console口登陆时,收集信息速率较慢。通过telnet登陆时,收集信息速度较快。3)收集信息时,登陆用户应具有最高权限,即Level3的权限。2.其他常见信息收集方法1)收集版本信息:displayversion2)收集设备信息:displaydevice,正常情况下,各单板的状态应为normal3)收集温度信息:displayenvironment,正常情况下,设备的工作温度应在60%以下。4)收集电源状态信息:displaypower,正常电源状态为normal,不在位为absent5)收集风扇状态信息:displayfan,正常风扇状态为normal6)收集CPU信息,隔1分钟再收集一次:displaycpu,正常情况下,CPU利用率在过去5分钟内的平均值为60%以下。7)通过displaycpu-usagehistory命令可以查看到最近60条记录的CPU占用率统计值。结果以坐标的形式进行显示;8)收集内存信息:displaymemory,正常情况下,内存占用率为80%以下。9)收集主、备主控板复位或插拔记录:displayswitchoverstate10)收集当前配置信息:displaycurrent-configuration11)收集已保存配置信息:displaysaved-configuration12)收集相关的端口信息,隔1分钟再收集一次:displayinterfaceg2/0/113)收集路由表信息:displayiprouting-table14)收集转发表信息:displayfib15)收集日志信息:displaylogbuffer16)收集系统trap信息:displaytrapbuffer17)收集ARP信息:displayarpall18)收集MAC信息:displaymac-address19)收集VRRP信息:displayvrrp『输入?号,可查看VRRP相关的其他信息』20)收集OSPF信息:displayospf『输入?号,可查看OSPF相关的其他信息』21)查看单板剩余ACL资源:displayaclresource22)收集平台组播路由协议层组播表项:displaypimrouting-table23)查看组播转发表的信息:displaymulticastforwarding-table24)收集平台组加入管理协议层表项:displayigmpgroup25)若有二层组播协议,则收集平台二层组播表项信息:displayigmp-snoopinggroup26)收集端口聚合组信息,displaylinksummary,或者displaylinkverbose27)收集STPTC信息:displaystptc28)收集STP切换历史记录:displaystphistory3.进入设备诊断模式和隐患模式的命令1)进入诊断模式:系统模式下,en_diag2)进入隐含模式:系统模式下,_hidecmd5.紧急故障处理方法5.1.CPU占用率较高的问题多次使用displaycpu命令,查看过去5分钟的平均占有率。如果结果都在60%以上,则可视为CPU占有率高。遇到此类问题,按照下面的方法处理:1.查看系统各项任务占用CPU的情况:displaycpu-usagetaskslot0显示结果后,查看TaskName和CPU两列,找出CPU值较高的进程名称。注:VIDL分别是S75E上的空闲进程。正常情况下,应该是空闲进程数值远高于其他进程。2.查看上CPU的报文类型:[S7500E-diagnose]debugrxtxevent0Slot0:informationofModuleRxTx/--------thefirstchipUNIT=0-------/Packetsreceivedfromchip(U=unicast,M=Multicast,B=BroadCast):portbcm(U)bcm(M)bcm(B)01500115006150071500Packetstransmittochip(U=unicast,M=Multicast,B=BroadCast):portbcm(U)bcm(M)bcm(B)01500115006150071500注:1)U表示单播报文,M表示组播报文,B表示广播报文2)port为芯片端口号,不是业务端口编号。3.查看具体是什么报文[S7500E-diagnose]debugrxtx–c100pkt0-c100表示打印100个上CPU的报文,具体数值可以修改0表示查看上0槽位主控板的报文,也可查看其他单板的报文。4.对上CPU的报文做分类统计:1)进入诊断模式2)输入debugrxtxcatchby,可选择根据da(目的MAC)、dip(目的IP)、sa(源MAC)、sip(源IP)、etype(报文类型)、VLAN等进行报文分类统计。3)等待1分钟之后,输入debugrxtxcatchend结束统计并显示统计结果。根据结果,可以判断是从哪个地址有大量报文上CPU处理,或者是何种类型的大量报文上CPU处理。5.通过对第4步的统计结果进行分析,采取相关方法处理:1)如果是大量TTL超时报文,使用undoipttl-expires命令,可阻止此类报文上送CPU处理。然后排查网络中是否有路由环路等,造成TTL超时。2)如果是大量ARP报文,可先对关键业务配置静态ARP规避,然后查找大量ARP报文的发送源,并查杀病毒。5.2.硬件接口问题1.电口频繁UP/DOWN故障1)查看两端端口是否存在收发错误报文统计。命令为displayinterface如果存在错误报文统计,则表明链路质量不好,需要检查端口配置情况和检查链路质量;2)如果确认端口配置正常(速度以及双工一致),则检查物理链路是否正常。简单方法是使用手轻轻碰网线看是否有UP/DOWN变化。如果没有,则更换连接线观察;3)如果确认物理链路正常,而端口又为协商模式,将两端配置为强制模式观察;4)更换一端设备端口(如果条件允许,推荐是同类型的其它槽位单板),观察是否故障依旧;5)如果更换端口依旧,则更换另一端设备端口(如果条件允许,推荐是同类型的其它槽位单板);6)可以在端口下配置link-delay命令来调整端口up、down灵敏度,通常敏感局点建议使用10;7)如果故障依旧需要研发人员确认;2.光口频繁UP/DOWN故障1)查看两端端口是否存在收发错误报文统计。命令为displayinterface如果存在错误报文统计,则表明链路质量不好,需要检查端口配置情况和检查链路质量;2)如果确认端口配置正常(速度以及双工一致),则检查物理链路是否正常。简单方法是使用手轻轻碰光纤看是否有UP/DOWN变化。如果没有,则更换连接线观察;3)通过测试光功率依旧更换光纤等手段,如果确认物理链路正常,而端口又为协商模式,将两端配置为强制模式观察;4)更换一端设备端口(如果条件允许,推荐是同类型的其它槽位单板)。观察是否故障依旧;5)如果更换端口依旧,则更换另一端设备端口(如果条件允许,推荐是同类型的其它槽位单板);6)可以在端口下配置link-delay命令来调整端口up、down灵敏度,通常敏感局点建议使用10;7)如果故障依旧需要研发人员确认;3.电口不UP的故障1)在本板上两端口直接互连,判定是否能up;2)如果直连无法up,检查物理连接线是否正常;更换网线再测试;3)如果确认物理连接线正常,使用命令displayinterface检查配置情况;4)如果确认对端没有被配置为down状态或者链路两端配置一致,可以肯定端口存在物理异常。4.SFP光口不UP的故障1)使用命令displayinterface检查是否配置合理,是否能正确读出SFP的模块参数。如果确认对端没有被配置为down状态并且端口配置完全一致,建议更换两端端口配置数据(双工以及速度)。2)检查光纤收发端是否接反,物理连接是否正常,光功率是否在光模块的规格之内等;3)如果确认光路正常,在本板上将两端口通过光纤直接互连,检查是否能up;4)如果直连不能UP,将分别将链路两端端口更换到其他端口进行测试;5)如果还不能UP,需要分别更换两端光模块光模块进行测试,5.端口不接收报文故障1)使用displayinterface查看是否有入报文统计,两端端口是否up。必要时使用resetcounterinterface清空端口统计报文再观察。查看对端是否有发送报文统计;2)确认端口配置是否有异常。其中包括两端的协商状态,端口速率,端口类型以及vlan等配置;3)查看端口stp状态,是否被discarding掉,是否lacp端口被Unselected;4)up/down一下端口,看是否能恢复。如果不能恢复,更改端口属性(速度、双工)的配置,看看是否能恢复;5)更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)是否正常。如果为电口,使用pc替代对接。如果为光口,更换光模块测试;6)确认对端设备以及链路是否有问题;6.端口不发送报文故障1)使用displayinterface查看端口是否有收发报文统计,两端是否均up。检查对端设备是否收报文统计;2)确认端口配置是否有异常。其中包括两端的协商状态,端口速率、双工,端口类型以及vlan配置等;3)查看端口stp状态,是否被discarding掉,是否是动态聚合端口被Unselected;4)up/down一下端口,看是否能恢复。如果不能恢复,更改端口属性(速度、双工)的配置,看看是否能恢复;5)更换到其它端口看是否存在相同现象。如果存在相同现象,当端口为电口时,使用PC替代对接测试。当端口为光口时,更换光模块测试;5.3.单板故障1.主控板无法启动故障1)观察BOOTROM启动信息,判断系统无法启动原因。如果显示启动文件类错误,转步骤二处理。如果启动文件确认正常,BOOTROM提示信息中发现错误信息或者信息不全,则转步骤五处理。2)出现文件异常,典型信息为BOOTROM提示CRC错误,或者找不到启动文件。请重新加载启动文件,并检查FLASH中文件大小是否与版本库上一致。如果不一致,请重新加载。并设置该文件为当前启动文件。(在BOOTROM加载过程中,BOOTROM能自动将该文件设置
本文标题:H3C S7500E交换机故障应急指导书
链接地址:https://www.777doc.com/doc-431253 .html