您好,欢迎访问三七文档
1网络故障分层诊断制作人:邹绍军指导老师:沈奕佳老师2OSI的体系结构34本次课主要讲的内容:1.网络故障发生位置?2.网络故障的分类3.故障诊断的一般步骤4.网络的分层诊断技术5.网络故障诊断及维护6.经典案例解析5网络故障通常有以下几种可能:•物理层问题:物理设备相互连接失败或者硬件及线路本身的问题;•数据链路层问题:网络设备的接口配置问题;•网络层问题;网络协议配置或操作错误;•传输层问题:设备性能、通信拥塞及差错问题;•高层问题:包括操作系统,应用接口、驱动程序及各种应用程序错误。6网络故障的分类根据网络故障的性质分为:1)物理故障;2)逻辑故障。根据网络故障的对象分为:1)线路故障;2)路由故障;3)主机故障。7物理类故障物理故障定义:一般是指线路或设备出现物理类问题或说成硬件类问题。具体指的是设备或线路损坏、插头松动等情况。1线路故障2端口故障3集线器或路由器故障4主机物理故障8逻辑类故障逻辑故障中最常见的情况就是配置错误,因为网络设备的配置原因而导致的网络异常或故障。1路由器逻辑故障2一些重要进程或端口关闭3主机逻辑故障9故障诊断的一般步骤1.故障的准确定位2.准确收集与故障相关信息3.考虑故障的可能原因4.确定解决方案5.实施解决方案6.测试验证7.记录解决方案8.确定预防措施101故障的准确定位故障的定位就是要清楚故障的性质及其影响,将故障的范围缩小到一个网段,某一个节点或网络设备。然后确定故障是否会出现在其他节点上,故障是局限于一个节点还是某个网络设备112准确收集与故障相关信息观察网络设备的指示灯设备以前工作是否正常故障发生的时间运行环境是否发生了改变不要忽视一些明显的人为错误123考虑故障的可能原因确定了故障区域及范围,收集了相关故障现象及信息后,就可以根据故障现象及信息,利用软硬件帮助功能,考虑引起故障的可能原因,并通过分析,推断出最后产生故障的可能原因,并初步识别出故障的基本类型。把所有可能的原因按可能性大小一一排列记录成事件列表,逐一排查,首先用一个最可能的故障原因进行诊断活动,这样可以比较容易恢复到故障的原始状态,相比而言,如果一次同时考虑一个以上的故障原因,试图返回故障原始状态就困难多了。134确定解决方案•在执行解决方案前,还需考虑以下几方面问题:•所确定的原因是否真是故障原因,需要相应的诊断结果或报告作支撑。•是否可以对设定的解决方案进行预先的测试,并制定故障的诊断计划。•实现解决方案预定的结果是怎样的?•所制定的解决方案对于网络的其他部分有没有影响?14在实施解决方案前做好以下准备保存全部的网络设备配置文件。对服务器及重要的客户段的配置文件进行备份记录。记录网络的基本拓扑结构,设备的物理位置以及各设备之间线路的连接关系、端口号等。建立最终的基准,以便对新旧结果进行对比,同时在需要恢复时可以作为比较的依据。155实施解决方案在实施解决方案时,可能还需要分成很多步骤来操作,所以需要认真做好每一步测试和观察。在测试过程中,每次只能完成一项测试,每改变一个参数都要确认其结果并记录下来,并分析结果确定问题是否解决,如果没有解决,继续下去,直到故障现象消失。166测试验证故障是否真正解决及排除,要通过网络管理员及用户的多方验证。对于网络管理员而言,主要通过查看有关网络设备是否正常工作,通过网络管理软件综合分析网络各项运行参数。对于用户而言,主要是观察日常的各项网络服务是否正常,网络的使用性能。这个过程是一个持续的过程,需要大量时间去完成。177记录解决方案故障排除后,需要把故障的解决方案,实施解决方案过程中的测试步骤及相关结果记录成文档,进而积累实际故障解决经验。作为网络管理员,在这方面应该养成良好的习惯。。188确定预防措施完成了故障的排除和文档记录后,就应该着手于预防措施,防范于故障的再次发生。(目的)根据故障产生的各种原因,有针对性地制定相应的网络管理方案并实施,观察方案的运行效果,把被动的网络管理方式变成主动地网络管理方式19网络的分层诊断技术五层协议的层次结构把每层功能及职责范围定义得非常清晰,为管理员分析和排查故障提供了非常好的组织方式。由于各层相对独立,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。通常有两种逐层排查方式:一种是从低层开始排查,适用于物理网络不够成熟稳定的情况,如组建新的网络、重新调整网络线缆、增加新的网络设备;20网络的分层诊断技术另一种是从高层开始排查,适用于物理网络相对成熟稳定的情况,如硬件设备没有变动。无论哪种方式,最终都能达到目标,只是解决问题的效率有所差别。21网络故障统计据统计,出网络故障通常发生在网络五层模型的下三层,即物理层、链路层和网络层。22网络故障诊断及维护网络故障诊断形式:软件形式工具:比如操作系统提供的网络诊断命令及专业管理软件。使用简单,方便,成本低,但诊断不能深入网络内部,具体反映各项网络参数,功能有限。硬件形式工具:比如各种网络万用表、网络协议分析仪等。功能强大,能够对网络进行系统全面深入的诊断,但使用较复杂,成本较高。231物理层(1)线路方面故障(2)端口设置方面的故障(3)集线器故障(4)电源方面的故障(5)网卡故障–网卡参数设置错误–在同一网段的网络设备的参数设置要一致–对网卡的干扰–网卡驱动不正24经典案例1故障现象:某进出口公司开通DDN(DigitalDataNetwork,数字数据网)专线后部分用户抱怨数据交换的速度变慢,且经常有连接中断的现象。网络支持人员虽经多方查找仍不得要领,故请求网络医院出诊援救。25经典案例1(续)故障排除:该公司的网络为lOBase-T局域网,此次只增加了DDN设备和路由器,其他配置基本不变。故将网络测试仪F68X从最低楼层的某个用户端接入网络进行观察,平均流量为1.20/0,未发现异常。改用流量发送功能作流量逐级递增的体能测试,也未发现任何异常。表面上看,该网段似乎没有什么问题。为快速定位网络故障,将流量发送到其他网段,同时观察网络状况。随着发送流量的增加,1分钟后发现错误帧26经典案例1(续)帧类型为FCS错误帧,并指示FCS帧来自第二层的某个用户。显然,只据此现象就判断故障原因为该工作站的网卡损坏或网卡驱动程序错误,似乎显得“证据不足”,因为整个楼层的用户反映的故障现象是相同的。继续观察到5分钟,发现FCS错误帧数量增加为10个用户左右,由此可以断定不是某个工作站的问题。为此,令其他楼层多个用户与故障楼层用户交换数据(比如复制文件),27经典案例1(续)结果发现多个FCS帧错误。打开交换机端口工作表观察,本楼层的记录中也显示FCS帧错误,而其他的交换机端口工作表中没有FCS错误记录,这说明是本网段内存在着线缆超长的链路。再试着向Internet某个已知用户发送流量,并且进行ICMPPing测试,结果发现损失率为90%左右。由于刚才本网段内的体能测试未发现异常,所以只能是集线器与交换机连接的单条链路有问题。测试该电缆,长度指示为175m!28经典案例1(续)由于175m超常链路在集线器和交换机之间,所以本网段内的用户在交换数据时可以顺利进行。但与其他网段的用户交换数据时就可能出问题。一周后该公司重新划分网段施工结束,用户来电报告一切正常。29经典案例2故障现象:某网吧老板打电话给网络公司的技术人员说,网吧局域网内出现频繁断网的情况。技术人员打车到达现场后询问了网吧业主故障发生前的一些情况,业主反应闲来无事,看见交换机灰尘太多,于是分片进行了除尘,全部干完以后玩了十几分钟后就发生这样的情况了,每次掉线以后重新启动所有设备只能维持一小会,然后就是断网,找了半天原因也没找到,于是打电话报修。30经典案例2(续)故障排除:首先观察交换机,发现网吧内所有的交换机网络指示灯都在以相同的频率在闪,断开局域网,使用笔记本直接接在路由器上进行上网测试,一切正常,故障显然出在局域网内,把所有交换机之间的级联线断开,先插上主交换机,无异常,再一台一台的接入分交换机,接到第三台的时候故障出现了,到那个交换机上查网线,为了快速排除故障,那台交换机上的所有网线都被拔了下来,然后一个一个插回31经典案例2(续)去,最后发现其中一根网线是级联线,被人插在了同一个交换机上造成数据回路,拔掉这根网线后网络恢复正常。故障总结:故障处理完之后询问业主为什么这么插,业主说当时也没注意,看见有水晶头的网线就往交换机上插,不知道这根网线是干啥的。技术人员告诉业主以后再动网线的时候最好有个技术在场的情况下再动。322数据链路层数据链路层的故障一般包括以下几个方:1)数据链路层帧的问题,通常的帧错发、重发、丢失及帧碰撞等。2)数据帧的流量控制及差错控制。3)链路层地址的设置。4)链路层协议的匹配问题,在相互连接的两端口应该使用同一种协议封装。5)链路通信的时钟同步问题。6)数据终端设备(DTE)在数据链路层驱动程序的加载问题。33经典案例3故障现象:某校网络教室中的计算机是通过校园网中的代理服务器共享上网的。一天,上网后不久,发现计算机浏览Internet的速度很慢,以为是开启程序太多引起计算机的内存不足,就重新启动机器。可重启后还是老样子,换一台机器上网也是如此。34经典案例3(续)故障排除:由于多台计算机都出现了网速很慢的毛病,因此初步判断是代理服务器出问题了。检查代理服务器,发现服务器鼠标和键盘都无法响应,出现了死机故障。没办法,只得按下Reset键重新启动系统,可在快进入系统界面时又死机了。难道是服务器操作系统崩溃了?立即用先前备份的Ghost镜像将系统分区恢复了一遍,再次启动机器,不料还是老样子。看来并非软件故障。或者可能是由于35经典案例3(续)很久没有打开机箱清理,计算机内部灰尘积聚太多,配件昼夜运转在散热不良的环境中,引起CPU怠工了吧?拿来螺丝刀正想打开机箱查个究竟,发现机箱后面板网卡口上的黄灯急速闪烁着,再看看机柜内的交换机,所有的指示灯也同样都异常急速地闪烁着。网络故障莫不是由数据阻塞引起的?试着关闭交换机电源,稍等一下再重新打开,然后再次启动服务器。这次服务器竟然能正常启动了,通过各终端访问Intenet,一切恢复了正常。36经典案例3(续)故障总结:此次由交换机数据阻塞引起的网络故障,由于没有首先检查交换机,使本来只需开关一下交换机电源就能解决的问题,却走了不少弯路。由此提醒大家:检查网络故障时,千万不要把目光只停留在网络的某一个节点上,而要对整个链路系统做综合观察,才能少走弯路。373网络层网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。排除网络层故障的基本方法是沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者GRP路由协议出现的故障38经典案例4故障现象:某一技术人员接到一电话,对方很着急的说网吧一个劲的断线,查不出原因,请技术人员去协助处理故障。39经典案例4(续)故障排除:打车到达现场以后,进入机房,发现主交换机和光纤收发器指示灯都在以极快的频率闪,说明流量很大,使用笔记本直接接在电信的光纤收发器上进行测试,发现笔记本的CPU占用率一下就到了100%,不用测试了,被攻击了。再接到网通光纤收发器上测试没什么异常,于是暂时只接网通光纤,恢复网络,然后联系电信中心机房更换IP地址,故障就这么搞定了。40经典案例4(续)故障总结:技术人员跟业主说被攻击了以后业主不相信攻击会造成这么大的影响,并说我花了好几万购买的防火墙呢,怎么可能被攻击搞的这么惨,技术人员说你的出口带宽是40M,对方如果使用大于40M的流量攻击你,防火墙就什么用都没有了,所以网吧里你买的防火墙在受到这种攻击时是不起作用的。业主听了技术人员的话没再说什么。41经典案例5故障现象:技术人员接到一家局域网的电话,反应局域网网络速度不稳定,玩游戏的时候
本文标题:网络故障分层诊断
链接地址:https://www.777doc.com/doc-715939 .html