您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > SDH设备故障分析处理
系统故障分析与处理方法主要内容故障定位基本思路和方法分类故障的处理告警、性能产生原理常见告警日常维护主要内容第一部分:故障定位基本思路和方法光传输设备经过工程安装期间技术人员的精心安装和调测,都能正常稳定地运行。但有时由于多方面的原因,比如受系统外部环境的影响、部分元器件的老化损坏、维护过程中的误操作等,都可能导致光传输设备进入不正常运行的状态。此时,就需要维护技术人员能够对设备故障进行正确分析、定位和排除,使系统迅速恢复正常。故障定位流程发现设备出现故障、告警通知相关人员进行故障处理能否处理故障?通知马可尼售后维护处电话处理故障能否处理故障?派人现场处理能设备正常运行,做好故障记录否能否对维护人员的要求加强SDH基本原理,尤其是告警信号流的学习熟练掌握所维护传输设备的基本操作熟悉所维护局的情况作好现场数据的采集与保存工作加强心理素质锻炼,要求维护人员在排除故障的过程中,沉着、冷静,避免误操作导致故障的扩大。故障定位原则和方法先外部,后设备:先排除外部的可能因素,如光纤断、E1连接错误、交换故障或电源问题;先单站,后单板:将网络故障定位到某网元故障;先线路,后支路:因为线路(STM-N)板的故障常常会引起支路板的异常告警;先高级,后低级:应按照从高到低的级别开始分析告警。排除故障方法机房维护人员在处理故障时,应该遵循:一、“查看”二、“询问”三、“思考”四、“动手”的基本原则故障排除的基本步骤排除传输设备外部故障故障定位到单站故障定位到单板并最终排除故障定位的常见方法1.观察分析法SDH帧结构里定义了丰富的、包含系统告警和性能信息的开销字节,当SDH系统发生故障时,一般会伴随有大量的告警事件和性能数据的产生,通过对这些信息的分析,可大概判断出所发生故障的类型和位置。通过网管软件查询传输系统当前或历史发生的告警事件和性能数据;通过观察设备机柜和单板的运行、告警灯的闪烁情况了解设备当前的运行状况。故障定位的常见方法2.环回法环回法是定位故障最常用、最行之有效的一种方法,最大的特色就是故障的定位,可以不依赖于对大量告警及性能数据的深入分析。一般环回步骤:通道采样→画业务路径图→逐段环回→定位故障站点→定位故障机盘。环回方式分硬件和软件环回,硬件环回很彻底,但是必须到现场操作,软件环回地位不如硬件准确。环回法可能会影响正常的业务,建议在业务量小的时候使用。故障定位的常见方法3.拔插法对最初发现某种电路板故障时,可以通过插拔一下电路板和外部接口插头的方法,排除因接触不良或处理机异常的故障。在插拔过程中,应严格遵循单板插拔的操作规范。插拔单板时,若不按规范执行,还可能导致板件损坏等其它问题的发生。4.替换法当用拔插法不能解决故障时,可以考虑替换法。替换法就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。这里的物件,可以是一段线缆、一块单板或一个设备。故障定位的常见方法5.配置数据分析法在外界环境条件的突然改变、误操作等特殊情况下,可能会使设备的配置数据遭到破坏,导致业务中断等故障的发生。此时,故障定位到单站后,可通过查询、分析设备当前的配置数据(如通道保护属性等)来定位故障。对于网管误操作,可以通过查看网管的操作日志来进行确认。6.更改配置法:更改的配置内容包括:时隙、板位等配置,用于排除配置错误导致的故障。“更改配置法”最典型的应用就是用来排除指针调整问题。可以通过更改时钟的跟踪方向以及时钟的基准源进行定位。故障定位的常见方法7.仪表测试法仪表测试法一般用于排除传输设备外部问题以及与其它设备的对接问题。通过仪表测试法分析定位故障,比较准确。缺点是对仪表有需求。8.经验处理法在一些特殊的情况下,如瞬间供电异常、低压或外部强烈的电磁干扰,致使传输设备某些单板进入异常工作状态。此时的故障现象,如业务中断、ECC通信中断等,可能伴随有相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。经验证明,在这种情况下,通过复位单板、单站掉电重启、重新下发配置或将业务倒到备用通道等手段,可有效地及时排除故障、恢复业务。各种故障定位方法比较方法适用范围特点维护人员要求配置数据分析法故障定位到单板可查清故障原因,时间长最高观察分析法通用全网把握,预见故障高更改配置法排除指针调整问题复杂较高仪表测试法分离外部故障,解决对接问题具说服力,对仪表有要求较高环回法故障定位到单板,或分离外部故障快捷,可能影响业务和ECC较低替换法故障定位到单板,或分离外部故障简单,对备件有需求低拔插法故障定位到单板,或分离外部故障简单,对备件有需求低经验处理法特殊情况操作简单最低主要内容第二部分:分类故障的处理业务中断问题误码问题指针调整问题ECC问题公务问题设备对接问题外部条件导致故障温度过高温度过低电磁辐射电源干扰电压过高电压过低电源功率太小瞬断雷击与接地保护以上情形均可能导致设备不能正常稳定的运行,甚至损坏。必须确保设备在指定条件下工作和运行!业务中断问题常见故障原因外部原因供电电源故障,如设备掉电、供电电压过低等交换机故障光纤、电缆故障,如光纤损耗过高、光纤损断、中继电缆接触不良等E1电缆接触不好、E1电缆断开人为原因误操作设置了光路或者支路通道的环回误操作更改、删除配置数据线缆连接错误设备本身故障单板失效或者性能不好单板安装不到位中国电子科技集团第三十四研究所业务中断问题处理流程采用观察分析法、测试法、拔插法和替换法。通过测试法,逐级挂表环回来定位故障网元。通过测试法定位出故障网元后,可通过观察设备指示灯的运行情况,分析设备故障,如某块单板红、绿指示灯均熄灭,而其它板正常,则可能该单板电源模块有故障,请立即更换单板;同时分析网管的告警和性能,根据故障反映出来得到告警和性能定位故障单板并加以更换。这一过程可结合使用拔插法和和替换法。中国电子科技集团第三十四研究所业务中断问题常见故障原因外部原因供电电源故障,如设备掉电、供电电压过低等交换机故障光纤、电缆故障,如光纤损耗过高、光纤损断、中继电缆接触不良等E1电缆接触不好、E1电缆断开人为原因误操作设置了光路或者支路通道的环回误操作更改、删除配置数据线缆连接错误设备本身故障单板失效或者性能不好单板安装不到位误码问题常见故障原因外部原因•光纤性能劣化、损耗过高•光纤接头不清洁或连接器不正确•设备接地不好•设备附近有强烈干扰源(电磁辐射)•电源故障或电源不稳定、电压过高或过低设备原因•线路板接收侧信号衰减过大、对端发送电路故障、本端接收电路故障•时钟同步性能不好•交叉板与光路板、支路板配合不好•支路板故障•风扇故障•单板失效或性能不好误码问题处理流程采用测试法,环回挂表按照上述原则对误码的发源地进行定位。如果是线路板误码,分析线路板误码性能事件,排除线路误码。如果是支路板误码,分析支路板误码性能事件,排除支路误码。若只有支路误码,则可能是支路板或交叉板的问题,应更换支路板或交叉板。指针调整问题常见故障原因外部原因•光纤接反,造成两个网元间时钟互跟的情况•如果网元跟踪外时钟,则应检查外时钟的质量人为原因•时钟源配置错误,出现同一个组网中有两个时钟源的情况•时钟源跟踪级别配置错误,出现两个网元间时钟互跟的情况设备问题•线路板故障,提供时钟质量不好•时钟板故障,提供的时钟源质量不好,或无法锁定所跟踪的时钟源•交叉板故障,给各单板分配的工作时钟质量不好常用解决方法性能数据分析法更改配置法替换法ECC问题简单说明:SDH网元之间传递信息是通过ECC通信来实现的,ECC的物理层就是DCC通道,即段开销SOH中的D1-D12字节,ECC路由的分配与业务配置无关,但与光板的环回状态有关。ECC故障常见原因外部原因•供电电源故障,如设备掉电、供电电压过低等•光纤故障,如光纤性能劣化、损耗过高,或光纤断裂等人为因素•自环非网关网元ECC接入侧的线路板光口时的误操作(链形网中)•网络中网元ID的重复、IP参数配置不符合说明规则•实际端口之间的连接与设计不符设备本身故障•光板、时钟板故障•网元有大量的性能数据上报到网管,造成ECC通道阻塞常用解决方法告警、性能分析法替换法经验处理法公务问题常见故障原因话机设置错误。开销板配置数据错误单板故障——光板、开销板外部因素——掉电、光纤折断等常用解决方法替换法。告警分析法配置数据分析法经验处理法设备对接问题常见故障原因线缆连接错误•光纤或者电缆接错位置设备接地问题•在与其他厂商提供的设备对接时,一方设备接地有问题,或双方设备不共地时钟不同步•传输、交换各自的网络内部时钟同步,但两个网络之间不同步SDH帧结构中开销字节的定义不同•J0/J1字节设置不一致常用解决方法告警、性能分析法仪表测试法更改配置法经验处理法环回法中国电子科技集团公司第34研究所第三部分:告警、性能产生原理告警、性能产生原理综述为了方便描述,根据信号流的流向,将之分为下行信号流和上行信号流下行信号流,是指信号流向为SDH接口→交叉板→PDH接口这条路由上行信号流,是指信号流向为PDH接口→交叉板→SDH接口这条路由两种通用告警•AIS告警,对下一级电路插全“1”,告知该信号不可用。常见的AIS告警有MS-AIS、AU-AIS、TU-AIS等•RDI告警(远端接收缺陷指示),指示对端站检测到LOS、AIS、TIM等告警后,而传给本站的回告。常见的告警有MS-RDI、HP-RDI、LP-RDI等注意并不是某站有告警就说明该站有问题,只能说明该站检测到了告警。而引起该告警产生的原因可能来自于对端站或其它原因。如实际中光纤断裂引起的R-LOS、对端站交叉板坏引起本站HP-LOM(高阶通道复帧丢失)告警等SDH告警信号产生流程图(一)高阶部分流程图SDH告警信号产生流程图(二)低阶部分流程图告警信号间的抑制关系许多告警之间是具有关联性的,一些告警常常会引起另一些告警的产生,尤其是高阶告警的产生往往会引发低阶的告警。如果这些告警都同时上报上来,一方面可能会导致数据量上报过大,增加网管和主控板的负担;另一方面,也使操作者感觉到信息太多而无从下手。为了避免以上情况的发生,我们引入了告警抑制的方式来屏蔽掉那些没有必要上报的告警。中国电子科技集团公司第34研究所第四部分:常见告警2013-7LOS项目描述告警名称LOS英文名称lossofsignal中文名称SDH物理输入端口信号丢失告警含义STM-N接口接收到的光信号功率低于LOS告警门限告警级别紧急(该告警出现的概率很高,是最主要的告警之一)常见告警原因无光信号(光纤线路中断、尾纤中断)光纤线路或尾纤衰耗过大(线路熔接不达标、线路有打结、拉拽、扭曲、重物压……等现象)对端STM-N接口故障发光功率过低(光模块故障或尾纤衰耗大)对端STM-N接口故障不发光(对端站设备停电、发送模块故障)本端STM-N接口接收部分故障(光模块坏、主板坏)处理方法及步骤首先测试接收光功率是否低于接收灵敏度,一般LOS告警门限低于接受灵敏度5Dbm左右。若接收光功率过低,请先检测对端STM-N发送光功率(方法:用光功率计检测对端站发送光功率是否在发送指标范围,若发光功率低于正常指标范围5dbm请更换光模块)若对端发送光功率正常,请检修光纤线路(对端的尾纤也是常见故障点)若接收光功率正常,请检测本端站接收部分是否正常(常见故障点是本端尾纤或光模块故障)检测方法:(自环测试接收灵敏度)STM-NSTM-NLOSRXTX产生原因:接受到的光信号功率低于LOS门限常见故障原因:光缆线路故障、尾纤故障、TX模块故障、接收模块故障2013-7LOF项目描述告警名称LOF英文名称lossofframe中文名称帧丢失告警含义STM-N接口接收到的光信号中没有检测到STM-N帧头,此时该告警的含义与“LOS”等同告警级别紧急常见告警原因对端的光信号的帧结构与本端口不匹配,本端是STM-1,对端光信
本文标题:SDH设备故障分析处理
链接地址:https://www.777doc.com/doc-4513618 .html