您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 薪酬管理 > 09-MOTGSM无线内部培训讲义-BSC告警和告警处理
MOTGSM无线设备培训——BSC告警和告警处理——中国联通有限公司广州分公司·覃道满学习目标掌握告警格式与组成23熟悉告警处理流程学习内容告警格式和组成告警处理流程BSC非正常重启分析简述机房运行维护人员经常会碰到告警,有些告警是操作维护过程中自然产生的,有些告警是瞬时性的,不会影响系统正常运行,但大多数告警是会影响系统性能的,有的甚至会导致BSS复位,对移动通信系统造成严重影响。因此对于运维人员来说,了解告警系统,掌握一定的告警分析和处理技能,显得非常重要。告警系统是为了故障定位,系统性能分析及方便维护而设置的。告警信息可以在OMCR的告警窗口上显示,也可以在本地维护终端(LMT)上显示。BSS产生的告警信息,以字符的形式发往OMCR。告警的种类和格式告警可以分为硬件告警和软件告警两种:硬件告警是由于BSS内的硬件故障所引起的告警。软件告警是由GPROC检测到软件进程运行出错所引起的告警只有GPROC设备(BSP,CSFP,DHP,BTP,poolGPROC)才会产生软件告警信息。告警举例#0–NEW–*NONE*.CommuncationFailureEvent-CAGE-BSS01(BSS01:SITE-0:):0CAGE1-30/03/199914:23:56.[18]ExpansionKSWXSlot22CommunicationFailure-FMIC-Major--/-.(BSS01:SITE-0:):0SITEImpactedtoMajor.告警解析#0:告警IDNEW:告警状态NONE:正在处理此告警的人员CommuncationFailureEvent:告警的类型CAGE:告警级BSS01(BSS01:SITE-0:):0CAGE1:发生告警的位置30/03/199914:23:56:告警发生时间[18]:告警编号ExpansionKSWXSlot22(见框架配置表)CommunicationFailure:告警描述FMIC:告警的清除类型Major:告警严重等级(主要告警)(BSS01:SITE-0:):0SITEImpactedtoMajor:告警附加信息附:BSC机框配置图告警编号告警编号对于每种设备都有唯一的一个十进制数表示。每种设备的告警编号从0到254。(见附录)对于不同的设备告警编号可能重复,但与设备相关的编号是唯一的。有些情况下同样的告警编号表示类似的告警。例如242号告警表示设备退出服务(MMS\MTL\RSL)。告警消除类型告警的清除类型可分为三类:•Intermittent•FaultManagementInitiatedClear(FMIC)•OperatorInitiatedClear(OIC)Intermittent表示告警是偶发性的,对系统没有危害。此告警发生后在OMCR会自动消除。当此类告警频繁产生时,会增加OML链路的负荷。我们可以使用disp_throttle命令来查看告警门限设置,还可用chg_throttle命令调节其门限值。FMIC告警的清除由系统的错误管理进程(FaultManagermentProcess)自动进行。FM进程管理一张现有告警的列表,只有当告警产生的原因消失后FM才会产生‘clear’消息将此告警从告警列表中删除。OIC需要由操作人员手动将告警清除。FM进程检测到告警产生并判断为OIC类型时,将此告警加入现有告警列表中。此后FM不再进行任何处理。当操作人员将告警产生的原因解决后,必须将此告警清除。清除告警步骤在OMCR和BSC上均能够清除告警。OMCR上清除告警按以下步骤进行:打开告警窗口,单击鼠标左键选中要清除的告警项单击鼠标右键弹出快捷菜单选择快捷菜单的“Handle”选择快捷菜单的“Clear”确认告警已被清除在BSS上清除告警,先使用disp_act_alarm命令查看有哪些OIC告警。然后使用del_act_alarm命令将告警清除。清除命令如下:del_act_alarmlocationdevice_namedev_id1dev_id2dev_id3alarm_code(只对OIC告警)告警的类型OMCR将告警分成六种不同的类型,可以在OMCR的告警说明中找到FailureEvents字段,其为不同类型告警的名称。附:告警类型表类型含义举例Communication数据从一点传到另一点时发生错误而产生的告警一般当信令丢失或呼叫建立出错时发生此种告警1、mmssynloss2、frameslipdaily3、biterror4、dri-ctuactivelinkcommunicationfailure(critical)QualityofService系统的服务质量下降时产生此告警一般当消息响应超时或带宽减少时会发生此种告警:多见于时钟失锁gclk_mcufphaselockfailure(major)Processing当软件或进程出现错误时产生此告警一般当进程数据被破坏或系统内存溢出时产生此种告警dri-CTUchannelcoderinternalmessageerror—intermittent(warning)Equipment当硬件出错时产生此告警。一般当出现配置错误,传输、电源等问题时产生此种告警dristandbylinkcommunicationfailure(minor)Environment当设备所处的环境不利于正常工作时产生告警一般当出现烟雾,火光被检测到时产生此种告警Link当OMCR与BSS间的X.25链路出现问题时产生此告警告警的等级影响行动举例严重(Critical)已经影响了系统的服务应该立即采取措施当系统的某一功能出现此种告警而退出服务,应立即将其恢复。重大(Major)已经影响了系统的服务应该马上采取措施系统的服务容量降低,此时应采取措施恢复容量。较轻(Minor)此错误不会对系统的服务造成影响应采取措施减少更多的此类告警产生当此种告警数量不断增加时,系统的容量可能受到影响。警告(Waring)潜在产生影响系统服务的告警的可能如果必要应该进行必要的分析,采取措施避免产生更严重的告警清除(Clear)告警已经被清除无待定(Investigate)表明此错误的等级无法确定,需要人工进一步分析进一步查找原因发现告警第一种方法:OMCR桌面图形界面GUI上的ALARM按钮在OMCR桌面图形界面GUI上双击告警按钮,打开告警窗口,可以看到所有网元(NE)的告警信息;第二种方法:通过GUI上的EVENTMANEGMENT点击GUI上的EVENTMAMT按钮,打开DisplaySubscriptionList窗口,选择窗口中告警中的一项,选择open按钮就打开告警窗口;第三种方法:打开MAP图,然后选中对应的单元节点从NETWORKMAP上查看告警,单击GUI上的NETWORKMAP按钮,打开MAPLIST窗口,选定其中的一个网元,双击鼠标左键打开MAP窗口,在MAP图上用鼠标左键点击要查看的网络单元节点,选中后接点会变为紫色,单击鼠标右键在快捷菜单内选择ALARM项,此时会出现告警窗口显示此节点单元的所有告警。用disp_act_alarm命令行查看告警.告警处理优先级别我们可以根据告警的严重级别,以及出现告警的网元在系统中的重要性,对不同的告警情况进行相应的处理。在此我们提供一般原则下的优先级别。对于基站来说从RXCDR到BSC,再到BTS;信令链路按照MTL、RSL、XBL的次序;告警严重级别由高到低分别是Critical、Major、Minor、Warning、Investigate、Clear。在相同的告警级别中,Critical告警按照以下顺序AllRXCDR-AllMTL-AllBSC-AllRSL-AllBTS-AllX.25link-AllotherCriticalalarms。Major告警按照以下顺序AllRXCDR-AllBSC-AllBTS-AllotherMajoralarms。其它告警按照Minor、Warning、Investigate、Clearalarms的顺序进行处理。附:告警优先级别图告警处理优先级别:ThesitesRemoteTranscoder(RXCDR)BaseStationController(BSC)BaseTransceiverStation(BTS)ThelinksMessageTransferpartLink(MTL)RadioSignallingLink(RSL)X.25linkCritical告警按照以下顺序:AllRXCDR-CriticalalarmsAllMTL-CriticalalarmsAllBSC-CriticalalarmsAllRSL-CriticalalarmsAllBTS-CriticalalarmsAllX.25link-CriticalalarmsAllotherCriticalalarms设备之间的从属关系(parent-child)当某个设备或链路处于OOS等非正常状态时,不仅与起本身相关,而且与其上一级(parent)设备有关,对parent设备进行进行必要的处理是解决问题的重要手段。如果某个设备处于OOS等状态下,此设备下一级(child)设备将也不能正常工作。Device1stparentdev2ndparentdev3rdparentdev4thparentdevRSLMMSMSICAGECABSITEBSSMTLMMSMSICAGECABSITEBSSOMLMMSMSITCUDRICABSITEBSSXBLMMSMSICAGECABSITEBSS告警处理的流程查看告警分清告警的级别明确与告警有关的设备根据告警手册或经验对告警进行处理解决问题,消除告警常见告警及其处理办法常见告警及其处理方法.docBSC非正常重启分析BSC在网络中的位置和作用重启分类原因分析实例分析BSC日常维护应注意的事项BSC稳定运行的条件BSC在网络中的位置和作用在GSM无线通信系统中,BSC作为基站控制器,是BSS子系统的关键节点,一套BSC管理几十个基站和GPRS网络关键节点PCU。BSC同时作为GSM语音业务和GPRS数据业务的无线关键设备,其作用可归纳为:无线管理、电路交换和接续以及协议转换。BSC重启,即BSC退出服务的过程,将中断BSS子系统目前正在进行的工作,受该BSC所控制的语音业务和数据业务将不能提供服务,影响相当严重。附:BSC在网络中的位置图BSC在网络中的位置:MSCXCDRBSCBTS2BTS1PCUSGSNGPRSGSM重启原因分类系统因故障自动重启人为操作导致系统重启重启原因分析机房环境和动力。BSC硬件故障。各种LINK的故障。总线的Failured。BSC软件故障。改变数据库和参数设置。机房环境和动力主要是频繁出现高温告警,或灰尘比较大,或电源供给中断或不稳定造成的。高温或灰尘比较大的时候,对那些运行时间已比较长的设备威胁比较大,当某个芯片因灰尘积累得比较多而又散热不充分时,芯片有可能因过热被烧毁,芯片所在的插板将会退出服务,当系统容错机制失效时,为了排除故障,系统将不可避免地自动重启,若系统不能自己排除故障,在人为干预之前,系统将会一直处于重启状态。BSC硬件故障这里说的硬件主要是插在BSC机框中的各种插板,每个插板的功能不同,出现故障时对整个BSC的影响也是不同的。从机框的背板到插槽上的每一块插板的故障都有可能导致系统退出服务,特别是系统不能识别故障板件时,重启将不可避免地发生,其中GPROC(处理器板)、GCLK(时钟)、LANx和KSWx(时隙交换扩展板),因数量多或作用关键,出现故障时容易引起BSC的重启。这其中又以时钟板最为重要。各种LINK的故障与BSC相连的LINK有MTL、RSL、OML、XBL、GSL
本文标题:09-MOTGSM无线内部培训讲义-BSC告警和告警处理
链接地址:https://www.777doc.com/doc-949980 .html