您好,欢迎访问三七文档
APACChinaCustomerNetworkResolutionCenterBSC/RXCDR/PCU告警分析摩托罗拉昆明分公司宽带及移动网络事业部,2009-07内容简介告警格式与组成告警处理的优先级别常见的BSS告警告警的格式与组成告警的种类和格式告警可以分为硬件告警和软件告警两种:硬件告警是由于BSS内的硬件故障所引起的告警。软件告警是由GPROC检测到软件进程运行出错所引起的告警。只有GPROC设备(BSP,CSFP,DHP,BTP,poolGPROC)才会产生软件告警息。软件告警(SoftwareFaultManagement或SWFM)分为两类。•告警举例:•#0–NEW–*NONE*.•CommuncationFailureEvent-CAGE-BSS01(BSS01:SITE-0:):0CAGE1-30/03/199914:23:56.•ExpansionKSWXSlot22CommunicationFailure-FMIC-Major--/-.•(BSS01:SITE-0:):0SITEImpactedtoMajor.•#0:告警ID•NEW:告警状态•NONE:正在处理此告警的人员•CommuncationFailureEvent:告警的类型•CAGE:告警级•BSS01(BSS01:SITE-0:):0CAGE1:发生告警的位置•30/03/199914:23:56:告警发生时间•[18]:告警编号•ExpansionKSWXSlot22CommunicationFailure:告警描述•FMIC:告警的清除类型•Major:告警严重等级•(BSS01:SITE-0:):0SITEImpactedtoMajor:告警附加信息告警的类型告警编号对于每种设备都有唯一的一个十进制数表示。每种设备的告警编号从0到254。对于不同的设备告警编号可能重复,但与设备相关的编号是唯一的。有些情况下同样的告警编号表示类似的告警。例如254号告警表示设备fail。在OMC-R上将告警分成不同的六种类型,可以在OMCR的告警说明中找到“FailureEvents”字段,其为不同类型告警的名称。它们分别是:告警的等级告警严重级别表明此故障发生对系统的影响程度,系统将告警的等级分为六级:告警处理的优先级我们可以根据告警的严重级别,以及出现告警的网元在系统中的重要性,对不同的告警情况进行相应的处理。在此我们提供一般原则下的优先级别。对于基站来说从RXCDR到BSC,再到BTS;信令链路按照MTL、RSL、XBL的次序;告警严重级别由高到低分别是Critical、Major、Minor、Warning、Investigate、Clear。在相同的告警级别中,Critical告警按照以下顺序AllRXCDR-AllMTL-AllBSC-AllRSL-AllBTS-AllX.25link-AllotherCriticalalarms。Major告警按照以下顺序AllRXCDR-AllBSC-AllBTS-AllotherMajoralarms。其它告警按照Minor、Warning、Investigate、Clearalarms的顺序进行处理。•Thesites•RemoteTranscoder(RXCDR)•BaseStationController(BSC)•BaseTransceiverStation(BTS).••Thelinks•MessageTransferpartLink(MTL)•RadioSignallingLink(RSL)•X.25link.•Critical告警按照以下顺序:•AllRXCDR-Criticalalarms•AllMTL-Criticalalarms•AllBSC-Criticalalarms•AllRSL-Criticalalarms•AllBTS-Criticalalarms•AllX.25link-Criticalalarms•AllotherCriticalalarms常见的BSS告警1、OML为E-U或D-U的问题在BSC或RXCDR看到此现象时,还可能看到相关的一些告警,如OML242号告警等。背景原理:OML链路是OMCR到RXCDR或BSC的信令链路,主要用于BSS的操作维护。OML使用X.25协议。OMCR通过Router与BSS相连,在BSS端,操作数据在2M线的某些时隙中传输,到达Router后,Router中的虚拟交换电路把它们分门别类送往OMCR进行处理。同时OMCR的数据也通过Router交换后发往相应的NE。可能引起此类告警的原因:①相关的MMS口退出服务②主用MSI板没有插③数据库中关于OML链路的定义不对④DTE地址定义不对⑤路由器定义不对⑥软件进程问题解决思路:如果OML链路从来没有起来过,那么首先应该检查硬件连接是否正确,特别是主用的MSI板是否插上了,因为主用MSI板上定义了NE起来时用于从OMCR下载软件和数据库的OML链路。然后核对DTE地址及路由器的设置是否正确。如果OML链路以前是好的,那么首先要搞清是否有人对OML相关的参数改动过,如数据库中关于OML链路的定义、DTE地址、路由器设置等。在确认没有改动过后,应检查硬件问题,如MMS口是否退服、MSI板是否故障等。参考操作步骤:OML链路的问题涉及的设备比较多,例如:OMCR,路由器,RXCDR等,为了正确定位故障应结合数据收集来处理问题。进入BSC键入state0命令查看BSC的状态;进入RXCDR键入state0查看RXCDR的OML状态;在RXCDR键入disp_links查看RXCDR内的链路连接,以确定与OML相关的MMS位置;在出现问题的BSC或RXCDR中键入disp_p0查看哪个GPROC控制OML链路;键入disp_act_a0查看是否有相关的告警;键入disp_eq0oml**查看每条OML的配置情况。处理步骤⑴进入BSC键入state0命令查看BSC的状态;⑵进入控制OML的GPROC;⑶运用msg_send命令;⑷lock/unlockOML,看OML的状态;⑸再运用msg_send命令;⑹lock/unlockOML所属的MMS,查看OML的状态;⑺lock/unlockOML所属的MSI,查看OML的状态;如果OML仍为E-U状态,继续以下步骤。⑻键入命令以停止和激活AGENT进程,然后lock/unlock此OML链路;⑼键入命令以停止和激活AGENT进程、X.25PLP进程然后unlock/lock此OML;(10)排除硬件故障,考虑是软件进程问题造成OML故障,可以考虑激活挂OML的GPROC,如果还是不能解决可以考虑resetBSC。2、GCLK无法锁相的问题GCLK无法锁相时会产生GCLKFailedPhaseLock的提示,并可能伴随出现4、14、13号等告警。背景原理:GLCK的功能是使得系统与更准确的时钟同步,对于BSS来说,GCLK要与MSC的时钟同步。时钟同步的目的是在射频部分提供0.05ppm(ppm为百万分之一。即如时钟为16.384M,则频率误差为16.384×0.05=0.8192Hz)的高精度的时间同步。因此要提供参考时钟的E1/T1链路要尽量减少滑帧和失同步。GCLK要与上一级时钟同步必须要有上一级时钟的参考信号,时钟参考信号是根据数据库的定义从指定的MMS口上提取的。在database中需要定义不同MMS口的时钟提取优先等级。GCLK在工作时有四种不同的状态:①自由振荡状态:此状态是当GCLK刚上电时,其内部的晶体振荡器(OCXO)需要有预热的过程,以保持其正常的工作环境。此时间是固定不变的(30分钟),无法更改。在自由振荡状态下,GCLK内的DAC输入为80H,时钟输出保持在0.05ppm的精度内。②HoldFrequency:此状态是GLCK与2M失锁时的状态。此时GCLK使用前一次ADC输出的值输入DAC以控制时钟,此状态是一个过渡状态,一般持续10秒。③SetFrequency:此状态一般在HoldFrequency之后。使用LTA(LongTermAverage)值输入DAC以控制时钟。正常锁相工作时GCLK每30分钟采样一个ADC输出值——2位16进制数,存入内部存储器,存储器最大可以存放48个值,采用先入先出原则更新。这48个值也可以被GPROC通过MCAP总线读取或设置。所谓LTA就是指将这48个值取平均输入到DAC。SetFrequency状态下,GCLK不再往存储器中存放新值,只是使用以前的旧值,存储器停止更新,这是与锁相状态的不同之处。④锁相状态:此状态分为两个子状态,AcquiringFrequencyLockState,此状态是一个过渡状态,由硬件决定。FrequencyLockState,此状态内GCLK已与E1/T1锁相,但需等待一段时间,以确定锁相稳定之后就进入锁相状态。可能引起此类告警的原因:①因传输问题引起MMS退服②MSI板或MMS口硬件故障③数据库定义不合理④GCLK本身的问题,需要校正或更换解决思路:当出现GCLK无法锁相的告警时首先要搞清楚参考时钟是从哪里来的。检查一下数据库中有关GCLK的参数设置是否合理,如锁相应向上锁,即RXCDR向MSC锁、BSC向RXCDR锁、BTS向BSC或上一级的BTS(只有菊花链的情况)锁,向下一端的MSI口的时钟提取优先级应设为0,另外也不能只允许一个MMS口可以提取时钟。如果数据库设置没有明显不合理之处,应注意一下与时钟提取有关的MMS口和MSI板的状态,MMS口退服可能是传输问题引起的,也可能是MSI板或MMS口硬件故障引起的,如果MSI板工作正常则应着重检查传输质量。在排除了数据库、MSI硬件和传输原因之后,应校正或更换GCLK板。参考操作步骤:⑴为了利于问题的分析应收集以下数据:①statelocationgclk**(查看GCLK的状态)②disp_elphase_lock_gclklocation(查看是否允许锁相)③disp_eq0mmsid1id2id3(查看MMS的参数,主要是时钟提取优先级)④disp_elwait_for_reselectionlocation(查看时钟提取切换时间)⑤disp_ellta_alarm_rangelocation(查看LTA告警范围)⑥disp_gclk_avgslocationgclk_id(查看GCLK的长期平均值)⑦disp_eqlocationgclkid_1id_2id_3full(查看GCLK硬件版本信息)⑵当GCLK无法锁相时可采用以下的方法:①reattempt_pllocationgclk_id1②使用lock/unlock命令看是否能使得GCLK锁相恢复。③查看MSI,MMS是否处于正常状态,是否有E1的相关告警产生,是否有MMS作为时钟源。④查看提供时钟的MMS是否与上一级的链路连接,上一级的时钟是否正常工作。⑤查看提供时钟的MMS的等级是否设置正确(一般为255)。⑥试着使用其它的MMS作为时钟源。(对于M-CELL可更换NIU)。3、MTL告警背景原理:MTL链路是MSC与BSC的信令链路,其在整个系统中起着MSC与MS、BSS连接的作用。MTL出现问题会导致其下属所有的BSS瘫痪。MTL最多的告警一般为0号告警,出现此告警时MTL为D-U。此告警表示MTL链路与MSC已经失去联系。这是由于MTP第二层出现问题,而退出服务。但系统会不断尝试恢复此链路。另外当一条MTL链路退出服务时,其负荷会分配到其它MTL上,加重其它MTL的负担,而由于GPROC的处理能力的原因,MTL链路的平均利用率不能超过30%。因此MTL链路负担过重,会使得GPROC退出服务,从而导致更多的链路退出服务。此告警与BSS0号告警的区别为:MTL0号告警表示一条MTL退出服务,而一个BSS可能有多条MTL链路,BSS
本文标题:BSC告警分析
链接地址:https://www.777doc.com/doc-950103 .html