您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 基于关联规则的通信网络告警相关性分析模型
Dec.2004,Volume1,No.1(SerialNo.1)通讯和计算机JournalofCommunicationandComputer,ISSN1548-7709,USA57基于关联规则的通信网络告警相关性分析模型*吴扬扬1,陈怀南2(1华侨大学计算机科学系,福建泉州362021;2福建省电信公司泉州分公司,福建泉州362000)摘要:在通信网络运行过程中,每天都会产生大量告警,将数据挖掘中的关联规则发现技术用于分析历史告警数据,可发现告警相关性规则。这些规则可辅助故障定位和告警过滤,以减轻网络管理员的工作强度,提高工作效率。本文分析了通信网络原始告警信息的特点,提出了一个基于关联规则的通信网络告警相关性分析模型,该模型通过对原始告警数据进行预处理,不仅有效地解决了网络告警时间不同步问题,使得处理后的告警数据可直接用一般的关联规则挖掘工具发现告警相关规则,还大大地压缩了挖掘结果,提高了规则的准确率。初步的实验表明这种分析模型具有实用价值。关键词:告警相关性;关联规则挖掘;数据预处理*国务院侨办科研基金资助项目(03QZR5)。1吴扬扬,教授,国立华侨大学信息学院计算机科学系,研究方向为数据库技术和数据挖掘,发表论文二十多篇。电话:0595-22991503;E-mail:wuyy@hqu.edu.cn2陈怀南,工程师,福建省电信公司泉州分公司,研究方向为数据库技术和电信网络管理。1.引言故障管理作为通信网络日常维护的基础,对网络的正常运行起着举足轻重的作用。当网络中出现故障时,会引发一系列的告警,但并不是所有的告警都表明故障原因,因此需要对网络中发生的告警事件进行相关性分析,确定产生故障的根本原因。故障处理过程一般分三个处理阶段:故障相关性分析、故障定位、故障验证。目前的网络故障处理工基于关联规则的通信网络告警相关性分析模型58作主要靠网络工程师依据个人的维护经验对告警进行人工分类、判断、分析,并最终得出告警的来源。由于通信网络是由交换机、传输设备、动力设备等多种部件组成,在什么情况下由网络的哪些节点上的哪些设备产生告警以及告警内容和格式都是由生产厂商定义好的,并非所有设备都会告警,不同设备的告警信息内容不同,对同一类设备而言不同生产厂商定义告警信息的内容和格式也有差异,而且一个设备故障经常引起其他设备产生告警,所以告警数目庞大、告警之间的相关性复杂,完全靠人工分类、判断效率很低。目前故障管理面临的主要挑战在于报警的及时性、准确性和灵活性。一旦告警信息产生,网络监控中心必须在最短的时间内准确定位故障点,根据故障原因发布故障单,并派遣维修人员修复故障。因此在故障管理过程中,需要引入能对全网告警进行全程的、多层次的、复杂的相关性分析,以便进行告警过滤,帮助定位故障。有些网络管理系统提供告警相关性分析功能,但这些告警相关性分析功能大多建立在用户定制的处理逻辑或关联规则之上[1],系统需要根据预先定义的处理逻辑来过滤冗余告警,分析告警之间的相关性,如NetLog故障管理系统[2],其强大的相关性分析功能的实现方法是:系统根据用户定制的关联规则,从一组事件中推测出作为这组事件起因的根源性事件,产生一条新的更抽象的决策事件,或关联出互相依赖的互为事件。要充分发挥这些系统的相关性分析功能,关键在于如何得到告警事件的关联规则和告警设备的关联规则。本文研究如何有效地利用数据挖掘中的关联规则挖掘工具,分析历史告警信息,得到告警之间的关联规则以及告警设备的关联规则,这些规则既可用于帮助网络管理系统用户定制关联规则,以利用网管系统的告警相关性分析功能帮助定位故障,也可辅助网络管理人员分析当前告警信息,进行网络故障的定位检测和预测严重故障等等。采用关联规则挖掘方法的优点是不需要知道网络拓扑结构关系,当网络拓扑结构发生变化时,可以通过告警的历史记录进行分析,自动发现新的基于关联规则的通信网络告警相关性分析模型59告警相关性规则,因此基于数据挖掘告警相关性系统能够很快调整适应一些变化快的通信网络,解决通信网络中出现的新问题,基于数据挖掘的方法有较好的网络适应性。本文在深入研究告警信息的特点和需求的基础上,提出了一个基于关联规则挖掘的告警相关性分析模型,相对于其他分析方法[3][4][5][6],该模型具有如下特点:适用性广:本分析模型只需使用一般告警数据项的历史记录,与网络的拓扑结构无关,可适用于不同的电信网络;容易实现:数据经过预处理后,可直接用一般数据库的关联规则挖掘工具实现告警关联规则挖掘任务;比较准确:因为本模型在定义告警事务时,不仅考虑告警时间还考虑到告警解除时间,所以,挖掘出来的告警关联规则比较准确地反映了告警的相关性;挖掘结果易于理解:挖掘出来的关联规则直观地反映了不同告警之间关联关系和告警设备之间的关联关系,有助于告警信息过滤、定位故障。2.告警相关性分析模型2.1告警信息基本形式电信网络故障被定义为网络中的电信设备或软件模块异常。故障发生时系统状态会发生变化,从而引发告警事件。电信网络告警信息一般只有经历系统状态发生变化的设备名称类型、故障症状、发生时间、告警等级等,没有提供识别故障所需的故障发生的详细地点和原因等数据。因为电信网络是由多种设备相互连接起来的,一个部件故障会影响到很多设备,从而引发很多设备告警,甚至同一个设备多次告警。蜂拥而致的告警为数据挖掘提供了丰富的数据源,因为这些告警数据记录了故障所波及的系统相关部件的状态变化,告警数据历史记录背后蕴藏了各种故障发生引起系统变化的规律。分析、处理一条告警信息,需要这条告警信息中包含产生告警的部件名称,具体故障信息,故障产生时间。专业网管系统一般具有告警信息的实时接收、存储和查询功能,其告警表一般包含有这类基于关联规则的通信网络告警相关性分析模型60数据,可直接从那里提取。表1列出了一般告警表中均具有的数据项,我们可将它们作为告警关联规则挖掘的数据源。表1:主要的告警数据项数据项名说明1TID产生告警信息的被管理设备名称,电信网络中每个设备均有一唯一的网络设备名称,用于告警、配置时的区别2NEType被管理网元设备类型3Address设备端口位置,设备的具体单元4EntityType端口属性,可分为CEPT1等5Condition告警信息的具体描述6Servrity告警等级,有CIRTICAL,INFO,CLEARD等7EventTime事件产生时间8SeviceAffect是否影响业务,有NSA与SA两种表2:几个告警实例TIDNETypeAddressEntityTypeSeverityConditionServiceAffectEventTimeQZLOCALJYFOUR/79ISM4RDITP2.8CEPT1INFOPFcREMNSA2003-6-10:10:28QZLOCALLXFOUR/84ISM4RDITP1.15CEPT1INFOPFcREMNSA2003-6-10:10:30┇┇┇┇┇┇┇┇QZLOCALJYFOUR/79ISM4RDITP2.8CEPT1CLEARDPFcREMNSA2003-6-10:40:55QZLOCALLXFOUR/84ISM4RDITP1.15CEPT1CLEARDPFcREMNSA2003-6-10:40:57例如:在表2所给出的告警实例中,TID:QZLOCALJYFOUR/79代表泉州本地网中一个设备的名称,处理故障时,需要根据该设备的名称,来判断故障发生地点等相关机房信息;NEtype:ISMRDI,说明该传输设备是ISM(IntelligentSyncMux),同时软件数据配置成上、下电路型,该字段表述的是设备类型,对实际告警处理意义不大;Address:TP2.8表示该设备具体产生信息的一个部件,TP表示机盘类型为支路单元盘,2表示第二块支路单元盘,8表示是该支路单元盘的第8个支路;EntityType:CEPT1代表TP2.8的端口属性是2M电路;Severity:INFO,信息类型的告警,这是一基于关联规则的通信网络告警相关性分析模型60种告警等级较低的告警。告警等级是用来提醒网络管理人员是否需要做出快速反应,技术人员可以根据不同的告警等级知道自己进行修复的时限,等级从高到低依次为CRITICAL,PROMPT,DEFFERD,INFO,CLEARD,其中CLEARD的告警等级与其他告警等级的关系是产生与解除的关系,表2中,第一条记录是告警产生,第三条记录对应于该条告警解除;Condition:PFcREM这条告警信息表明远端收信号不好,问题发生在告警部件发信号、远端设备收信号线路上,处理障碍时需要根据该条信息,判断具体可能故障段落,并派相关技术人员到现场进行处理;ServiceAffect:NSA(noserviceaffected)表明该告警信息不影响网络使用,SA(serviceaffected)表明该条告警信息实际影响的业务,该字段的定义在各相关专业厂家网管的定义各不相同,因此借鉴意义不大;EventTime:第一条记录的2003-6-10:10:28表示2003年6月1日0:10:28是产生的告警时间,第三条记录的2003-6-10:40:55表示2003年6月1日0:40:55是产生解除告警的时间。实际上,用于分析处理具体告警信息,定位一个故障(告警)的主要字段是TID,ADDRESS,CONDITION和EventTime。我们需要知道发生故障的网元设备名称及相关部件,才能对应具体的物理设备及端口位置;需要知道发生的具体信息,初步判断可能的问题,对应可能的解决办法;需要知道该条信息的发生时间,做告警的总体分析及具体掌握告警的处理方法与时限。2.2告警关联规则模型关联规则描述不同事物之间的相互依存性和关联性,关联规则的基本模型是[7]:设I={i1,i2,…,im}为项的集合。设任务相关的数据D为数据库事务(transaction)的集合,其中每个事务T是项的集合,使得TI。每一个事务有唯一的标识,记TID。设A是一个项集,如果AT,则称事务T包含A。一个关联规则是形如AB的蕴涵式,这里AI,BI,并且AB=。规则AB在事务数据库D中的支持度(support)是事务集中包含A和B的事务数与所有事务数之比,即概率P(AB),记为基于关联规则的通信网络告警相关性分析模型61support(AB)。规则AB在事务集中的可信度(confidence)是指D中包含A的事务的同时包含B的事务的百分比,即条件概率P(B|A),记为confidence(AB)。给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(min_supp)和最小可信度(min_conf)的关联规则。关联规则挖掘通过分析事务数据库中的事务,发现不同项之间的关联关系,其中事务是由项组成的集合。直接运用一般的关联规则挖掘工具对原始告警进行相关性分析存在的如下问题:一个故障往往引发很多个告警:一个故障可能导致同一设备产生多个告警;故障本身可能间歇性发生,这意味着每当故障发生时,告警事件便产生;一个告警可能被多个网络部件检测到,每一个部件都发送告警事件;告警事件中包含许多无须关注的信息和冗余信息;数据不完整:通常都假设可以获得网络设备发出的全部告警信息,但在某些特殊情况下,一些信息无法获得,例如网络管理通道中断,告警信息就无法继续传送;时间不同步:在庞大的通信网络中,同类,异类设备网元的时间无法统一,导致告警事件的时间存在一定的误差,给告警事件的分析带来很大的困难。鉴于以上的问题,我们重点分析了电信网络中相关告警的特点,采用以下处理方法将原始告警组织成一个个告警事务,解决了多个相关告警时间不同步问题:1.对原始告警数据预处理,提取出TID,Address,Condition,AlarmTime(告警时间)和ClearTime(解除时间)。这里的ClearTime是一个很重要的因素,但它只是作为一条独立的告警存在于后续的告警数据中,所以,往往被忽略。告警的解除时间可
本文标题:基于关联规则的通信网络告警相关性分析模型
链接地址:https://www.777doc.com/doc-315518 .html