您好,欢迎访问三七文档
2012年8月小组:网络啄木鸟QC小组课题类型:创新型发表人:北京移动网运中心小组名称网络啄木鸟QC小组成立时间2008年12月课题类型创新型课题名称智能巡检平台研发活动时间2011年1月-2012年1月活动次数25小组人数9出席率96%序号姓名性别小组分工职称职责1臧志勇男顾问工程师活动指导2何嫚女顾问工程师活动指导3郭旗男顾问工程师活动指导4宗建菲男顾问工程师活动指导5刘春燕女组长,QC小组活动国家级诊断师,国优获得者工程师方案制定,组织实施6刘磊男组员工程师方案制定,组织实施7刘彦挺男组员工程师方案制定,具体实施8陈恕男组员工程师方案制定,具体实施9何媛女组员工程师方案制定,具体实施23ID任务名称2011年2012年负责人1-2月3-4月5-6月7-8月9月-10月11-12月2012年1月1选择课题刘春燕2目标设定刘春燕3确定方案刘彦挺、刘磊4制定对策刘磊、陈恕5对策实施刘彦挺、刘磊6效果检查刘春燕、陈恕7巩固措施何媛8总结与打算刘春燕、何媛计划时间实际时间时间:2011年1月第1-2次小组会议制定活动计划表,制表人:刘春燕4电子运行维护系统(EOMS):实现公司相关管理流程的信息化落地,是管理、维护人员日常工单处理的支撑平台。集中运行维护平台:通过指令接口完成网管系统对网络配置信息、主动监控指标、实时信息的查询等操作,实现各类网元指令统一下发、采集、分析、处理。综合告警平台:通过接入各类网元告警信息,实现通信网络告警的统一采集、统一关联、统一呈现,统一派单。5随着通信市场竞争的日趋激烈,网络质量已成为保障客户感知的生命线,其战略地位尤为重要。同时,网络管理也正向集中化、一体化逐渐演进。宏观环境网络质量竞争对手“携号转网”这项惠民政策的开展,使北京移动面临比之前更大的市场竞争压力,同时也对网络安全也提出了更高的要求。客户感知2011年中国移动将提升客户感知作为改善网络质量的指导方向,继续发挥“网络质量大会战”的重要作用。李跃总裁在网络工作会上指出:“实现全网质量全面领先竞争对手,建立起集中监控、集中网管、集中维护、集中优化的现代化维护体系。北京公司领导在网络工作会上指出:要“创新网络管理,推进“一体化”维护。战略规划6网运中心预防性维护故障处理网络优化投诉处理网络建设27个局点2000余万用户10000余台设备皂君庙区域西客站区域望京区域幸福区域网运中心作为北京移动通信网核心网络的维护部门,保障着移动通信网的安全、稳定、高效的运行,同时也是公司的日常运营收入重要保证。而核心交换设备承载着数十万的交换任务,因此关系客户感知的核心设备的预防性维护就成为我们工作中的重中之重。7序号问题未发现原因发生频数(12个月累计)频率%1维护项目手工查询工作量大、易出错48492维护项目执行不及时45473维护项目不能确保每项核查114维护项目不能确保有专人处理33合计97100小组对2010年下半年预防性维护问题发现情况进行了统计分析,得出目前的网络预防性维护方式不能完全及时准确地发现网络安全隐患。1、每天耗时150余人时,出错数由年初月均3件上升为年底月均5件。05年初年底353、近1%的维护项目不能确保每项核查。2、不能及时处理呈上升趋势。051013579114、有3%的维护项目无专人负责。时间:2011年3月第3—4次小组维护作业计划现状进行分析并归纳原因,制表人:刘春燕故障隐患发现率在98%左右98%98%97%99%97%99%96%97%97%98%98%99%99%100%84000余项日例行维护作业计划500台核心网设备12名维护人员4个维护组14654.7554.7536.5统计一年的例行维护作业计划数量(单位:万)日例行周例行月例行季例行时间:2011年2月第3—4次小组维护作业计划现状进行分析并归纳原因,制表人:刘春燕新从左图我们可以看出一年的日例行维护作业计划多达146万项,但我们的实际维护手段还主要停留在手动执行命令及通过小程序半自动执行的混合状态,手动执行效率低下,存在人为疏忽和遗忘,通过半自动工具手段也无法保证预防性工作的准确及时运行。9预防性维护HLRSGSNMGWMSSCDS全新智能化维护模式时间:2011年3月第5次小组设定课题目标,制表人:刘春燕小组决定开发一种全新智能化维护模式,达到及时发现故障、提高维护效率、确保审计效力的目的。经过小组讨论决定本次QC活动针对最重要的五类网元(HLR、SGSN、MGW、MSS、CDS)进行试点。1098%活动前活动目标99.99%100%活动前活动目标60%故障隐患发现率工作量针对提升预防性维护工作的迫切需求,小组成员运用“头脑风暴法”提出了11个想法。并通过亲和图进行绘制整理:11使用现有半自动化工具对现有工具进行优化开发周期短业务有变更后快速修改根据现有情况定制开发灵活度高基于区域的分散式开发解决方案集中操作维护平台已经实现到各网元的通道可通过EOMS故障工单的方式督促专人处理可以利用现有网管系统无需新购硬件设备综合告警平台与EOMS已开发完成相应接口提供整体的解决方案基于网管的集中式开发解决方案可利用多套网管系统进行联动开发将预防性维护内容纳入统一的故障管理开发完成后的平台有专人维护时间:2011年4月第6次小组会议成员头脑风暴利用亲和图归纳总体方案,制图人:刘彦挺12我们通过使用亲和图法,提出了两种解决方案:时间:2011年4月第6次小组会议成员头脑风暴利用亲和图归纳总体方案,制图人:刘彦挺基于网管的集中式解决方案总体方案二基于区域的分布式解决方案总体方案一13指标较好指标适中指标较差需求满足开发实现维护保障时间:2011年4月第7-8次小组会议对两个总体方案进行对比讨论,制图人:刘彦挺100%满足现有维护作业计划100%满足现有维护作业计划平均变更实现时间为1天平均变更实现时间为3天预计开发2个月预计开发1个月需自主开发,实现较困难需自主开发,实现较困难目前网管系统已经实现目前网管已有派单接口,需进行少量修改即可满足由于缺少专业测试,可用性较差,年平均系统可用性为:98%由开发人员进行监控维护,故障监控率为58.33%由于拥有专业测试,可用性较高,年平均系统可用性为:99.9%由专业的维护人员进行7*24监控,故障监控率为100%对比项基于区域的分布式解决方案基于网管的集中式解决方案对现有巡检任务的契合度智能巡检变更的灵活度开发周期是否方便与综合告警对接是否能够进行故障派单系统可用性系统维护性14小组在确定总体方案后,根据目前网管系统对各业务系统的运行状态提供多种支撑方式,可根据具体运维流程需要进行灵活的组合分配,满足预防性维护工作的各种要求。具体细化方案如下:时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊15集中运行维护平台维护人员网元1.集中运行维护平台通过网管系统向网元发送指令并采集返回的报文结果。2.维护人员直接登录集中运行维护平台对全部日例行维护作业计划项目进行查看和审核,并根据异常结果来处理故障。01010100101010时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊16测试方案测试过程测试网元BJGS04执行项目数量10返回报文时间2min报文呈现时间10s维护人员检查时间8min添加网元添加任务任务执行执行结果弹出报告√日例行维护作业计划的执行实现了自动化。√返回结果和呈现报告的时间都很短。X极大的缩短了之前人工执行指令的操作时间,但是人工审核报告还需要一定的时间。一个网元10项维护作业计划审核=8分钟,全网500余台设备进行遍历=500*8min=67小时结果分析人工审核时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊171.集中运行维护平台自动完成报文结果的审核,对异常项目生成智能巡检告警送至综合告警平台。2.由专门的监控人员分析综合告警平台上生成的维护作业计划告警信息。3.监控人员派发EOMS故障工单给相应区域的维护人员,维护人员根据故障工单来处理故障。网元集中运行维护平台综合告警平台01010100101010维护人员监控人员故障工单告警信息智能巡检告警时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊智能巡检告警18测试方案测试过程测试网元BJGS04执行项目数量10返回报文时间2min报文呈现时间10s派发智能巡检告警30s综合告警平台分析告警生成告警信息10s监控人员分析告警1min监控人员派发故障工单2min维护人员分析故障工单1min√对日例行维护作业计划的执行和审核都实现了自动化,不需要维护人员遍历全部项目。√由综合告警平台分析智能巡检告警只需要10s的时间,极大的压缩了维护人员审核时间。X但是监控人员对告警的分析、派单等还是人工执行,需要一定的时间。假定全网500台设备每天有500个告警(合理假设),监控人员需要用时(1+2+1)min*500=33小时结果分析派发故障工单综合告警平台监控人员人工派单时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊191.集中运行维护平台自动完成报文结果的审核,对异常项目生成智能巡检告警送至综合告警平台,综合告警平台自动完成对告警信息的分析并送至EOMS平台。2.EOMS平台根据告警信息自动生成维护作业计划告警工单,维护人员根据故障工单来处理故障。网元集中运行维护平台综合告警平台01010100101010告警信息智能巡检告警EOMS平台维护人员时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊20测试方案测试过程√对日例行维护作业计划的执行和审核都实现了自动化。√实现了告警信息分析和派发工单的自动化,真正实现了智能巡检平台由执行指令、分析结果到生成告警信息、派发工单的全程自动化。√省去了监控人员分析告警、派单等人工操作的步骤,由原来的3min压缩到了20s,现在维护人员对告警的处理只需要(1min+20s)*500=11小时结果分析测试网元BJGS04执行项目数量10返回报文时间2min报文呈现时间10s派发智能巡检告警30s综合告警平台分析告警生成告警信息10s派发告警信息至EOMS平台10sEOMS平台生成维护作业计划告警工单10s维护人员分析告警工单1min结论:最佳方案!智能巡检告警派发故障工单综合告警平台自动派单EOMS平台时间:2011年5月第9-11次小组会议讨论细化方案并进行试验,制图人:刘磊21A0A1A2A3ZB1B2C1C2D1D2时间:2011年6月第12次小组会议讨论确定处理流程,制图人:刘磊22时间:2011年6月第12次小组会议讨论确定开发模块,制图人:刘磊23时间:2011年7月第13次小组会议讨论确定对策表,制图人:刘彦挺项目对策目标措施负责人地点完成日期模块1开发集中运行维护平台的数据采集接口及参数优化数据采集的成功率达到99.9%以上①开发数据采集接口②用正交法选择最优的接口参数组合。刘彦挺菜市口13层会议室2011-07-31模块2使用JavaScript编写脚本,移植人机命令并开发命令脚本的模板完成所有日例行维护作业计划的操作指令的移植,实现100%覆盖率①编写符合智能巡检平台要求的巡检任务脚本,涵盖所有网元类型的所有日例行维护作业计划项目刘磊菜市口13层会议室2011-08-31模块3添加巡检方案,按照集团公司要求完成任务调度完成所有维护项目的模板制作和方案下发,完成全部日例行任务的调度。①创建维护项目的模板,选择要下发的模板和网元建立方案。②系统将自动生成元任务,根据集团规范要求完成巡检任务调度刘春燕菜市口13层会议室2011-08-31模块4集中运行维护平台与综合告警平台进行联调,实现巡检任务触发告警信息综合告警平台能够自动完成告警分析、生成相应的告警信息①制作智能巡检平台与综合告警平台的接口,以使综合告警平台能够分析集中运行维护平台根据巡检任务脚本制定的规则产生的告警刘彦挺菜市口13层会议室2011-08-31模块5
本文标题:智能巡检平台研发
链接地址:https://www.777doc.com/doc-743626 .html