您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 中国移动浙江公司IT系统故障详细分析报告模板
浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第1页十二月份故障分析报告(12月01日-12月31日)1、关于12月4日客服部分座席多次出现被突然签出的故障(蓝)故障标题故障简明回顾说明故障现象故障原因故障标准恢复情况改进措施1、故障详细分析故障现象详细描述事件单号问题单号开始时间(系统)15:10恢复时间(系统)16:06开始时间(业务)15:10恢复时间(业务)16:06故障影响系统故障影响业务故障处理情况故障起因详述故障处理回顾1.处理后效果/遗留问题说明无是否影响集团考核否故障原因是否已在故障池内否浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第2页运维故障评估故障根源系统客服系统严重程度□重大□严重□主要■一般系统开发商亚信联创故障待改进点涉及科室■应用优化室(运行异常)统一权限配置配置管理□客户响应室软件质量需求管理□业务管理室缺陷管理□业务管理室架构管理□系统规划室测试管理□开发管理室统一产品配置配置管理□计费帐务室软件质量需求管理□业务管理室缺陷管理□业务管理室架构管理□系统规划室测试管理□开发管理室基础设施基础保障■系统优化室系统能力(架构、容量)问题业支系统□系统规划室经分系统□经营分析室信安系统□信息安全室软件质量业支系统需求管理□业务管理室缺陷管理■业务管理室架构管理□系统规划室测试管理■开发管理室经分系统□经营分析室信安系统□信息安全室电渠系统□客服中心电渠运维故障分析1)告警监控管理【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题2)高可用保障管理【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题3)运维操作管理【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题4)系统基础平台【原因分析】浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第3页问题【改进措施】□规范执行□重复问题□历史遗留问题故障后续改进故障所属域(CRM/BOSS/渠道)优化需求优化需求编号需求开发责任人需求维护跟踪人BR2014010631系统优化室-关于客服业务系统便签发送的优化需求石永超钟储建告警监控告警调整版本号告警调整任务单号告警调整人故障预案预案名称新增/修改预案编写人高可用保障优化分析报告名新增/修改报告撰写人数据稽核数据稽核任务任务单号稽核人疑难问题专题名称专题需要的资源专题发起人改进措施落实情况运维报告撰写人钟储建,刘鹏改进措施落实监督人陈航开发故障评估故障责任小组开发故障分析故障引入需求编号和名称故障影响范围故障原因综述故障详细分析及问题解决故障解决措施改进措施(问题避免)1)需求因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第4页2)系统设计因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题3)软件编码因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题4)自测因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题开发改进措施落实情况开发报告撰写人开发改进措施落实监督人测试故障评估故障责任小组测试故障分析1)功能测试因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题2)回归测试因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题3)性能容量测试因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题4)安全性测试因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题5)编译因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题6)上线因素分析及【原因分析】浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第5页改进【改进措施】□规范执行□重复问题□历史遗留问题改进措施落实情况测试报告撰写人测试改进措施落实监督人2、关于12月8日金华用户反映通过社会渠道系统充值话费未到帐的故障(蓝)故障标题关于12月8日金华用户反映通过社会渠道系统等充值话费未到帐的故障(蓝)故障简明回顾说明故障现象1、金华地区反馈通过社会渠道进行充值后,资金不能及时到账;2、部分用户反映通过积分兑换的资金也没有到账。故障原因8号当天由于日帐单表没有及时进行表分析,维护进行多次重启查询代理,导致金华地区充值入账本处理程序scoket连接出现异常,连接查询代理失败率高,最终引发充值入账本工单积压,用户充值没有及时入账。故障标准投诉量(5,30],咨询数(30,300]恢复情况重启查询代理后恢复正常。改进措施1、运维监控能力优化:增加充值入账本程序连接查询代理失败的错误信息的监控,能够避免故障的发生;2、梳理完善充值预案:梳理外围系统(如充值接口)的框架和相应的处理环节,对充值未到账建立详细的处理预案,针对充值未到账的问题能够及时快速的处理,缩短故障恢复时间。3、查询代理架构优化:查询代理作为连接外围系统和实时帐务的枢纽,需要进行框架优化,具备对外围吞吐量、调用来源、成功失败数、错误类型、关键业务耗时进行有效记录,并且能够通过运维平台展现,最终达到可监可控,可视可分析。故障详细分析故障现象详细描述客服报障,反映金华地区反馈通过社会渠道进行充值后,资金未及时到账;部分用户反映通过积分兑换的资金也没有到账。通过对外围接口比对和充值后台处理步骤的核实,发现充值入账本处理程序scoket连接有问题,入账本工单积压,用户充值不能及时到账。事件单号SD201312087506问题单号PM201312085443开始时间(系统)14:30恢复时间(系统)19:50开始时间(业务)17:00恢复时间(业务)19:50故障影响系统账务管理系统故障影响业务充值业务浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第6页故障处理情况故障起因简述1、12月8号话费增量查询手工关闭,接到客服中心要求对话费日增量查询菜单开启,后台开启查询并重启查询代理,并发现查询超时,对重新关闭日增量查询菜单并重启了查询代理;2、故障发生以后,通过后台日志分析,从14:30开始,充值入账本的日志就开始出现大量的连接MDB出错的信息,提示连接错误,系统设置了重复连接3次的配置,充值入账本处理失败率升高,导致充值工单入账本一直积压,入账本超时,外围用户充值入账本超时;3、19:28接到客服反映用户充值未到账的,通过分析发现为入账本程序连接socket有问题,通过重启查询代理,故障恢复。故障处理回顾1、19:28接到客服关于金华地区部分用户充值未到账以及通过积分兑换的资金也没有到账的报障;2、19:40维护人员通过后台日志核实为充值工单处理入账本积压,导致入账本超时,不能正常的入账本;3、19:50根据故障标准,由于关联投诉达到300个用户,按照故障等级升为蓝;4、19:55重启查询代理后,所有入账本的积压工单在2分钟内完成了入账本处理,充值未到帐的问题得以恢复。处理后效果/遗留问题说明无是否影响集团考核否故障原因是否已在故障池内否运维故障评估故障根源系统严重程度□重大□严重□主要■一般系统开发商亚信故障待改进点涉及科室■应用优化室(运行异常)统一权限配置配置管理□客户响应室软件质量需求管理□业务管理室缺陷管理□业务管理室架构管理□系统规划室测试管理□开发管理室统一产品配置配置管理□计费帐务室软件质量需求管理□业务管理室缺陷管理□业务管理室架构管理□系统规划室测试管理□开发管理室基础设施基础保障□系统优化室系统能力(架构、容量)问题业支系统□系统规划室经分系统□经营分析室信安系统□信息安全室软件质量业支系统需求管理□业务管理室缺陷管理□业务管理室架构管理□系统规划室浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第7页测试管理□开发管理室经分系统□经营分析室信安系统□信息安全室电渠系统□客服中心电渠运维故障分析1)告警监控管理【原因分析】充值工单入账本Am_ps_payment_fast_nnn表积压,告警系统没有生成相应告警信息。【改进措施】□规范执行□重复问题□历史遗留问题核实告警配置不完善,已经协调告警维护人员重新部署入账本的监控。2)高可用保障管理【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题3)运维操作管理【原因分析】针对充值流程和各环节没有详细的分析,故障发生时维护人员对故障的定位不够准确,延缓了故障处理时长。【改进措施】□规范执行□重复问题□历史遗留问题梳理充值各环节的核查点,建立快速响应预案,能够及时处理故障。4)系统基础平台问题【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题故障后续改进故障所属域(CRM/BOSS/渠道)优化需求优化需求编号需求开发责任人需求维护跟踪人告警监控告警调整版本号告警调整任务单号告警调整人核实告警配置裴江华故障预案预案名称新增/修改预案编写人增加外围充值环节梳理章清云高可用保障优化分析报告名新增/修改报告撰写人数据稽核数据稽核任务任务单号稽核人疑难问题专题名称专题需要的资源专题发起人改进措施落实情况运维报告撰写人唐艳芬改进措施落实监督人蒋健浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第8页开发故障评估故障责任小组开发故障分析故障引入需求编号和名称故障影响范围故障原因综述故障详细分析及问题解决故障解决措施改进措施(问题避免)1)需求因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题2)系统设计因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题3)软件编码因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题4)自测因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题开发改进措施落实情况开发报告撰写人开发改进措施落实监督人测试故障评估故障责任小组测试故障分析1)功能测试因素分【原因分析】浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第9页析及改进【改进措施】□规范执行□重复问题□历史遗留问题2)回归测试因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题3)性能容量测试因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题4)安全性测试因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题5)编译因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题6)上线因素分析及改进【原因分析】【改进措施】□规范执行□重复问题□历史遗留问题改进措施落实情况测试报告撰写人测试改进措施落实监督人3、关于12月26日部分地市社会渠道客户关系管理系统登陆异常故障(黄)故障标题关于12月26日部分地市社会渠道客户关系管理系统登陆异常的故障(黄)故障简明回顾说明故障现象第一次故障:8:35分,全省代理点反映客户关系管理首页平台无法登录,无法进行业务受理和充值。8:38通知代理点直接通过社会渠道三个源IP访问后能正常访问。9:05分,网宿(CDN内容发布运营商)将渠道电信域名crmct.chnl.zj.chinamobile.com解析到源站地址122.224.123.75,电信用户反馈业务暂时恢复。(蓝)第二次故障:9:53分,网管中心将割接的社会渠道、终端、CRM新渠道域名全部回退后,部分访问社会渠道、终端、CRM新渠道页面会跳转到错误页面,DNS域名解析到未知的IP;10:30,维护人员联系网管中心将社会渠道、终端、CRM新渠道域名别名记录到网宿,在网宿端将社会渠道、终端、CRM新渠道全部域浙江移动通信有限责任公司业务支撑中心浙江移动业务支撑中心第10页名解析到源站地址;11:40,业务恢复正常。(黄)故障原因第一次故障:由于割接当晚进行社会渠道、终端、CRM新渠道系统的CDN迁移,各平台业务通过CDN缓存加速。在CDN平台迁移过程中,网宿没有配置SSL证书,造成社会渠道的https访问无法打开。第二次故障:在社会渠道、终端、CRM新渠道系统的域名
本文标题:中国移动浙江公司IT系统故障详细分析报告模板
链接地址:https://www.777doc.com/doc-2770455 .html