您好,欢迎访问三七文档
2010年贵州移动QC小组活动汇报材料降低ADC故障时长率集团新业务部QC小组2010年3月贵州移动集团新业务部QC小组活动汇报材料一、小组概况:课题名称:降低ADC故障时长率课题类型:现场型活动时间:2009.7——2010.3小组名称:集团新业务部业务运营维护室QC小组小组成员姓名性别文化程度组内分工组内工作职责李文华男硕士组长组织协调,任务布署齐肇建男硕士副组长任务实施,成果整理沈巍男本科组员数据分析,制定对策曾果男本科组员执行措施,效果检查范丹男本科组员数据收集,执行措施赵喆男本科组员数据收集,执行措施李荣琼女本科组员数据收集,材料整理周杰男本科组员技术支撑钟方学男本科组员技术支撑王宁男硕士组员发布统筹刘芸女本科组员发布实施童自影男本科组员发布实施贵州移动集团新业务部QC小组活动汇报材料专业术语解释:•ADC:•月故障时长率:英文全称:ApplicationDataCenter,中文名为数据应用中心。是指中国移动为集团客户(主要为中小企业客户)按需提供基于移动终端的托管式的信息化应用服务。指每月发生故障的小时数除以每月的总小时数再乘以100%例如:1月发生故障的小时数为76小时,1月的总小时数为744小时,则1月的故障时长率为76÷744×100%=10.2%贵州移动集团新业务部QC小组活动汇报材料经过维护月报统计,发现所管理的几个业务平台中,ADC平台故障较多。二、选题理由经调查发现ADC的故障时长率较高为尽快改进ADC的维护支撑状况,支持业务发展,我们选择课题如下:课题名称:降低ADC故障时长率2009年1—6月ADC平台故障时长率较高,月均达到5.23%贵州移动集团新业务部QC小组活动汇报材料三、活动计划时间2009—72010—3现状调查活动目标原因分析要因确认制定对策组织实施效果检查巩固措施计划打算达到目标啦!贵州移动集团新业务部QC小组活动汇报材料三、现状调查2009年1、2、3、4、5、6月ADC平台月故障时长率统计表月总时长(时)月故障总时长(小时)月故障时长率1月74439.55.3%2月67234.35.1%3月72035.74.95%4月74437.55%5月744425.6%6月720405.56%合计:43442305.23%本小组于2009年7月对2009年1、2、3、4、5、6月ADC平台的故障时长率进行了统计,如下表:该统计表显示:此六个月的平均月故障率达到5.23%。贵州移动集团新业务部QC小组活动汇报材料三、现状调查小组又对故障时长的具体情况进行了分类统计,得出各种故障类型所占总故障时长的比例,如下表:2009年1、2、3、4、5、6月ADC故障类型汇总表序号故障类型故障总时长故障时长占比累计占比A业务无法使用160.3小时69.7%69.7%B用户无法登陆平台29.9小时13%82.7%C企业归属地出错22.5小时9.8%92.5%D计费故障5.1小时2.2%94.7%E其他故障12.2小时5.3%100%贵州移动集团新业务部QC小组活动汇报材料三、现状调查从此图可看出,“业务无法使用”的故障时长占比数值最高(69.7%),因此“业务无法使用”是影响故障时长的主要故障类型。根据以上数据我们制作了饼图:69.7%9.8%5.3%13%69.7%9.8%13%业务无法使用用户无法登陆平台5.3%2.2%计费故障企业归属地出错其它故障贵州移动集团新业务部QC小组活动汇报材料四、目标确定通过对业内情况的了解,ADC月平均故障时长率一般不高于3%小组成员通过计算发现,如果能解决“业务无法使用”这个主要问题(占69.7%),就可以将故障时长率从5.23%降低到3%以下,即:5.23%-69.7%*5.23%=1.58%。所以QC小组成员认为ADC月平均故障时长率达到3%的平均水平是可能的。3%5.23%目标值现值贵州移动集团新业务部QC小组活动汇报材料五、原因分析小组成员应用头脑风暴法,得出以下树图:业务无法使用用户订购失败业务请求响应慢网络阻塞并发进程过多外网攻击网络不稳定网络链路不合理客户经理未鉴权不能及时发现SI侧产品故障产品业务流程不熟SI使用其它运营商的网络用户登陆失败用户帐号密码忘记用户帐号被锁设备处理能力不足CPU和内存处理能力不足F5配置不合理BOSS与平台链路不合理业务平台鉴权失败贵州移动集团新业务部QC小组活动汇报材料五、原因分析小组对“业务无法使用”的问题进行了分析,共得出十一条末端原因:1、产品业务流程不熟悉7、BOSS与平台链路连接不合理2、SI侧无鉴权8、CPU处理和内存处理能力不足3、不能及时发现SI侧产品故障9、F5配置不合理4、用户账户密码忘记10、并发进程冲突5、用户帐号被锁11、外网攻击6、SI与ADC跨网连接贵州移动集团新业务部QC小组活动汇报材料这对上述十一条末端原因,我们用要因确认表进行逐条的分析:六、要因确认序号末端原因确认方法确认标准确认结果是否要因1产品业务流程不熟现场确认对操作人员进行随机抽查,要求合格率达到90%以上抽查人员中有将近56%的人员对产品业务流程不太熟悉是2SI侧无鉴权统计此类故障占订购失败的占比例是否占订购失败比例的5%否否3用户帐号密码忘记查看系统日志重置密码的比例不高于登录次数的5%1.00%否4用户帐号被锁现场确认重置密码的比例不高于总用户数的0.1%ADC没有开启账户锁定功能否5不能及时发现SI侧产品故障比较因投诉发现的SI侧产品故障次数和主动发现的次数的比例是否比例大于1比值为321是贵州移动集团新业务部QC小组活动汇报材料六、要因确认序号末端原因确认方法确认标准确认结果是否要因6SI使用其它运营商的网络比较其它运营商网络接入与移动专网接入的单位处理能力比较运营商之间的专网处理能力相差1倍以上是是7BOSS与平台链路不合理分析现网结构有无多余路由节点有是8CPU和内存处理能力不足现场确认设备的CPU,内存的占用率是否低于70%的要求设备的CPU、内存占用率都比较低,CPU在30%左右,内存在40%左右。否9F5配置不合理检查配置确认连接数是否平均分配给各台服务器。采用“空闲接入”的配置进行分配,各台服务器连接数几乎相同。否10并发进程过多现场确认是否存在垃圾进程无垃圾进程否11外网攻击现场确认是否有外网攻击的痕迹经过检查主机及网络设备发现,并无被攻击的情况否贵州移动集团新业务部QC小组活动汇报材料六、要因确认确认一:客户经理对产品和业务流程不熟悉目前,我省ADC平台的产品共计13个,各个产品的业务开通的流程不尽相同,而且业务开通的整个过程涉及BOSS、ADC和SI三方,需要客户经理具备比较丰富的业务知识和操作经验。QC小组专门查阅了“用户订购失败”故障解决的记录,经过对此类故障原因的分析发现:从2009年1月1日至6月30日,因客户经理不熟悉业务造成用户订购失败的情况共计发生85次,占造成此类故障原因的82.52%,具体数据见下表:1月2月3月4月5月6月合计占比因客户经理不熟悉业务造成用户订购失败的情况18617218158582.52%其它故障4036131717.48%总计:1032009年1月至6月“用户订购产品失败”故障原因统计表贵州移动集团新业务部QC小组活动汇报材料六、要因确认确认一:客户经理对产品和业务流程不熟悉在发现上述问题后,我们又采用问卷和现场访谈的形式对50个客户经理的相关业务知识和电脑操作能力进行了抽样调查,以便再次确认该项要因。调查显示:抽查人员中有56%的人对产品和业务流程不熟悉;而仅有7%的人电脑操作能力较差。具体数据如下:好一般不熟悉产品和业务知识15%29%56%电脑操作能力25%68%7%2009年7月业务能力情况调查表结论:客户经理对产品和业务流程不熟悉是要因。是要因QC小组贵州移动集团新业务部QC小组活动汇报材料六、要因确认确认二:SI侧未鉴权QC小组通过对ADC平台和SI平台接口进行调查,发现SI侧未鉴权的次数为2次,占用户订购失败次数103次的1.9%,因此不是要因。QC小组通过对ADC平台用户帐号管理情况进行调查,并访谈ADC平台帐号管理人员,发现要求重置密码的情况每月不超过2次。按照全省用户比例,不到1%。所以用户帐号密码忘记不是要因。QC小组通过对ADC平台帐号登陆的设置进行查阅,发现现ADC平台未将三次登陆失败锁定用户的选项打开,不会发生用户帐号被锁的情况,所以用户帐号被锁不是要因。确认三:用户帐号密码忘记确认四:用户帐号被锁贵州移动集团新业务部QC小组活动汇报材料六、要因确认确认五:不能及时发现SI侧产品故障1月至6月由客户经理反馈的SI业务平台故障次数31次,而平台维护人员仅在3月份发现一次SI业务平台故障。详细情况如下表:通过上表可以看出ADC业务用户投诉平均值为5.17条,远远高于主动发现的次数,因此不能及时发现SI侧产品故障是要因。1月2月3月4月5月6月平均值ADC业务用户投诉6735465.17维护人员主动发现0010000.16是要因QC小组贵州移动集团新业务部QC小组活动汇报材料六、要因确认确认六:SI使用其它运营商的网络通过对ADC平台与SI网络详细、彻底的调查,发现各家SI厂商采用不同运营商的网络通过INTERNET与ADC平台进行连接,具体拓扑图如下:网络瓶颈其它运营商SI系统SI系统SI系统SI系统ADC平台其它运营商其它运营商其它运营商移动公司互联网贵州移动集团新业务部QC小组活动汇报材料六、要因确认确认六:SI使用其它运营商的网络从以上网络拓扑图可以看出部分SI系统通过其它运营商的互联网络与ADC平台进行数据接口交换。由于其它运营商互联网络与中国移动互联网存在网络瓶颈问题,网络传输得不到保障,对用户的业务使用会造成一定的影响。为了测试SI与ADC平台跨网连接是否存在影响,我们采用两家接入在不同运营商网络的相似SI业务进行摸拟对比实验。实验方法如下:编写测试脚本,模拟用户连续订购《移动CRM》业务和《移动OA》订购操作,在每一台ADC服务器上各选取5个区间,在每个区间内执行一次测试脚本,获得ADC与《移动CRM》、《移动OA》SI服务器的交换接口的平均时间。经过实验,统计出如下数据:业务名称接入网络10次30次50次100次200次移动CRM接入其它运营商100s315s425s1325s3540s移动OA接入移动网络20s52s86s165s435s经过上面的测试可以得出《移动CRM》比《移动OA》接口交换网速快了5倍左右。网络访问的延时会影响用户定购产品的成功率,增加故障率。因此SI使用其它运营商的网络是要因。是要因QC小组贵州移动集团新业务部QC小组活动汇报材料六、要因确认确认七:BOSS与平台链路不合理BOSS计费库ADC平台BOSSAGENT服务器金阳十一楼金阳七楼金阳八楼黑马二十楼黑马十八楼新华苑六楼通过右方网络拓扑图可以看出,BOSS计费库和BOSSAGENT服务器本来在同一地理位置金阳,但网络传输确经过了黑马和新华苑的交换机等中间网络传输设备再绕回到金阳ADC机房,网络链路环节过多,故障原因查找耗时比较长,影响业务故障的及时发现和排处。故BOSS与平台链路不合理也是要因。通过对ADC平台的BOSSAGENT与BOSS计费库的网络进行详细、彻底的调查,发现BOSSAGENT与BOSS计费库的网络链路较长,故障点太多,发生故障时不能及时排查修复,维护比较困难。具体拓扑图如下:是要因QC小组贵州移动集团新业务部QC小组活动汇报材料21QC小组经过现场登陆监控软件取得2009年上半年任意三个月的CPU和内存数据,以中国移动集团公司设备运行标准,70%以上作为告警线。发现CPU和内存的平均使用率都在45%以下。未达到告警线,所以不是要因。0.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%各服务器任意3个月CPU使用情况EAA1服务器EAA2服务器PORTAL1服务器0.00%5.00%10.00%15.00%20.00%25.00%30.00%35.00%40.00%
本文标题:QC成果汇报3
链接地址:https://www.777doc.com/doc-420669 .html