您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > IT问题管理流程手册
第1章文档介绍1.1文档简介本文档参照ISO20000国际标准及ITIL业界标准的要求,结合公司IT服务的实际情况,描述了问题管理流程的详细设计。本文档是IT服务管理文件体系的管理流程文件之一。1.2文档用途本文档是公司综合运维管理平台中问题管理流程的初步设计,也是进一步改进问题管理流程的蓝本。本文档作为公司实施问题管理流程的参考,读者对象为公司内参与问题管理流程的人员和相关的管理层。本文档所描述的流程在IT服务管理中有如下作用:规范所有IT问题请求,以保证问题的充分解决;并为降低突发事件提供依据指导与IT问题流程的相关人员有一套规范的流程去执行问题流程指导IT管理平台项目的建设1.3文档结构本文档主要介绍了问题管理流程的执行原则、活动和相关角色。各章节中内容概要如下:文档介绍主要对文档的目的、用途及文档章节进行简要描述,并就文档中出现的术语进行了说明。1问题管理流程简介主要对问题管理流程的基本概念、目的进行了介绍。同时简单梳理了问题管理流程中包含的主要活动内容,最后将问题管理流程对组织及用户的业务价值进行了相关阐述。问题管理流程设计首先对问题管理流程的执行原则和相关定义进行描述,其次对相关人员职责和技能进行了定义,最后基于流程原则和角色定义,进而对问题管理的概要设计流程及详细设计流程进行了充分定义,最后给出了问题管理流程的标准报表。附件与问题管理流程相关的附属内容1.4文档术语服务台在ITIL中,服务台从根本上来说提供了用户和IT部门的唯一接口。此项功能常常通过集中的服务台进行体现。服务台的根本目的是提供一线支持,并通过变通方法、解决方案或升级到二线支持等手段帮助用户恢复到正常工作状态。事件管理ITIL流程,是负责解决所有的IT事件、问题和用户请求等的管理流程。它的目的是尽快恢复被中断或受到影响的IT服务,所以它的特点往往是以解决表征现象为目的,而不在于查找根本原因。2问题管理ITIL流程,是负责对事件进行深入分析,找出根本原因并提供解决方案的管理流程。它的目的是主动防御,找出根本原因并对其根除,所以它与配置管理流程有显著的不同,以“治本”为最终目标。变更管理ITIL流程,是负责对生产环境中支持IT服务的各种基础架构设备和应用系统的变更操作进行记录、分类、评估、计划和协调的流程。它的目的是在权衡“风险”和“效率”的前提下,对变更操作进行有效的控制,以保证任何变更对IT环境和其所支撑的IT服务的影响最小。发布管理ITIL流程,是负责对应用系统上线过程的全局管理和控制。管理范围涉及测试环境、预发布环境和生产环境等,旨在通过对发布单元的生命周期各个阶段的控制保证其安全稳妥的进入生产环境,而不引入新的缺陷或故障。配置管理ITIL流程,配置管理负责描述,跟踪和汇报所有IT基础架构中的每一个设备或系统的管理流程。这些设备和系统被称为配置元素(CI)。每一个CI必须有效管理,跟踪和控制以支持IT服务和基础设施成功运行。ITIL3ITInfrastructureLibrary,是英国政府在1987年制定的有关IT服务管理的方法论,现已成为事实上的IT管理标准。4第2章问题管理流程简介2.1流程的基本概念问题管理负责解决重大紧急事件或具有相同症状的一组事件。它的目的是找出事件的根本原因,并通过解除该根本原因从而防止类似事件的再次发生。同时问题管理流程也负责预防事件的发生。2.2流程目的问题管理流程的根本目的是消除或减少生产环境中事件发生的数量和严重程度,从而为国家核电建立一个稳定的IT环境,提高IT服务的可用性。此流程对发生在国家核电IT支撑系统生产环境中的问题进行管理,找出产生这些问题的根本原因,然后根据需要通过变更请求(RFC)、变通方法或建议的预防性措施来防止事件的再次发生。问题管理流程常常需要和变更管理流程一起来实施找出的解决方案,以便从根本上解决问题。其目的包括:分析并确定事件的根本原因,找到最终解决方案,以防止此类事件再次发生确保问题分派了正确支持人员,提高解决率根据问题优先级合理分派IT资源对事件记录做趋势性分析,主动提供预防性措施提高IT服务的可靠性5降低IT支持成本2.3流程的主要内容问题管理流程着重于消除事件或减少事件发生,确定事件的根本原因。主要活动包括分析事件、找出问题、分派问题、确定根本原因、找出解决方案、回顾及关闭。其主要内容如下:分析事件定期对事件进行分析,找出事件的潜在问题。生成问题记录在系统中生成问题记录并把所有相关事件与此问题单关联起来重大事件处理完后定义为问题技术支持专家在日常维护中发现的问题事件历史记录趋势分析分派根据问题内容将问题记录分派给适当的技术小组。根本原因分析被分派的小组人员将调查问题以期找出其原因,制定解决方案、变通方法或提出预防性措施,以消除产生原因,或在重发时使其影响力最小化。记录必须被更新以反映它是已定位原因状态,并且把任何变通方法、避免或最小化负面影响的动作行为也记录下来(如果需要添加到知识库中)。6开发、确认、提出实施解决方案对问题的解决方案进行评估、测试,提出变更请求(RFC)或实施具体的解决方案。回顾对问题的解决方案进行回顾,确认解决方案达到了预期的效果。总结及关闭确认问题的信息记录填写完整,并关闭问题单。7第3章问题管理流程设计3.1流程的执行原则3.1.1常规原则建立独立问题管理流程,应该与事件管理流程相对独立,事件经理与问题经理应该尽可能的由不同的人员担任应该每半年对问题管理流程的流程关键衡量指标、流程执行效率、流程支撑工具有效性等进行回顾,以改进和优化流程应该每周对事件进行分析,找出潜在的问题应该每月定期回顾和产生问题管理报表,对没有解决的问题,应该举行定期的问题管理会议对这些问题进行评估3.1.2流程的关联原则和事件管理的关联重复发生的事件解决后,服务台人员都应该创建问题单(问题单必须和事件单建立关联)和变更管理的关联问题处理过程中,如果需要对系统进行变更,必须按照变更管理流程的定义,提交变更请求单(变更单必须和问题单建立关联),变更完成后,继续问题单的处理和配置管理的关联问题处理过程中,可以通过配置管理查询相关的配置项8信息问题处理过程中,如果可以将根本原因定位到某个配置项,则必须将问题单与该配置项关联3.1.3问题所有权原则有效管理问题的前提是必须确保每个问题在任何时段都有适当的人员负责问题首先由问题经理审核,再负责分派给合适的问题处理专家或组当问题分派到问题处理专家后,问题处理专家负责该问题的诊断与解决问题经理负责与服务台或问题请求者沟通问题处理过程中的关键信息3.1.4重复问题原则重复问题是指经过分析之后,根本原因相同的问题。例如:问题处理专家提出了几个问题,但是经过分析之后,发现这几个问题的根本原因是相同的,这几个问题就可以定义为重复问题。对于重复问题需要进行标记,将相关问题单进行关联,当问题解决时同时进行回顾。3.1.5问题关闭原则通常,问题单在实施了解决方案之后,需要经过一段时间的回顾,由问题处理专家和问题经理一起来回顾解决方案是否达到了预期的效果,如果成功的实施,则提交给问题9经理,由问题经理确认问题信息记录完整,关闭问题。3.1.6趋势的分析原则问题经理定期组织会议,对所处理事件历史记录进行趋势分析:参加者应包括事件经理及问题处理专家会议每周组织定义趋势分析规则3.2流程相关定义3.2.1问题信息项问题信息项包含如下信息:序号信息项描述问题的识别与记录阶段填写1报告人信息问题报告人的信息,包括:姓名、电子邮件、办公电话、2问题来源参见“问题来源”定义3问题优先级参见“问题优先级”定义4问题所属系统类型参见“问题所属系统类型”定义5问题分类参见“问题分类”定义6问题简要描述简单描述问题(手工填写)7问题描述详细描述问题内容(手工填写)8是否新业务引起新业务上线后,但还未正式移交发生的问题(手工填写)9重复问题标记标记为重复问题,用已有标题号标注(手工填写)103.2.2问题的来源问题来源定义如下:编号代码描述10关联的事件单号记录引发该问题的事件单号11关联的变更单号记录由问题发变更时,关联的变更单号12关联配置项记录问题的配置项代码13分配对象将问题分配到各组问题处理专家问题的识别与记录阶段,系统自动填写1问题ID为每个问题分配一个唯一的序列号2登记时间生成问题记录的时间(系统自动产生)3问题状态参见“问题状态”定义4建单人创建问题工单的IT人员问题处理阶段填写1问题日志反映问题处理过程中问题信息项的变化历史,包括分配的人员,状态等信息(系统自动产生)2实际开始诊断时间问题状态更新为“分析中”的时间(手工填写)3实际诊断结束时间问题状态更新为“已有解决方案”的时间(手工填写)4问题根本原因查找出问题的根本原因(手工填写)5解决方案问题解决方案的详细描述(手工填写)问题关闭时填写1问题结束代码参见“问题结束代码”定义2问题关闭时间当问题状态更新为“结束并关闭“的时间(手工填写)111事件升级多次发生的突发事件或重大事件由服务台人员升级为问题,以便进行重复事件和重大事件的根本原因分析。事件处理过程中,需要通过问题处理流程,解决的事件,升级为问题。2维护中提出技术专家在日常维护工作中提出的问题。例如:维护专家在日常维护中发现,目前的数据库版本可能会存在着死锁、心跳不一致等方面的问题,此时就可以提出一个问题记录,以便分析。3趋势分析分析事件记录找出的问题。例如:在定期的会议中,对事件进行分析后发现,上周该类型的事件比平常的时候多了30%,超过了规定的阀值,这表明系统有可能存在着一些潜在的隐患,此时就可以提出一个问题记录,以找出问题的原因并解决。3.2.3问题的优先级定义问题的优先级是问题处理专家解决问题的参照标准,对于关键优先级的问题,管理层应该优先协调资源进行这些问题的解决。结合公司的实际情况,问题的优先级定义如下:编号代码描述1关键重大事件升级来的问题;维护专家提出或趋势分析产生的问题从如下方面考虑,问题是否:影响到关键业务(如:广域网、OA、核心交换网络等)影响范围极大(如:一个关键地区或半数以上非关键地区,如北京上海山东之间的广域网)紧迫程度最高(如:必须马上着手处理)问题处理后可大幅节省投资、人力,有效提高服务质量和维护效率2重要从如下方面考虑,问题是否:12影响到较关键业务(如:广域网、OA、等)影响范围较大(如:一个以上非关键地区)紧迫程度较高问题处理后可有效节省投资、人力,一定程度提高维护质量3普通从如下方面考虑,问题是否:影响到非关键业务有一定影响范围问题处理后对维护质量和效率的提升有限3.2.4问题的状态定义为了记录问题处理的生命周期,需要设置不同的状态加以描述,如下所示:编号代码描述1已登记问题记录到系统中2分析中问题处理专家正在分析问题过程中3已定位原因问题根本原因已找出4已有解决方案解决方案已找到5已提出变更请求已提交变更请求(RFC)6已回顾已经对问题进行了回顾7结束并关闭问题结束3.2.5问题的分类问题分类是针对问题所属的专业类型进行划分的,通过问题分类可以定位解决问题的人,并针对问题分类进行分类统计。问题分类定义如下:13一级分类二级分类三级分类网络系统广域网路由器交换机局域网核心交换机楼层交换机桌面终端硬件台式机笔记本打印机传真机软件操作系统标准软件非标准软件安全系统防火墙CA桌面安全管理系统综合运行监控系统运维服务台14防病毒软件上网行为审计系统电子签章应用系统OA系统协同交换系统公文交换系统统一消息系统门户网站系统邮件系统财务系统反腐倡廉系统视频会议系统电话会议系统存储系统3.2.6问题的结束代码为了表明问题的不同解决方式,定义如下结束代码:编号代码描述151根本解决找出问题的根本原因,并得到解决方案,成功解决2变通方法没有根本解决方案或目前没有办法实施根本解决方案,但有临时解决方案作为变通方法3无法解决未找到问题的根本原因,没有解决方案,或目前无法实施解决方案,也无变通方法4取消
本文标题:IT问题管理流程手册
链接地址:https://www.777doc.com/doc-1767315 .html