您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 光大银行IT服务管理项目汇报
IT服务管理的基础完备的监控体系光大银行信息科技部运行处2006年9月内容提要完备监控体系的建设监控体系的总体目标监控体系的涵盖范围监控体系的功能说明监控体系的参与人员监控体系的工作流程完备监控体系的总体目标确保IT基础环境健康确保生产环节的所有硬件环境(包括备份机器)无故障及隐患;确保所有系统软件(如操作系统、数据库等)自身无故障及隐患;确保网络环境畅通;确保应用系统服务可用根据各应用系统的架构,建立应用服务可用检查档案,明确应用系统所有可用检查项目,确认检查的方法及判断的条件;在后续运行过程中随着事故的分析以及系统变更,同步维护可用检查档案;搜集全面的运行数据利用各类技术手段持续获取IT系统运行过程中的关键数据(如:基本资源的CPU等、特定事件的数据库I/O等待事件等、特定操作的持续时间等);主动优化系统利用搜集到的数据定期发布系统运行情况简报,分析当前运行主要问题,提出系统优化计划;完备监控体系的涵盖范围涵盖范围(将监控布置到所有生产节点)通过OVO监控生产系统的IT标准组件(OS/DB/MW/硬件/网络):对OS的系统日志、CPU/内存类资源、进程、文件系统、标准服务等按照规则监控;对数据库(oracle/Informix/Sql_Server)的性能、事件、资源使用、日志进行监控;对中间件(TUXEDO/WEBLOGIC)的状态、服务、队列监控;对SAP等特定应用程序监控;应用服务可用状态检查:按照应用可用状态检查清单,以iEAI持续自动检查应用的可用状态;包括应用的接入、进程、外部关联、状态、交换数据等特定检查点;专用硬件设备的监控:针对ATM、加密机等专用设备,提出监控和报警的标准,在应用项目实施中加以关注,以确保生产系统的安全;系统优化的实施对关键IT组件(如数据库、中间件)建立性能数据仓库并持续优化;完备监控体系的功能说明监控体系的概况应用前端应用服务进程存储操作系统中间件数据库主机网络应用外部连接数据交换专业诊断工具及性能管理OVOIT组件标准监控应用可用性检查流程应用维护流程批作业等此部分主要监控构成应用系统的标准IT组件,针对标准的协议、资源、服务、日志等进行监控,考虑各应用系统的不同特点,定义不同的监控模板,被动大范围的监控各类事件发生,同时搜集系统运行性能数据,这类故障约占系统故障的30-40%此部分主要是针对应用系统的特定配置、维护操作、应用的关联、专用设备等进行主动检查,是一个灵活修改、主动检查的体系,主动发现应用系统不可用的情况,此类故障占总故障率的60-70%完备监控体系的功能说明_IT基础环境监控IT基础环境监控:主要目标:在IT系统中,硬件、操作系统、数据库、网络、交换机等基础环境的健康是保障IT服务的充分条件,这里:硬件:确保有故障及时发现(如:网卡故障,此时虽然有备网卡保证运行,但是必须及时排除故障消除隐患);操作系统:确保操作系统正常(如:CPU不常时间过高、不超核心参数阀值控制、文件系统正常等);数据库:确保数据库自身状态正常(如:可连接、无大量等待事件等);网络:确保网络节点的连通;交换机:确保及时发现交换机故障;主要工具:OVO数据来源:从各IT组件的底层获取。完备监控体系的功能说明_IT基础环境监控IT基础环境监控-OVOOVO原理介绍对构成应用系统的OS、数据库、硬件、网络、中间件的运行阀值、日志、状态进行监控,按照预先定义的模板,触发事件并产生报警消息,由监控人员按照消息的级别进行相应的故障处理。OVO监控节点OVO管理服务器OVO监控代理:NNM监控代理:•OS•数据库•硬件•网络•中间件•自定义日志•自定义进程•SNMP事件消息解释:•匹配消息•执行操作•现场数据•过滤消息•消息暂存•存储数据服务器:•按规则显示消息•消息关联•消息处理•根据消息发送提示触发事件执行操作发送消息完备监控体系的功能说明_IT基础环境监控IT基础环境监控-OVOOVO重点工作:针对不同特点及平台的生产系统布置不同策略的监控模板;针对应用系统的特点分别定义不同监控策略模板的阀值;对应用系统的日志,监控关键事件的发生;对中间件、SAP等特定系统软件分别定义不同监控模板布置监控;OVO的优缺点:优点:可以大范围地监控IT工业标准组件,处理大量的标准信息,可以配置复杂的模板及消息处理机制,可以建立应用系统的物理视图;缺点:无法做特定监控,不能做复杂的判断,不能针对某个应用系统做完备的服务状态可用检测;场景:OVO中大量的报警信息不一定表明应用系统不可用,只说明IT环境存在隐患,应及时排除,但当应用特定环节故障(如交换数据不完整等),引起应用不可用的情况下,OVO不一定报警;完备监控体系的功能说明_IT基础环境监控IT基础环境监控-OVOOVO报警工作台:完备监控体系的功能说明_应用可用检查应用可用状态检查:主要目标:通过应用系统文档规范,对所有投产或者即将投产的应用系统,建立应用可用状态检查清单,按照该清单检查项目检查判断,能够确认应用可用,这是保障IT服务的必要条件,中检查项目分为如下类别:应用数据:应用的专用业务数据是否按照逻辑、日期、时间、大小、属性等因素及时就位;应用进程:所有应用进程是否按照日期、时间等逻辑要求启动,启动的数量、侦听端口以及其他必备条件;应用外部连接:应用与其他关联系统的各类连接,如:IP1到IP2的8125端口可用等;应用特定基础:主要是确保数据库、中间件一类基础系统的应用特定部分可用,例如:数据库中某个SQL的数量;应用专用系统:应用的专用部分,包括软件和硬件,例如:以特定命令检查加密机的工作状态等;主要工具:iEAI数据来源:根据应用自定义的检查命令。完备监控体系的功能说明_应用可用检查应用可用状态主动检查可用检查重点工作:以应用系统投产标准文档的系统检查部分为依据,定义应用系统的检查流程,此流程应包括应用系统能够对外正常提供服务所有关键点,此部分是系统开发、系统管理、系统变更的重要环节;当发生系统紧急切换等情况后,依据此流程能够确认应用系统可用;将应用系统监控的非标准部分纳入到自动检查流程;此流程由变更环节维护,但检查内容由应用开发、系统管理、系统监控、共同维护完善;iEAI的优缺点:优点:以应用视角来完整定义确认系统可用的检查流程,可进行非标准的检查,可增加复杂的判断及处理动作,能建立应用的逻辑试图;缺点:不易监控大量的标准信息及架构,不能定义标准模板大量布置,不能建立应用的物理试图;场景:OVO报主网卡故障,但iEAI报应用正常,iEAI检查发现报表不全应用不可用,但OVO无任何报警;完备监控体系的功能说明_应用可用检查应用可用检查-iEAIiEAI原理介绍以自动循环形式对应用系统特定的配置环境、进程环境、外部关联、数据库特定事件、操作任务、数据状态等在特定的法定日期及时间进行主动检查,及时预警应用的不可用状态,确保应用系统能够提供服务。完备监控体系的功能说明_应用可用检查应用可用检查-iEAIiEAI原理介绍接口类别:http,file,ftp,SSH,ShellCMD,snmp,Email,DataBase,XML……完备监控体系的功能说明_应用可用检查应用可用检查报警方式iEAI报警方式:iEAI报警OVO报严重报警OVSD产生工单自动报警判断转换工单iEAI在集中监控台OVO中产生的应用可用检查报警OVO集中监控台一线监控值班人员完备监控体系的功能说明_特殊设备及机房环境相关工具及功能ECC等专用工具由ECC等专用工具监控存储、SAN设备的自身健康状态,并以邮件、SNMP、消息等形式发送到监控管理平台;机房环境监控对电源、空调等机房设备监控;对漏水、火灾等监控;完备监控体系的功能说明_与ITSM其他功能的关系与IT服务管理中其他功能的关系与事故处理的关系对于事故的发现与定位,主要依靠监控体系,同时对于没有在监控体系发现与定位的事故,必须认真评估,查找原因后不断修补监控体系;与变更管理的关系在变更过程中必须考虑监控和检查手段;在发现监控体系漏洞后必须通过变更环节协调CMDB中CI修改;与配置管理的关系在配置管理环节必须建立应用系统的可用检查配置项;与系统开发的关系在应用开发阶段,逐步按照《应用系统投产规范》完善架构设计、容灾、容错等环节;在应用投产前的性能测试阶段开始计划长期性能跟踪计划;在应用投产前的破坏测试中验证并完善应用的可用状态检查清单;完备监控体系的相关人员及职责监控人员按照监控管理规定,通过统一的监控平台,7×24小时监控所有生产系统;当发生监控管理规定中定义的事件(严重报警、未知错误),按照要求在OVSD平台登记事故,并第一时间通知管理责任人;负责跟踪事故的解决,并按要求的时间间隔向负责人不断汇报情况;运行主管指导当班监控人员的工作,按照事故处理流程处理突发事件;汇总各类生产事故,查找监控未覆盖的环节,及时将监控体系未覆盖的环节在OVSD中问题模块提出;监控管理员处理监控系统中发现的性能报警及次要错误,跟踪解决突出问题,主动消除隐患;定期发布《系统监控问题分析简报》,供系统管理员参考,优化系统;按照应用配置及监控的变化,调整监控系统OVO的模板及阀值设置;负责协调系统管理员及开发人员及时维护应用可用状态检查档案的更新;统一安排处理在问题管理部分提出的监控请求问题;完备监控体系的相关人员及职责系统管理员系统管理员按照《应用系统投产标准文档体系》中监控检查部分要求,对应用系统提出各层次的监控指标及监控检查手段,与监控系统管理员协同纳入监控体系;应用系统如果发生变更,在OVSD中评估是否需要调整相应的监控体系;当监控系统发生报警事件后系统管理员作为第一相应人处理事故;对于各类常见事故制动相应处理流程纳入到紧急处理流程工作环节;定期核实真实环境与监控的情况,发现遗漏提交给监控管理人员。变更管理员在应用系统实施变更过程中,控制筛选需要对监控体系进行变更的环节,及时协调监控管理员实施监控体系的变更。应用项目开发人员配合系统管理员按照《应用系统投产标准文档》中监控检查部分实施应用系统的监控环节,维护应用系统可用状态检查档案;针对应用监控中有关应用部分的事故,制定实施应急处理流程,完善发现、定位、处理体系;完备监控体系的工作流程_新系统投产《开发人员》建立应用可用检查清单按照:1)IT基础环境;2)应用可用检查;两个项目形成投产监控档案在OVO中部署各节点及层面的监控模板,设置特定阀值在iEAI中实施应用可用的:1)特定检查;2)基础检查;《系统管理员》建立应用IT基础环境检查清单《监控管理员》依照以往经验建立应用可用基础检查清单1)通过OVSD变更流程登记;2)变更OVSD问题库协调一线监控人员;3)统一报警到OVO平台;《一线监控人员》监控OVO对:1)IT基础环境严重报警;2)应用可用严重报警;发起事故工单协调责任人处理按授权启动应急流程完备监控体系的工作流程_系统持续运行OVO监控平台《一线监控人员》监控OVO对:1)IT基础环境严重报警;2)应用可用严重报警;发起事故工单协调责任人处理按授权启动应急流程OVSD平台《开发人员》建立应用可用检查清单《系统管理员》建立应用IT基础环境检查清单《监控管理员》依照以往经验建立应用可用基础检查清单按管理规定监控并发起报警用户投诉检查:1)所有事故来源为监控体系的有效性;2)未被监控体系发现的事故,确认监控检查方式;
本文标题:光大银行IT服务管理项目汇报
链接地址:https://www.777doc.com/doc-3678680 .html