您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 6、XXXX系统-应急预案模板
XXX应急预案1.CCCCCCC系统现状1.1.网络拓扑图磁盘阵列数据库服务器(主)2900C光纤交换机数据库服务器(备)2900D马尾机房防火墙OA网受信任的用户10.46.0.2210.46.0.21光纤交换机上街机房防火墙手机测试服务器手机正式服务器接口服务器110.210.6.42接口服务器210.210.6.43应用服务器110.210.6.44应用服务器210.210.6.45应用服务器310.210.6.461.2.主机配置列表系统名称承载业务类型类型承载应用说明机器名称机器类型机器硬件IPXXXX数据库服务器主机数据库库服务器备机应用服务器8VCPU,32G10.210.6.42内存,200G硬盘8VCPU,32G内存,200G硬盘10.210.6.438VCPU,32G内存,200G硬盘10.210.6.448VCPU,32G内存,200G硬盘10.210.6.458VCPU,32G内存,200G硬盘10.210.6.46手机服务器2*4Core2.6GHzCPU,8G内存,120G10.209.0.732.应急措施2.1.XXXX数据库服务器HWE2900C(10.46.0.21)和HWE2900D(10.46.0.22)两台XXXX数据库机器互做主备,并通过集群软件进行管理(HWE2900C正常情况下运行1个数据库(EOMS4DB)库,HWE2900D正常运行下运行4个数据库(EOMSDB、EOMS3DB、OPSSDB和KRMDB),因此机器出现故障,系统会自动将启用另外一台机器上的数据库,采用单机器运行所有5个数据库服务(EOMS4DB、EOMSDB、EOMS3DB、OPSSDB和KRMDB)。如果自动切换失败,需要手工进行切换。1)HWE2900C出现故障(down)这时需要把运行在这一台服务器上的应用(XXXX)切换到另一台服务器,这一过程操作步骤如下:a)切换应用:通过集群软件手动进行应用切换,启动XXXX采集服务;登录10.46.1.229机器,运行集群软件,点击集群组E2900CD-clu进入E2900CD-clu群组管理界面.通过集群软件将XXXX服务的数据库EOMS4DB切换(switchto)到机器HWE2900D.如果出现集群软件切换不了等问题,联系张永昌(13559452280)协助解决.2)HWE2900D出现故障(down)这时需要把运行在这一台服务器上的数据库服务(EOMSDB、EOMS3DB、OPSSDB、KRMDB)切换到另一台服务器。3)两台服务器都出现故障(down)两台机器都发生故障,对任何故障只能直接处理机器,待机器故障恢复正常后,启停系统和oracle数据库服务,并需要重启XXXX应用服务器。2.2.XXXX应用服务器应用服务器(10.210.6.42/43/44/45/46)五台机器发布的XXXX的应用程序一样,应用互为负载均衡,但由于IBM管理软件和IHS集群软件也部署在这5台机器中,所以对于3台节点机器(10.210.6.42/43/45)出现故障时,会出现影响业务使用的情况。1)应用服务器(10.210.6.42)出现故障(down)该台机器发生故障,由于10.210.6.42和10.210.6.43做了集群,该台服务器出现故障时不影响系统的运行。由于流程引擎的管理平台软件发布在该机器上,当该机器故障期间,系统无法发布新补丁包上线,无法进行其他4台流程引擎服务的启、停操作,无法进行集群服务的启、停操作。修复过程:如果是硬件故障,待硬件修复后,把备份的软件目录程序数据,恢复到相应目录下,修复后进行以下操作来重新使用该台应用。a)启动控制台应用DM。b)启动流程引擎节点服务NODE。c)登录控制台启动XXXX应用。d)以上启动完成后,登录XXXX系统进行验证。2)应用服务器(10.210.6.43,浮动IP:10.210.6.146)出现故障(down)该台机器发生故障,由于10.210.6.43和10.210.6.42做了集群,但由于该台服务器上发布了接口集群软件,会影响到与外部系统的接口交互。但不影响用户访问XXXX系统。把该机器的浮动IP(10.210.6.146)添加到10.210.6.45的服务器上。修复过程:如果是硬件故障,待硬件修复后,把备份的软件目录程序数据,恢复到相应目录下,修复后进行以下操作来重新使用该台应用。a)通过控制台启动集群软件。b)启动流程引擎节点服务NODE。c)登录控制台启动XXXX应用。d)以上启动完成后,登录XXXX系统进行验证。3)应用服务器(10.210.6.44)出现故障(down)该台机器发生故障,由于10.210.6.44和10.210.6.45/46做了集群,不影响用户访问XXXX系统。修复过程:如果是硬件故障,待硬件修复后,把备份的软件目录程序数据,恢复到相应目录下,修复后进行以下操作来重新使用该台应用。a)启动流程引擎节点服务NODE。b)登录控制台启动XXXX应用。c)以上启动完成后,登录XXXX系统进行验证。4)应用服务器(10.210.6.45,浮动IP:10.210.6.147)出现故障(down)该台机器发生故障,由于10.210.6.45和10.210.6.44/46做了集群,但由于该台服务器上发布了接口集群软件,会影响用户访问XXXX系统。不影响外部系统的接口交互。把该机器的浮动IP(10.210.6.147)添加到10.210.6.43的服务器上。修复过程:如果是硬件故障,待硬件修复后,把备份的软件目录程序数据,恢复到相应目录下,修复后进行以下操作来重新使用该台应用。a)通过控制台启动集群软件。b)启动流程引擎节点服务NODE。c)登录控制台启动XXXX应用。d)以上启动完成后,登录XXXX系统进行验证。5)应用服务器(10.210.6.46)出现故障(down)该台机器发生故障,由于10.210.6.46和10.210.6.44/45做了集群,不影响用户访问XXXX系统。修复过程:如果是硬件故障,待硬件修复后,把备份的软件目录程序数据,恢复到相应目录下,修复后进行以下操作来重新使用该台应用。a)启动流程引擎节点服务NODE。b)登录控制台启动XXXX应用。c)以上启动完成后,登录XXXX系统进行验证。6)五台服务器都出现故障或者3个主服务器节点出现故障(down)五台机器都发生故障,或者3个主服务器接单都出现故障,对任何故障只能直接处理机器,待机器故障恢复正常后,启停系统和应用。3.应急演练3.1.XXXX数据库切换演练本次通过人为关掉HWE2900C机器模拟2.1HWE2900C出现故障(down),值班人员在发生故障后通过系统参考“应急措施”步骤操作恢复故障,验证应急措施的操作可行性和准确性,以及提高维护人员的应急处理能力和应变能力。时间:2014-XX-XX12:30-13:00人员:序号操作过程时间操作人员时长备注1关机HWE2900C12:30-12:402启动HWE2900D12:40-13:105检查应用13:10-13:40风险提示:目前HWE2900D上承载了EOMSDB、EOMS3DB、OPSSDB和KRMDB这4个数据库,如果把EOMS4DB也切换到该机器上使用,会使该机器性能无法承载5个数据库服务而导致使用这5个数据库服务的应用出现故障。因此建议尽快提供这4个数据库服务器的硬件,以便于进行迁移。迁移后再进行该部分的演练。3.2.XXXX应用切换演练(只关闭演练机器方式)3.2.1只有流程引擎服务器演练本次通过人为关掉fjeoms3-app1(10.210.6.44)机器模拟2.2应用服务器(10.210.6.44)出现故障(down),值班人员在发生故障后通过系统参考“应急措施”步骤操作恢复故障,验证应急措施的操作可行性和准确性,以及提高维护人员的应急处理能力和应变能力。时间:2014-XX-XX12:30-13:00人员:方津、任俊杰、陈丞、郑明顺序号操作过程时间操作人员时长备注1关闭该台虚拟服务器fjeoms3-app112:30-12:402启动该台虚拟服务器fjeoms3-app112:40-13:103登录13:10-13:30fjeoms3-app14登录该台服务的XXXX接单服务13:30-13:503.2.2有控制台软件软件服务器演练本次通过人为关掉fjeoms3-port1(10.210.6.42)机器模拟2.2应用服务器(10.210.6.42)出现故障(down),值班人员在发生故障后通过系统参考“应急措施”步骤操作恢复故障,验证应急措施的操作可行性和准确性,以及提高维护人员的应急处理能力和应变能力。时间:2014-XX-XX12:30-13:00人员:方津、任俊杰、陈丞、郑明顺序号操作过程时间操作人员时长备注1关闭该台虚拟服务器fjeoms3-port112:30-12:40202启动该台虚拟服务器fjeoms3-port112:40-13:10303登录fjeoms3-port113:10-13:40304登录该台服务的XXXX接单服务13:40-14:00203.2.3有集群软件服务器演练本次通过人为关掉fjeoms3-port2(10.210.6.43)机器模拟2.2应用服务器(10.210.6.43)出现故障(down),值班人员在发生故障后通过系统参考“应急措施”步骤操作恢复故障,验证应急措施的操作可行性和准确性,以及提高维护人员的应急处理能力和应变能力。时间:2014-XX-XX12:30-13:00人员:序号操作过程时间操作人员时长备注1关闭该台虚拟服务器fjeoms3-port212:30-12:40202把该台机器上的浮动地址配置到另外一台集群12:40-12:50103观察各个接口是否能够正常与XXXX进行交互12:50-13:10204启动该台虚拟服务器fjeoms3-port212:40-13:10305登录fjeoms3-port213:10-13:40306登录该台服务的XXXX接单服务13:40-14:00207把10.210.6.146的浮动地址添加到该台已恢复的机器上14:00-14:10108观察各个接口是否能够正常与XXXX进行交互14:10-14:30203.3.XXXX应用切换演练(删掉安装目录的方式)该演练方式建议先搭建演练环境,在演练环境上演练无问题后再在正式环境上试验。该演练的步骤主要是增加了,把原安装IBMWPS控制台管理软件、IBMWPS流程引擎,IBM集群软件的目录整个删掉。然后使用删掉前的备份软件重新恢复到原目录。其他的操作步骤和3.2XXXX应用切换演练(只关闭演练机器方式)一样。演练机器:系统名称承载业务类型类型承载应用说明机器名称机器类型机器硬件IPXXXX演练环境数据库服务器XXXX数据库EOMSDB4*1.5GHz/16GB/4*146G4*1.8GHz/32GB应用服务器DM(IBMWebSphere管理控制台)、WebSphereProcessServer(流程引擎)、XXXX应用接口服务器Node1RedHat5.8X868VCPU,32G内存,200G硬盘IHS(IBMHIS集群软件)、WebSphereProcessServer(流程引擎)、XXXX应用接口服务器Node2RedHat5.8X868VCPU,32G内存,200G硬盘4.现在环境存在风险当前XXXX的应用服务器均在一个刀框中,如果该刀框出现故障,则会影响到整个XXXX系统无法使用,且无法进行切换。解决措施:需要把XXXX服务器中的应用服务器(10.210.6.43,浮动IP:10.210.6.146)、应用服务器(10.210.6.44)分开放到其他的刀框。
本文标题:6、XXXX系统-应急预案模板
链接地址:https://www.777doc.com/doc-7319776 .html