您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 同城灾备中心建设情况及业务持续性演练方案汇报
同城灾备中心建设情况及业务持续性演练方案汇报汇报内容•同城灾备中心建设情况简介•业务持续性计划演练方案简介灾备体系建设的必要性满足国家及行业监管要求《重要信息系统灾难恢复指南》GB/T20988-2007《保险业信息系统灾难恢复管理指引》2008年20号文公司业务及IT发展到一定阶段的内生性需求适应保险行业服务水平日益提高的要求应对突发灾难的最后一道防线业内主流的灾备复制技术的对比基于存储盘阵的灾备复制技术基于数据库的灾备复制技术网络支持同步传输异步传输底层硬件必须同构支持异购产品目标端不可用可用\双活状态支持模式多对一\一对多\级联\双向多对一\一对多\级联\双向是否支持按需复制全量同步支持数据丢失量零丢失分钟级CaptureReadExportImportPostCaptureQueueExportQueuePostQueueSQLRedo-Logs源系统目标系统灾备软件复制原理业务系统分类容灾A类业务系统B类支持支撑系统C类业务系统RTO=2小时,RPO=30分钟RTO=2小时,RPO=8小时RTO=24小时,RPO=8小时核心业务系统/银保互连互通域控ADCALLCENTER系统财务系统/OFSA准入系统EAD核心报表/MIS收付系统域名解析系统DNS稽核系统保险卡系统企业服务总线ESB偿付能力系统ILOG统一认证中心AC保监上报投资系统补丁分发系统WSUS反洗钱银企直连防病毒系统审计系统DM系统SVN系统工会系统网销系统OA系统邮件代理理赔影像系统ITS人力资源系统自主查询飞天诚信令牌认证系统准备金自助机A、B两类系统为应用级容灾,C类系统为数据级容灾我司同城灾备中心建设的方法论及路线图我司灾备中心与国家标准对标•同城灾备中心建设情况简介•业务持续性计划演练方案简介监管要求•保监会2008年第20号文–第二十九条保险机构所制定的灾难恢复预案,应按照由模拟到实际、从易到难、从局部到整体的原则进行测试和演练,及时总结评估,完善灾难恢复预案,通过演练使得相关人员熟练灾难恢复操作及流程。灾难恢复预案的演练包括但不限于桌面演练、模拟演练、实战演练、部分演练和全面演练。保险机构应定期组织开展灾难恢复预案的演练工作。灾难恢复预案每年至少演练一次,演练类型可以是模拟演练、实战演练、部分演练和全面演练。演练目的•验证业务持续计划的完整性、易用性、明确性、有效性和兼容性;•验证灾难恢复管理组织架构的领导、决策与指挥能力;•验证公司灾难恢复管理组织架构中各相关部门的协同工作能力;•使灾难恢复相关的技术人员与业务人员能够熟悉业务持续计划,提高员工的灾难备份和业务持续意识,提高恢复团队的实际操作技能;•验证灾备技术的有效性,确认灾难恢复水平是否满足中银保险灾难恢复目标(RTO、RPO)的要求。本次演练的形式•桌面演练–桌面演练是所有参演人员根据预设的场景,采用会议的方式,以角色扮演为基础,就应急响应和恢复流程中的管理与指挥协调方面问题进行桌面推演。•模拟演练–模拟演练(实际测试演练)是利用备用或测试系统进行模拟的系统切换和进行业务恢复操作,不涉及真实的业务交易,不影响生产正常运行。•实战演练–实战演练是指对灾难备份系统进行真实切换和真实业务交流,由于系统切换的复杂性,在进行系统切换和业务恢复时,可能会存在一定的风险因素,并且带来短时间的服务中断。通过实战演练,可以最大程度地检验灾难备份系统和业务持续计划的有效性和恢复能力。演练的范围•涉及的信息系统–保险卡系统•演练的时间–六月二十一日•参演机构–全辖保险卡系统拓扑analysis保险卡系统拓扑图保险卡后台系统保险卡代理系统保险卡前台系统短信系统核心承保系统核心单证系统安联SFTP传数系统电子签章系统银保互联互通系统AC系统保险卡前台数据库保险卡后台数据库演练对系统产生影响情况分析•对前台服务的影响–用户只能访问前台应用首页,不能进行其他任何操作,与其他系统的交互也就不能进行了。短信数据提取不到,发送不了短信。保单不能传送到后台。•对后台服务的影响–由于登录调用的是AC的接口校验,所以用户可以登录系统,点击左边应用菜单,但是不能进行其他任何功能性的操作。•对代理服务的影响–由于登录调用的是AC的接口校验,所以用户可以登录系统,点击左边应用菜单,但是不能进行其他任何功能性的操作,同时由于代理系统为银保通系统提供了服务,代理系统不能进行数据操作,银保通系统也就不能进行其他操作。•对SFTP服务的影响–数据不能正常提取、传送。•对电子签章服务的影响–由于电子签章服务不连接数据库,所以不会对该服务造成影响。•AC系统–使用的不是保险卡的数据库,所以保险卡数据库宕机不会对AC造成影响。演练对系统产生的影响分析技术层指挥层决策层灾难恢复领导组总裁室灾难恢复指挥组科技部总经理室技术恢复组基础运维团队/薛建龙业务恢复组李哲峰\甘正良后勤保障组后勤人员客户投诉支持组客服中心厂商支持组数据库复制软件厂商小机厂商集成商演练组织架构相关职责•灾难恢复领导组–领导突发事件的应急处置,负责应急资源的协调和调度,对参与演习的各工作组进行监督管理和组织,并做出重大应急处置的决策;灾难宣告,负责与董事会沟通等。•灾难恢复指挥组–现场指挥应急处置、损害评估、灾难恢复;向演练领导小组汇报应急处置情况、损害评估情况、提供处置决策建议;灾难预警;监督、检查和总结灾难恢复工作。•技术恢复组–在指挥组的指挥下实施应急处置、灾难恢复操作;现场评估灾难损害程度;负责灾难恢复过程的记录、报告和通讯联络;分析和总结灾难恢复工作。•业务恢复组–负责业务功能核查,追补数据等业务恢复职责;协助技术恢复组进行突发事件和灾难恢复的处置;完成业务测试案例;负责业务恢复确认。相关职责•后勤保障组–负责突发事件的设备、场地、人员、工具、后勤等资源保障的管理和协调工作;负责保障人力、物力、电力、通讯、安全保卫等工作;与分支机构及合作伙伴通讯联络;负责突发事件前的资源统一准备和事件后的资源回收;负责与总行、行业协会、监管机构等相关部门的沟通,确保信息通常,避免灾难的影响扩大。•厂商支持组–根据双方的约定提供灾难恢复所需设备等相关资源;–根据双方签订的服务合同、服务等级协议(SLA)、以及备忘录等材料提供技术支持。•客户投诉支持组–负责公司公共关系处理,包括对外的解释、媒体公关等事宜,减少公司由于灾难带来的负面影响。演练场景约定•本次演练的场景–北京西单生产中心的保险卡系统数据库系统应用和数据库分别出现宕机–北京亦庄的同城灾备中心启动对应应用和数据库服务接管保险卡系统–后北京西单生产中心的保险卡系统恢复正常,系统由亦庄灾备中心回切西单生产中心•应急、切换、回切的全过程本次演练涉及系统示意图一(正常应用)生产WEB+APP灾备WEB+APP生产数据库灾备数据库INTERNETIPsecVPN连接池连接池本次演练涉及系统示意图二(应用切换)生产WEB+APP灾备WEB+APP生产数据库灾备数据库INTERNETIPsecVPN连接池连接池场景一场景一步骤执行人操作话述中午14点,监控系统短信告警:保险卡系统3台应用服务器中的两台已经宕机,无法对外提供服务。汇报系统管理员看到告警短信后,向技术恢复组组长汇报报告领导,目前保险卡系统3台应用服务器中的两台停机对外提供服务,目前保险卡系统仍可用,但服务响应将会减慢,我们将会尽快修复,预计修复时间为30分钟。汇报技术组组长接到保险卡系统两台应用服务器停止服务报告后,向指挥组汇报报告领导,保险卡系统3台应用服务器中的两台出现故障,无法对外提供服务,目前保险卡系统仍有一台应用服务器可用,但服务响应将会减慢。现在已经组织人员进行修复,预计修复时间为30分钟。指示指挥组组长收到报告后,进行修复工作安排知道了,一定要尽快修复。另外,安排数据库、网络相关人员随时监控保险卡系统的业务,出现问题及时汇报。修复系统管理员系统管理员在紧急修复,进展比较顺利汇报系统管理员修复应用服务器后,向技术恢复组组长汇报报告,保险卡系统停止服务的两台应用服务器已经修复,并开始对外提供服务汇报技术组组长接到应用服务器恢复正常报告后,向指挥组组长汇报报告领导,目前保险卡系统停止服务的两台应用服务器已经修复,并开始对外提供服务,保险卡系统对外服务已经恢复正常。本次演练涉及系统示意图三(数据库切换)生产WEB+APP灾备WEB+APP生产数据库灾备数据库INTERNETIPsecVPN连接池连接池场景二场景二步骤执行人操作话述15点,监控系统短信告警:保险卡系统数据库服务器已经宕机,无法对外提供服务汇报系统管理员看到告警短信后,向技术恢复组组长汇报报告,保险卡系统数据库服务器出现故障,目前保险卡系统不可用,我们将会尽快修复,预计修复时间为30分钟。汇报技术组组长接到保险卡系统数据库服务器停止服务报告后,向指挥组组长汇报报告领导,保险卡系统数据库服务器出现故障,无法对外提供服务,目前保险卡系统不可用。现在已经组织人员进行修复,预计修复时间为30分钟。指示指挥组组长收到报告后,进行修复工作安排知道了,一定要尽快修复。另外,安排数据库、网络相关人员随时准备,一旦系统启动,立刻恢复业务,出现问题及时汇报。修复系统管理员系统管理员在紧急修复,进展不是很顺利汇报系统管理员数据库服务器无法在预计时间内进行修复,后续修复时间预计为3小时,向技术恢复组组长汇报报告,保险卡系统数据库服务器出现硬件故障,需要向厂家调取备件后才能恢复,暂时无法恢复业务,预计备件到场时间为2小时,后续1小时进行修复,因此建议启动灾难恢复预案。汇报技术组组长接到数据库服务器无法在RTO内恢复正常报告后,向指挥组组长汇报报告领导,保险卡系统数据库服务器的修复预计还需要3小时,已经超出了我们设计的RTO,后续该如何操作,请指示。指示指挥组组长接到数据库服务器无法在RTO内恢复正常报告后进行后续工作指示你们尽量在RTO规定时间内恢复,同时我将请示灾难恢复领导组进行灾难恢复准备工作请示指挥组组长向灾难恢复领导组汇报报告领导,保险卡系统数据库服务器30分钟前出现硬件故障,无法对外提供服务。备件到场及修复时间预计还需要3小时,超过RTO。已经责成相关人员尽快修复,目前是否开始进行灾难恢复准备工作?指示领导组组长可以。你先通知相关人员,进行人员集结,开始进行相关应急指挥工作。场景三场景三步骤执行人操作话述下午16点,应急指挥中心成立、人员集结完毕应急指挥准备工作指挥组组长开始灾难准备工作请后勤保障组进行后勤保障及危机公关工作,请客户投诉支持组准备问题应答准备,请技术恢复组和业务恢复组对此次事件可能造成的影响进行初步评估初步影响评估技术组组长进行初步影响评估,并向灾难恢复指挥组汇报报告领导,根据指示,技术恢复组和业务恢复组人员已完成初步评估,数据库服务器备件不到场,服务器无法恢复正常。根据与厂商的协调,备件已经发出,但到场最快还需要半小时,另外修复的时间也需要最少半小时,且尚存在其他不可预估的风险,建议灾难预警。灾难预警指挥组组长决定灾难预警立即向中金灾备中心预警,请技术组准备好系统切换前的准备工作进行灾难预警技术组执行人进行灾难预警中金灾备中心,我是中银保险XXX,现通知你们进入预警状态,做好相应的保障准备工作技术组组长汇报准备工作进展报告领导,现在一切技术准备工作已经就绪,灾备系统状态正常,可以准备进行切换。损害及影响评估指挥组组长再次进行损害及影响评估请技术恢复组和业务恢复组再次进行损害及影响评估报告损害及影响评估结果指定的灾难评估人员填写灾害评估表及灾难宣告表第一栏报告领导,与厂家联系,由于道路拥堵,备件还在路上,具体恢复时间尚无法估计。《损害评估表》、《灾难宣告表》已经填写完毕,建议进行灾难宣告,请指示向领导组汇报损害及影响评估结果指挥组组长填写《灾难宣告表》第二栏,向领导组报告损害评估结果,建议灾难宣告报告领导,根据现损害及影响评估结果,由于备件具体到场时间无法估计,业务停止时间过长,建议领导组进行灾难宣告,另保险卡系统切换时间为15分钟,请指示。答复领导组组长就灾难宣告事宜进行答复领导组
本文标题:同城灾备中心建设情况及业务持续性演练方案汇报
链接地址:https://www.777doc.com/doc-1639184 .html