您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > AutoSwitch灾备切换自动化方案白皮书2016
AutoSwitch灾备切换自动化方案白皮书二零一六年八月2目录第一章综述..........................................................31.1手工灾备切换的问题............................................31.2AutoSwitch的价值.............................................3第二章AutoSwitch灾备切换自动化系统.................................52.1AutoSwitch技术特点...........................................52.2AutoSwitch功能架构...........................................92.3AutoSwitch系统原理..........................................122.4典型灾备系统切换过程.........................................14第三章AutoSwitch部署架构和成功案例................................303.1部署架构......................................................303.2配置要求.....................................................303.3成功案例......................................................313第一章综述1.1手工灾备切换的问题灾备中心建设投入了大量人力、物力,但灾备切换往往还停留在手工进行灾备切换的阶段,灾难来临时灾备中心能否在规定的时间内完成切换、及时恢复生产、发挥应有保障作用,还有很大的隐忧。主要原因有如下几个方面:1)手工切换时间过长、难以达到RTO目标由于灾备切换流程的繁琐、复杂,导致手工进行灾备切换至少需要很长时间才能完成灾,往往不能在规定的RTO内完成切换,实现保障业务连续性的目标。2)手工切换人为因素过多、切换经常失败灾备切换流程繁琐、复杂,手工执行起来往往比较吃力,切换时需要操作的命令多、时间紧,操作员精神压力大导致手忙脚乱,人为出错的几率也就增大,实际操作中由于这样那样的原因往往导致切换失败,无法保证一次切换成功。3)缺乏演练、关键时刻不能发挥作用由于业务发展的需要、应用经常升级,有关配置、系统环境也随之需要做相应变化,受限于保障生产的要求,无法及时进行灾备切换演练,导致不能尽快发现问题、灾备中心关键时刻能否发挥作用存在很大隐忧。总之,灾备切换依靠手工完成,不仅效率低,而且切换时间长,由于人为因素过多导致切换的成功率无法保证;公司的IT运维水平和故障应急处理能力难以提升、难以保障IT服务的持续性和主动规避不可预见的风险。1.2AutoSwitch的价值1)减少人为因素、保证切换成功率灾备切换流程繁琐、复杂、冗长,以往操作员手工执行起来比较吃力,命令多、4时间紧、操作员精神压力大,人为出错的几率也随之增大,一次切换的成功率无法保证。通过灾备自动切换系统替代人工操作,避免人为出错的概率,保证切换的成功率,原则上只要系统环境正常,切换就会成功;达到即切即用的要求、保证业务的连续性。2)缩短切换时间、大大提高切换效率通过灾备自动切换系统替代人工操作,既减少了人工输入的时间、同时无依赖关系的多台系统可以并发处理,减少了不必要的等待,大大缩短了切换时间。5第二章AutoSwitch灾备切换自动化系统灾备系统切换控制的范围涵盖企业的每个重要业务系统,包括主机、存储、数据库、中间件、DNS系统等等;切换过程涉及企业的众多部门,需要多部门、多岗位、多人配合协调才能完成;同时手工切换过程转换成自动化流程并不是简单将手工操作命令写成批处理命令,而是根据业务需要将切换流程固定下来,进行合理的优化,从而实现灾备切换的自动化;在执行自动化切换的过程中,如果出现某个步骤异常,还需要有处理特殊故障的解决办法。要将灾备系统切换自动化完成,会面临上述的诸多挑战。由于灾备切换系统需要管理的各种资源关系复杂,应用系统之间依存性高,利用AutoSwitch灾备切换管理软件的流程管理可以清晰定义以上各种关系,简单友好的界面让用户对流程等一目了然,通过使用AutoSwitch灾备自动切换系统有力帮助用户保证灾备系统的服务质量、提高应对突发事件的能力。2.1AutoSwitch技术特点一键式灾备切换:一是按应用设计灾备切换流程,将切换时要做的工作先分阶段定义好,再在每个阶段中将要执行的命令统一写成脚本;二是灾备切换作业调度完全自动化,在灾备切换时、能够从单一Web入口进入灾备自动切换控制台,只需一键启动灾备切换、所有命令自动执行,在命令执行过程中无需人工操作;通过将传统手工流程转变为全自动化操作流程,缩短了切换时间、提高了切换效率、降低了人工成本。6直观展示切换进度:灾备切换开始后,AutoSwitch展示切换进度和执行状态,操作员可以清楚地看到流程各个步骤是否执行完毕,实时监控切换进度。一旦发生故障可以快速定位,并为操作员提供可操作的手工处理方案。支持人工干预、处理:切换出现故障或者需要人工干预时,灾备切换暂时停止,Web页面提供人工操作控制的交互入口,等待人工处理后再继续自动处理后续流程。7自动生成灾备操作手册(Runbook):AutoSwitch能够自动生成灾备操作手册,当业务流程发生变化需要修改相关切换流程时,在AutoSwitch系统里修改好相关的流程、命令,即可同步生成相对应的灾备操作手册,极大地方便了运维管理人员备案和实际操作人员理解灾备切换流程。支持演练环境:AutoSwitch支持演练环境,当应用系统升级或其它系统配置发生变化以后,可以在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性。8内置常用管理脚本:Autoswitch系统内置了windows/unix/linux操作系统、Oracle/Infomix等数据库、Weblogic/Websphere等中间件的常用操作脚本,可以在灾备切换的命令中直接调用。内置常用检查脚本:灾备切换过程中需要执行很多命令,如何判断这个命令执行是否成功,需要做相应的检查。比如,数据库启动后,究竟数据库是否能正常工作,需要做相应的检查,否则数据库启动过程中由于某种原因没有正常启动,执行过启动命令后,继续执行其它切换中的操作命令将会造成整个灾备切换的不成功,有可能给造成无法挽回的损失。系统成熟、可靠、稳定:整个灾备自动化系统由两台服务器组成主、备“灾备切换服务器”,可以保证7乘24小时随时能够进行切换操作,保证切换的成功率。AutoSwitch产品从08年中航信使用AutoSwitch1.0保障灾备切换起到14年国家电网全国灾备中心使用AutoSwitch3.0,经过客户多年使用反馈和不断优化,产品已经为多个用户成功保障灾备切换和日常灾备演练,经过实践证明,产品非常成熟可靠稳定。92.2AutoSwitch功能架构详细功能一览表:功能名称说明流程管理切换流程的创建和修改:支持图形可视化创建及修改流程。可按模板进行流程创建,提供版本管理、发布管理功能。支持批量创建流程、支持模板创建流程。切换流程的执行:支持并发执行流程,可同时启动后台多个自动流程执行。支持灵活的流程执行模式,在同一流程中提供正常执行(按预定义)、全自动执行(人工转自动)及人工执行(自动转人工)三种模式,能灵活根据实际要求在多种模式之间进行自然切换。对执行过程中产生的反馈信息进行及时的显示和记录,以便进行实时跟踪以及事后回溯分析。支持流程执行的定时设置功能,可根据需要在指定的时间点发起相应流程完成目标要求。支持基于流程级别的角色权限控制,可保证多角色下的流程安全操作。切换流程的人工交互:支持人工交互操作,切换中如果发生故障,可以在人工处理后继续自动处理后续流程。切换流程的故障处理:当流程执行过程中产生异常时,提供声音或图形界面报警,及时提醒人员在相应故障发送位置进行排障处理。10功能名称说明架构支持软件支持中、英文,具备中英文的界面,帮助,文档。界面布局清晰合理。支持多平台/多厂商环境。所管理的切换受控端可以分布于所有主流操作系统平台。支持以下操作系统(包括且不仅限于AIX、HP-UX、Solaris、Linux和WindowsServer等)。采用纯B/S(浏览器/服务器)架构,可随时通过浏览器远程管理。所管理的切换受控端支持代理Agent和非代理Agentless两种方式对业务主机、存储管理、DNS设备进行交互操作。所管理的切换受控端支持安装在WebLogic、Tomcat等各种Web和应用服务器上。支持手动或自动对部署在生产和灾备业务主机上的代理程序或脚本进行远程更新。报表功能提供内容包括但不局限于流程执行、用户信息、故障信息等的报表系统,并具有报表导出功能,能够以网页或EXCEL等文件方式将报表导出并保存。审计功能所有的操作有详细的审计记录(包括命令行和图形的操作记录及作业记录)。能够显示各主要模块的运行状态,具有系统日志审计功能。演练功能支持在不影响生产的情况下及时演练、发现问题、保证灾备系统的可用性,能够根据演练中的问题进行分析,不断优化演练技术流程。扩展性通过界面配置即可完成新功能扩展。对于新开发的功能脚本,提供良好自定义支持,对灾备端环境配置信息的变更可以自动探测。具备灵活的横向扩展,从技术上来说,主控端可以无限制支持增加的受控端。可靠性1)支持本地高可用方式部署。2)软件本身具备数据同步功能,当一方发生灾难时,另一方能立即在线进行接管控制,保证了平台7*24正常运行。易用性采用单一用户数据库权限系统,用户无需多次登录;能够从单一Web入口进入灾备自动切换控制台,无需人工逐一登录各主机进行操作。软件对失败或超时的流程提供异常原因分析,告知操作人员流程异常的原因,方便操作人员采取应对措施,故障处理与反馈提示均要友好且准确。11功能名称说明展示界面1)提供良好的人机界面,方便定义切换和管理流程;2)通过图形界面方式实时展示切换信息,直观展示流程中各步骤的顺序关系;3)以图标的颜色标示分步步骤的运行状态,流程图上能直观地反应流程上各节点的执行时间。4)流程图能够定制流程间的依赖关系和多种制约关系,以满足灾备系统操作人员使用需求。状态监控支持对所有Agent进行状态监控,保证流程可顺利执行。支持对系统登录状态进行记录,支持监控和管理工作负载异常,通过操作控制台创建生产运行时报告,帮助分析。能在流程执行界面中嵌入滚动日志,直观显示流程执行状态。人工处理支持人工处理环节,对于必须人工执行或判断的环节,由人工做出判断后,决定流程是否继续执行或终止;在自动切换过程中,如果某一个步骤的执行发生了故障,或者需要既定人工处理,操作人员可以根据图标颜色变化准确定位故障或人工处理的发生位置,并根据图标链接页面查询到该步骤的人工处理方案。授权与访问控制支持对系统用户按角色或者角色组进行授权;支持对系统功能提供角色级别的权限控制。122.3AutoSwitch系统原理AutoSwitch服务器和应用服务器的交互主要有下面三种方式:在应用服务器上以root身份安装AgentAutoSwitch服务器通过Agent完成操作。13在应用服务器上以普通用户身份安装AgentAutoSwitch服务器通过SSH登录到应用服务器完成操作。在应用服务器上不安装AgentAutoSwitch服务器通过SSH登录到应用服务器完成操作。142.4典型灾备系统切换过程2.4.1准备工作开始切换前,应确认当前环境满足切换要求。网络检查切换工作网络与所有服务器的网络联通,执行人可以登陆到每一台服务器;切换系统服务器*.*.*.14到其他服务器
本文标题:AutoSwitch灾备切换自动化方案白皮书2016
链接地址:https://www.777doc.com/doc-6466670 .html