您好,欢迎访问三七文档
容灾方案大纲一、容灾究竟是什么?容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。容灾是在灾难发生时,能够保证数据尽量少的丢失,系统能够不间断地运行,或者尽量快的恢复正常运行。容灾备份是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。1、容灾的分类根据容灾系统对灾难的抵抗程度,可分为数据级容灾、应用级容灾和业务级容灾:数据级容灾是指通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏,但在数据级容灾这个级别,发生灾难时应用是会中断的。在数据级容灾方式下,所建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。数据级容灾的恢复时间比较长,但是相比其他容灾级别来讲它的费用比较低,而且构建实施也相对简单。应用级容灾是在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整的、可靠的和安全的。应用级容灾生产中心和异地灾备中心之间的数据传输是采用异类的广域网传输方式;同时应用级容灾系统需要通过更多的软件来实现,可以使多种应用在灾难发生时可以进行快速切换,确保业务的连续性。业务级容灾是全业务的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。2、容灾的级别根据对各种需求进行总结,把容灾级别分成了七级,如下表所示:级别内容说明第一级本地数据容灾只有很低的灾难恢复能力,能应付计算机软硬件方面的系统灾难,在灾难发生后无法保证业务连续性,并需要较长恢复时间第二级本地应用容灾能应付计算机软硬件方面的系统灾难,并且系统可以迅速切换,保证业务连续性第三级异地数据冷备份在本地将关键数据备份,然后送到异地保存。灾难发生以后,按预定数据恢复程序恢复系统和数据。特点:成本低,易于配置,是常用的一种方法。问题是:但数据量增大时,存储介质难以管理。灾难发生时,大量数据难以及时恢复,对业务影响仍然很大,损失的数据量也较大。第四级异地异步数据容灾在异地建立一个数据备份站点,通过网络已异步方式进行数据备份。备份站点只备份数据,不承担业务。在对灾难的容忍程度和第三级一致。但它采用网络进行数据复制方式,因此两个站点的数据同步比第三级要高,丢失的数据也更少。第五级异地同步数据容灾除了是同步方式以外,其他的和第四级一致,出现灾难时,丢失的数据量比上级更少,基本可以做到零数据丢失,但存在系统恢复慢的缺点投入成本较大,有距离限制。和第四级一样存在没有备用应急系统,因此无法保证业务的连续性。第六级异地异步应用容灾在异地建立一个与生产系统完全相同的备用系统,它们之间采用异步的方式进行数据同步,当生产中心发生灾难时,备用系统接替工作。可以保证数据的极少量对视,又可以及时切换,从而保证业务的连续性。现在一般采用广域高可靠集群方式实现。第七级异地同步应用容灾在异地建立一个与生产系统完全一致的备用系统,他们之间采用同步的方式进行数据复制。当生产中心发生灾难时,备用系统接替其工作,该级别的容灾,在发生灾难时,可以基本保证数据零丢失和业务的连续性。二、为什么需要进行容灾?1、容灾的实质是确保永久不停顿的业务运营如何确保企业业务的连续运营以及数据的安全呢?严格的说,业务持续计划的建立和实施过程,实际上是进行一个涉及企业运营的项目,因此也涉及到项目管理的方方面面。标准的业务持续计划项目应按如下流程进行:1、项目启动和管理确定业务持续计划(BCP)实施过程的相关需求,包括获得管理支持、以及组织和管理项目使其符合时间和预算的限制要求。2、风险评估和控制确定可能造成机构及其设施中断的灾难、具有负面影响的事件和周边环境因素,以及事件可能造成的损失、防止或减少潜在损失影响的控制措施,提供成本效益分析以调整控制措施方面的投资,达到消减风险的目的。同时,由于风险会随着系统的发展而变化,所以风险管理过程也必须是动态的。3、业务影响分析确定由于中断和预期灾难可能对机构造成的影响,以及用来定量和定性分析这种影响的技术。确定关键功能、恢复优先顺序和相关性以便确定恢复时间。4、制定业务连续性策略确定和指导备用业务恢复运行策略的选择,以便在恢复时间目标范围内恢复业务和信息技术,并维持机构的关键功能。5、应急响应和运作制定和实施用于事件响应以及对事件所引起状况进行稳定的规程,包括建立和管理紧急事件运作中心,该中心用于在紧急事件中发布命令。6、制定和实施业务连续性计划设计、制定和实施业务连续性计划,以便在恢复时间目标范围内完成恢复。7、意识培养和培训项目准备建立对机构人员进行意识培养和技能培训的项目,以便业务连续性计划能够得到制定、实施、维护和执行。8、维护和演练业务连续性计划对预先计划和计划间的协调性进行演练、并评估和记录计划演练的结果。制定维持连续性能力和BCP文档更新状态的方法,使其与机构的策略方向保持一致。通过与适当标准的比较来验证BCP的效率,并使用简明的语言报告验证的结果。9、公共关系和危机通信制定、协调、评价和演练在危机情况下与媒体交流的计划,制定、协调、评价和演练与制定、协调、评价和演练在危机情况下与媒体交流的计划,确保所有利益群体能够得到所需的信息。10、与公共当局的协调建立适用的规程和策略,用于同地方当局协调响应、连续性和恢复活动,以确保符合现行的法令和法规。当然,实际应用中,如果受时间、成本等因素的限制,加之灾难恢复目标有限,企业不需要承担应由政府负责的国计民生之重任,我们可以简化并适当改变上述标准流程。事实上,随着IT系统在企业内部应用的深入,IT系统更容易受到各种灾难的伤害而导致中断,特别是在许多情况下,关键资源可能属于不可控范围,如电力和电对于倚仗IT系统的企业来说,从确保业务连续能力的角度出发,可i.灾难类型分析ii.业务冲击分析iii.当前业务环境及恢复能力分析iv.灾难恢复策略制订v.灾难恢复方案设计vi.业务连续性流程设计vii.业务连续性流程及灾难恢复方案管理和测试每一个步骤的相关职责一般会落“计划协调人”或“应急计划制订人”的身上,他们通常是职能或资源部门的经理。协调人在其他相关系统或业务处理部门的职能经理和资源经理的协助下制定应急策略,应急计划协调人通常管理应急计划的制定和执行。2、容灾—数据备份是基础数据备份是数据使用过程中的最后一道防线,其目的是为了在系统崩溃时能快速地恢复数据。虽然它也算一种容灾方案,但其容灾能力非常有限。因为传统的备份主要是采用数据内置或外置的磁带机进行的冷备份,备份磁带同时也在机房中统一管理,一旦整个机房陷入灾难,如火灾、盗窃和地震等灾难,这些备份磁道也随之销毁,所存储的磁带备份也起不到任何作用。3、容灾不是简单的备份真正的数据容灾就是要弥补传统冷备份所具有的先天不足,它能在灾难发生时,全面、及时地恢复整个系统。容灾按其容灾能力的高低可分为多个层次,例如,国际标准SHARE78定义的容灾系统有7个层次:从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再建立应用系统实时切换的异地备份系统,恢复时间也可以从几天到小时级,再到分钟级、秒级或0数据丢失等。三、容灾的行业标准1、国家GB20988-2007-T标准2007年6月份国家正式出台了针对信息系统数据备份及容灾的国家标准,即《GB20988-2007-T信息安全技术信息系统灾难恢复规范》,在国标中,明确了灾备系统的定义、组织保障、审计与备案、风险分析、恢复资源要求等,其中对于容灾备份系统的技术实现、技术支持能力以及维护管理等技术产品提出明确的标准和要求。容灾备份是一项系统工程。在建立容灾备份系统之前,首先要进行全面的系统分析,其中包括业务系统风险分析、容灾系统对业务系统的影响分析和投资效益分析,风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。既然是容灾,必须充分考虑业务系统所在地的自然环境,针对可能发生的灾难,准备相应的容灾对策。容灾系统肯定对业务系统的性能有一定影响,因此,对于那些高负荷运行的业务系统必须认真计算。根据国标的要求,对于容灾备份系统一共分为六个等级,其中对于容灾备份最基本的要求可以归纳为三点:1、数据要定期备份;2、备份介质场外存放;3、根据介质的特性对备份数据进行定期的有效性验证。应该说,以上三点要求为我们建立一个完整的容灾备份系统提供了设计依据。要建设容灾工程必须提出容灾系统设计指标,作为衡量和选择容灾解决方案的参数。按照国标的要求,建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,容灾中心的设计指标主要与容灾系统的数据恢复能力有关。最常见的设计指标有:RTO和RPO。RTO(RecoveryTimeObjective)代表容灾系统在灾难发生后数据或者系统恢复所用的时间。RPO(RecoveryPointObjective)代表灾难发生时已经备份的数据与生产中心数据的时间差。此外,设计容灾系统还需要考虑选择容灾备份中心地点。数据库容灾要保证备份数据库的一致性,最好能够对备份数据库进行对生产系统无干扰的实时检验。通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。RPO可简单的描述为企业能容忍的最大数据丢失量,为了更好的理解,可以想一下传统数据保护会产生什么后果,一般备份都是一天做一次,通常是在晚上,如果第二天出现错误,那从备份完成后到错误出现时所写入的数据都无法挽回了,这期间没有备份,数据就丢失了!如果错误出现在一天结束时,那一天的数据都丢失了,这种情况下,RPO就是24小时。为了改进PRO,数据必须进行更频繁的保护,大多数情况下,增加备份的频率是不现实的原因有:1)对应用的效率影响太大,在应用的高峰不能进行备份;2)备份数据要花很长时间。为了改进PRO,需要有新的方法,这种方法就是恢复管理,用连续复制和快照技术能有效地改进RPO。RTO可简单的描述为企业能容忍的恢复时间,在传统的数据保护中,备份数据是不能立即使用的,必须先恢复。对象级别的恢复功能可以有效恢复单个的目标,如一个文件或一封邮件,甚至是许多文件和邮件的集合。然而,恢复整个数据库和海量数据时仍需要时间,通常恢复一个大系统需要几天时间。从经济角度考虑,最佳的容灾解决方案不一定是性能最好的容灾解决方案,容灾系统的总体投入TCO和投资回报ROI,对于许多用户来说是十分重要的设计指标。。在选择容灾技术时,需要考虑业务系统的类型,是单业务系统还是多业务系统?是数据库应用还是非结构化数据?是数据容灾还是业务系统容灾?用户可以根据要求,选择一种主要的容灾技术作为容灾解决方案的基础,辅之其它容灾技术满足特定的要求。下图是几种技术的特征比较:RAID复制快照备份物理错误(47%)自然灾害YesYes硬件失效YesYesYesYes逻辑错误(53%)人工出错YesYes软件失效YesYes病毒YesYes恢复点(RPO)能忍受多少数据丢失?没有丢失分钟小时小时天恢复时间(RTO)要多久才能恢复?实时分钟小时分钟小时天保留时间(Retention)能恢复多长时间内丢失的数据?不能不能几小时几天几周几月几年使用环境中高端高端高端所有使用成本高高高低2、国际SHARE78标准——七级灾难备份方案根据国际标准SHARE78的定义,灾难备份技术方案可以根据以下主要方面所达到的程度而分为七级。1.备份、恢复的范围
本文标题:数据容灾方案
链接地址:https://www.777doc.com/doc-5578806 .html