您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 计算机系统安全 第三讲计算机系统的可靠性
1计算机系统安全第三讲计算机系统的可靠性2一、可靠性、可用性和可维修性可靠性(Reliability):指从它开始运行(t=0)到某时刻t这段时间内能够正常运行的概率。在给定的时间间隔和给定条件下,系统能正确执行其功能的概率称为可靠度。平均无故障时间MTBF(MeantimeBetweenFailures)是指两次故障之间能正常工作的平均值。故障即可能是元器件故障、软件故障、也可能是人为攻击造成的系统故障。可维修性:指计算机的维修效率,通常用平均修复时间(MTRF)来表示。MTRF是指从故障发生到系统恢复平均所需要的时间。第三讲计算机系统的可靠性3一、可靠性、可用性和可维修性可维修性有时用可维修度来度量。在给定时间内,将一失效系统恢复到运行状态的概率称为可维修度。可用性(Availability):系统在执行任务的任意时刻能正常工作的概率。系统可用性用可用度来度量。系统在t时刻处于正确状态的概率称为可用度,用A(t)来表示。A=MTBF/(MTBF+MTRF),即:A=平均无故障时间/(平均无故障时间+平均修复时间)第三讲计算机系统的可靠性与容错性4一、可靠性、可用性和可维修性提高可靠性的方法:完美性(perfection):提高软硬件的质量,抵御故障的发生。追求一种避错技术。要求各个部件具有高可靠性,容错性(FaultTolerance):在故障发生时,系统仍能继续运行,提供服务与资源。这就是所说的“容错能力”。第三讲计算机系统的可靠性与容错性5系统可靠性的获得可靠性┌──────┴──────┐容错性完美性│┌───┴───┐冗余技术─┬硬件冗余完美硬件完美软件(redundancy)├软件冗余├整机完美性│||├部件完美性可信软件|└信息冗余└器件完美性第三讲计算机系统的可靠性与容错性6系统可靠性的获得|静态冗余(部件冗余)动态重组|--被动重组(后备stand-by)|--主动重组(优美降级gracefuldegradation)7二、完美性1、硬件的可靠性与完美性提高可靠性,可以通过元器件的精选、严格的工艺、精心的设计来实现。系统应尽量不出故障,一旦出故障,系统则失效。这种设计是以系统“不出故障”为前提的,故称为“避错设计”。2、软件的可靠性与完美性一般采用统计方式来衡量。在规定的时间周期内在给定条件下执行所要求的功能的程序的能力。第三讲计算机系统的可靠性与容错性8三、容错性1、容错系统的概念容错技术:在一定程度上容忍故障的技术。也称为故障掩盖技术(faultmasking)。容错系统:采用容错技术的系统。容错主要依靠冗余设计来实现,以增加资源换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。可以是元器件级、部件级的、系统级的冗余设计。在可靠性与资源消耗之间折衷、权衡。第三讲计算机系统的可靠性与容错性9三、容错性1硬件冗余:增加线路、设备、部件,形成备份堆积冗余:在逻辑域可采用多数表决方案。自动恢复。待命储备冗余:该系统中多个模块,其中只有一块处于工作状态,其余块都处于待命接替状态。当有一个模块发生故障时,立刻将其切除,并代之以无故障待命模块。混合冗余:堆积冗余和待命储备冗余的结合。第三讲计算机系统的可靠性与容错性10三、容错性数据备份数据容错的策略就是数据备份,指的是将计算机系统中硬磁盘上的一部分数据转到可脱机保存的介质(如磁带、软磁盘和光盘)上。备份的策略有三种:完全备份增量备份差分备份。第三讲计算机系统的可靠性与容错性11三、容错性双CPU容错系统当一个CPU板出现故障时,另一个CPU保持继续运行。这个过程对用户是透明的,系统没有受到丝毫影响,更不会引起交易的丢失,充分保证数据的一致性和完整性。系统的容错结构能够提供系统连续运行的能力,任何单点故障不会引起系统停机,系统提供在线的维护诊断工具可在应用继续运转的情况下修复单点故障。第三讲计算机系统的可靠性与容错性12三、容错性双机热备份传统的高可靠性系统采用双机热备份方案。两台服务器都处于热机状态,如果一台服务器坏了,另一台服务器可以将所有的业务接管过来。两种工作方式:Online方式:两台服务器都在工作,分别担负不同的任务,均衡负载。成本大,管理难。Standby方式:备份机不工作,只是监测作业机的工作状况。缺点:服务器之间切换时间较长。第三讲计算机系统的可靠性与容错性13三、容错性第三讲计算机系统的可靠性与容错性三机表决系统三台主机同时运行,由表决器(Voter)根据三台机器的运行结果进行表决,有两个以上的机器运行结果相同,则认定该结果为正确。通常可靠性比双机系统要高。缺点:成本高。当一台机器出现故障后表决已失去意义,其可靠性甚至比不上一个双机系统。因此当三机中坏掉一台后就当作双机备份系统来用,不再进行表决。14三、容错性第三讲计算机系统的可靠性与容错性集群系统(Clusting)指均衡负载的双机或多机系统。DEC公司最早在其VAX系统上实现了集群技术,多服务器集群系统的主要目的是使用户的应用获得更高的速度、更好的平衡和通信能力,而不仅仅是数据可靠性很好的备份系统。集群系统对于金融、证券等大型关键业务系统是最好选择。15三、容错性第三讲计算机系统的可靠性与容错性2.软件冗余目的:提供足够的冗余信息和程序,使得能及时发现编程错误,采取补救措施,提高可靠性。增加程序,一个程序分别用几种途径编写,按一定方式执行,分段或多种表决。程序由不同的人独立设计,使用不同的方法,不同的设计语言,不同的开发环境和工具来实现。16三、容错性第三讲计算机系统的可靠性与容错性3.信息冗余:为检测或纠正信息在运算或传输中的错误而外加的一部分信息。在通信和计算机系统中,信息常以编码的形式出现。采用奇偶码、循环码等冗余码就可检错和纠错。4.时间冗余:例如检查点(Check-Point)就属于时间冗余的一种,机器运行的某一时刻称作检查点,此时检查系统运行的状态被存储起来。一旦发现运行故障,就返回到最近一次正确的检查点重新运行。17三、容错性第三讲计算机系统的可靠性与容错性容错系统工作方式1.自动侦测:运行中自动地通过专用的冗余侦测线路和软件判断系统运行情况,检测冗余系统各冗余单元是否存在故障。2.自动切换:当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行外,还接管预先设定的后备作业程序,进行后续程序及服务。3.自动恢复:故障主机被替换后,进行故障隔离,离线故障修复。修复后通过冗余通信线与正常主机连线,继而将原来的工作程序和磁盘上的数据自动切换回修复完成的主机上。18四、磁盘阵列第三讲计算机系统的可靠性与容错性RAID:RedundantArrayofIndependent(或Inexpensive)Disks,“独立(廉价)冗余磁盘阵列”。是由加州大学伯克利分校Patterson在1988年提出。RAID——将一组磁盘驱动器逻辑上联系起来,作为一个磁盘驱动器来使用。作为一种数据保存手段,RAID提供了专用服务器中接入多个磁盘(专指硬盘)时,以磁盘阵列方式组成一个超大容量、响应速度快、可靠性高的存储子系统。以冗余技术增加其可靠性,以多个低成本磁盘构成磁盘子系统,提供比单一硬盘更完备的可靠性和高性能,RAID被广泛地应用在服务器体系中。19四、磁盘阵列第三讲计算机系统的可靠性与容错性RAID的优点1.成本低,功耗小,传输速率高。在RAID中,可以让很多磁盘驱动器同时传输数据,远远超过单个磁盘驱动器。2.提供容错功能,因而具有更高的安全性。3.RAID与传统的大直径磁盘驱动器相比,价格要低?20四、磁盘阵列第三讲计算机系统的可靠性与容错性IDEEIDESCSIDAC7/15个盘IntegratedDeviceElectronics集成设备电路仅支持2个盘增强型IDE接口可支持4个盘小型计算机系统接口可支持多个盘DAC磁盘阵列控制器可支持多分组多个磁盘例如:RAID系统。部件级容错21四、磁盘阵列第三讲计算机系统的可靠性与容错性RAID0:无冗余无校验的磁盘阵列简单将数据分配到各个磁盘上,不提供真正容错性。至少需要2个硬盘,可支持8/16/32个磁盘。整个逻辑盘的数据是被分条(stripped)分布在多个物理磁盘上,可以并行读/写,速度最快,但无容错能力。优点:更好地利用磁盘空间,延长磁盘寿命,多个硬盘并行工作,提高了读写性能。缺点:不提供数据保护,任一磁盘失效,数据可能丢失,且不能自动恢复。22四、磁盘阵列第三讲计算机系统的可靠性与容错性输入数据流输入数据磁盘阵列控制器并行传输HDD1HDD2HDD3HDD4HDD5RAID0示意图23四、磁盘阵列第三讲计算机系统的可靠性与容错性镜象磁盘阵列(RAID1)每一组盘至少两台,数据同时以同样的方式写到两个盘上,两个盘互为镜象。磁盘镜象可以是分区镜象、全盘镜象。容错方式以空间换取,实施可以采用镜象或者双工技术。主要用在对数据安全性要求很高,而且要求能够快速恢复被损坏的数据的场合。优点:具有最高可靠性,策略简单,恢复数据时不必停机。缺点:有效容量只有总容量的1/2,利用率50%。由于磁盘冗余,成本较高。24四、磁盘阵列第三讲计算机系统的可靠性与容错性输入数据流输入数据磁盘阵列控制器并行传输HDD1HDD2第一组镜象HDD3HDD4RAID1示意图第二组镜象工作盘镜像盘工作盘镜像盘25四、磁盘阵列循环奇偶校验阵列(RAID5)RAID5是无独立校验盘的奇偶校验磁盘阵列。校验数据不固定在一个磁盘上,而是循环地依次分布在不同的磁盘上。校验信息分布在各个磁盘驱动器上。RAID5对各种大小数据量的读写都有很好的性能,是目前采用最多、最流行的方式,至少需要3个硬盘。26四、磁盘阵列循环奇偶校验阵列(RAID5)优点:校验分布在多个磁盘中,写操作可以同时处理。为读操作提供了最优的性能。一个磁盘失效,分布在其他盘上的信息足够完成数据重建。缺点:数据重建会降低读性能;每次计算校验信息,写操作开销会增大,是一般存储操作时间的3倍。27四、磁盘阵列第三讲计算机系统的可靠性与容错性输入数据流输入数据磁盘阵列控制器HDD1HDD2HDD3HDD4HDD5RAID5示意图奇偶校验parityparityparity28四、磁盘阵列第三讲计算机系统的可靠性与容错性其它形式的磁盘阵列(按照校验方式不同划分)RAID2:并行海明纠错阵列RAID3:奇偶校验并行位交错阵列RAID4:奇偶校验扇区交错阵列RAID6:二维奇偶校验阵列RAID7:优化的高速数据传送磁盘结构29四、磁盘阵列第三讲计算机系统的可靠性与容错性输入数据流输入数据磁盘阵列控制器HDD1HDD2HDD3HDD4HDD5RAID2示意图HDD6HDD7HCCHCCHCC海明校验HCCHCCHCCHCCHCCHCC30四、磁盘阵列第三讲计算机系统的可靠性与容错性输入数据流输入数据磁盘阵列控制器HDD1HDD2HDD3HDD4HDD5RAID3示意图parityparity奇偶校验31四、磁盘阵列第三讲计算机系统的可靠性与容错性输入数据流输入数据磁盘阵列控制器HDD1HDD2HDD3HDD4HDD5RAID4示意图parityparity奇偶校验paritySecter交叉32四、磁盘阵列第三讲计算机系统的可靠性与容错性
本文标题:计算机系统安全 第三讲计算机系统的可靠性
链接地址:https://www.777doc.com/doc-3381615 .html