您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 计算机安全保密XXXX-03可靠性
2019/10/212019/10/22第三章计算机系统的可靠性3.1什么是计算机系统的可靠性3.2容错系统的概念3.3硬件冗余3.4软件冗余3.5磁盘阵列的编码容错方案2019/10/233.1什么是计算机系统的可靠性可靠性:系统在规定的条件下,完成规定的功能的能力。可靠性用可用度来度量。可用度:系统在t时刻处于正常状态的概率。可用度计算:A(t)=平均无故障时间/(平均无故障时间+平均修复时间)平均无故障时间:MTBF平均修复时间:MTRF2019/10/243.1什么是计算机系统的可靠性可用性的定量表现:可靠性的测度方法:抗毁性,生存性,有效性。可靠性表现为硬件可靠性,软件可靠性,人员可靠性,环境可靠性等。可维护性:平均修复时间:MTRF维修保障:后勤支援能力2019/10/253.1什么是计算机系统的可靠性浴盆曲线2019/10/263.1什么是计算机系统的可靠性电子元器件的质量等级;电子元器件的选用:对元器件性能的掌握;降额使用;热设计;抗辐射设计;防静电损伤;防操作过程中的损伤;储存与保管问题。2019/10/273.1什么是计算机系统的可靠性热设计技术热交换途径,热环境影响因素(电能、机械能转换为热量);冷却方法:自然冷却、强迫风冷、冷板式冷却;“软件冷却”风道水冷,液氮冷却热管,导热2019/10/283.1什么是计算机系统的可靠性1963年发明并制造出热管,是高效传热元件。80年代前,热管用于卫星等高端系统。导管内填充了液态导热介质。热管两端产生温差的时候,蒸发端的液体就会迅速气化,将热量带向冷凝端,速度非常快。液体在冷凝端凝结液化以后,通过毛细作用,流回蒸发端。水--气之间的相变反应,使热管的热传导效率比普通的纯铜高许多倍。热管传热效果好,噪音低,使用寿命长。2019/10/293.1什么是计算机系统的可靠性2019/10/2103.1什么是计算机系统的可靠性2019/10/2113.1什么是计算机系统的可靠性2019/10/2123.1什么是计算机系统的可靠性2019/10/2132019/10/2142019/10/2152019/10/2162019/10/2172019/10/2182019/10/2192019/10/2202019/10/2212019/10/2222019/10/2232019/10/2243.1什么是计算机系统的可靠性元器件布局发热元件分散安装使热敏感元件处于低温区采用短通路,减少传导热阻较少接触面热阻印刷板热设计机箱热设计2019/10/2253.1什么是计算机系统的可靠性热分析手段热传导、热对流、热辐射美BETAsoft软件,可实现器件级、电路板级、系统级电子产品热分析和热设计。2019/10/2263.1什么是计算机系统的可靠性2019/10/2272019/10/2282019/10/2293.1什么是计算机系统的可靠性故障、失效和错误的概念失效是指硬件物理特性异变。故障是指硬件或软件的错误状态,是失效在逻辑上的等效。一个故障可以用种类、值、影响范围和发生时间来描述。错误是指程序或数据结构中的故障表现形式,是故障和失效所造成的后果。2019/10/2303.1什么是计算机系统的可靠性故障的分类故障可分为逻辑故障和非逻辑故障两种。按时间划分,故障可分为以下三种:1.永久故障是指永远持续下去直至修复为止的故障。硬件的永久性故障意味着不可逆的物理变异。软件的永久性故障也是一个不可自动恢复的错误状态。2.间歇性故障是短暂的、断续,它具有偶然性、不定期的重复性。如一个处于临界状态的电路输出时好时坏,虚焊点也会引起这样的故障。2019/10/2313.1什么是计算机系统的可靠性3.偶然性故障的出现是暂时的,且可能是非重复性的。常因环境的变化、电源干扰、元器件性能的波动、软件的随机变化、电磁干扰等因素而引起。统计表明,间歇性故障和偶然性故障占整个故障的很大比例,成为系统出错的主要根源。早期美国空军的一项研究报告指出,这类故障占所有故障的80%。IBM公司的一项报告指出:这类故障占所有现场失效的90%。2019/10/2323.1什么是计算机系统的可靠性错误的根源:错误是失效和故障所引起的后果,其根源可以归纳为下图。2019/10/2333.1什么是计算机系统的可靠性容错技术能达到对故障的“容忍”,但并非是“无视”故障的存在。它首先能自动地适时地检测并诊断出系统的故障,然后采取对故障的控制或处理的策略。根据错误的不同情况,一个容错系统可能分10个阶段:(1)故障限制(2)故障检测(3)故障屏蔽(4)重试(5)诊断(6)重组(7)恢复(8)重启动(9)修复(10)重构2019/10/2343.1什么是计算机系统的可靠性按照系统的这些失效响应方式,容错技术可分成三种:故障检测、静态冗余、动态冗余。静态冗余能容忍故障,但不给出故障警告。动态冗余用于纠错码存储器或具有固定配置(即线路器件之间的逻辑连接保持不变)的多数表决冗余计算机之类的系统中。2019/10/2353.1什么是计算机系统的可靠性2019/10/2363.1什么是计算机系统的可靠性提高系统可靠性的方法:避错:提高软硬件质量,抵御故障。容错:故障发生时系统仍能继续运行,提供服务与资源。美国容错计算机有限公司:Stratus天腾公司TandenComputers,1974年成立。2019/10/2373.1什么是计算机系统的可靠性Stratus容错服务器采用容错设计2004年3月29日美国容错技术有限公司与微软在北京宣布,Stratus生产的基于WindowsServer2000操作系统的容错服务器FtServer。FtServer是基于IntelIA架构,使用可互相替换的冗余硬件。各个冗余部件工作在时钟同步锁定模式下,以单一的操作系统映像,同时执行相同的应用和交易。2019/10/2383.1什么是计算机系统的可靠性HPNonStopHPNonStop是HP工业标准服务器系列产品中的高端产品,是一个开放的专用平台。NonStop服务器的专用性表现在它的核心容错结构,可进行全面的故障检测和隔离,并保护数据的完整性,整个系统无任何单点故障,其可用性达到99.999%,足以让最关键和复杂的应用得到满足。2019/10/2393.1什么是计算机系统的可靠性NonStop服务器的处理性能通过松散耦合的非共享体系结构得以线性方式进行扩展,支持2到4080个处理器,并对用户透明。NonStop服务器正全面转向安腾平台。2019/10/2402019/10/2413.1什么是计算机系统的可靠性容错技术的发展与应用展望1.容错技术的应用是网络时代的客观需求2.软件容错技术将有较大进展3.硬件容错、操作系统容错相结合的容错设计方法将备受重视4.VLSI的容错设计技术将发挥巨大作用5.系统容错设计的应用目标明确2019/10/2423.1什么是计算机系统的可靠性容错技术的发展与应用展望6.容错技术应用向PC发展7.容错技术向智能化发展8.容错技术应用和应用服务技术相结合9.容错技术将走向开放化、标准化2019/10/2433.2容错系统的概念容错:系统资源冗余。硬件容错软件容错时间容错:校验、纠错信息容错2019/10/2443.2容错系统的概念元器件级容错部件级容错分系统级容错系统级容错容错:平衡可靠性与资源消耗的关系。2019/10/2453.2容错系统的概念容错系统工作过程自动侦测自动切换自动恢复2019/10/2463.3硬件冗余1.增加线路、设备、部件,形成备份2019/10/2473.3硬件冗余2.数据备份数据备份的目的为了有效地利用和保护数据,存储备份是必不可少的措施。存储备份的主要目的有两个:(1)数据共享;(2)用于系统灾难恢复。2019/10/2483.3硬件冗余信息存储系统的可靠性和可用性、数据备份和灾难恢复能力往往是企业用户首先要考虑的问题。为防止灾难事件对数据的毁坏,关键数据还要考虑异地备份和容灾问题。数据的灾难恢复是保证系统安全可靠的基础。2019/10/2493.3硬件冗余存储管理和维护自动化由于存储系统越来越复杂,管理维护人员的出差错的可能性也越来越大,稍不注意就会丢失数据。现代存储系统要求具有智能化的自动管理和维护功能。2019/10/2503.3硬件冗余备份策略:备份策略是所要采用的备份方式,要根据自己的实际情况来制定。基本的备份策略有三种。2019/10/2513.3硬件冗余1.完全备份策略每次都对自己的系统进行完全备份。123452019/10/2523.3硬件冗余2.增量备份策略每次仅对增加或变更的数据进行备份。435212019/10/2533.3硬件冗余3.差分备份策略入123452019/10/2543.3硬件冗余按备份介质存放位分为本地备份和异地备份;按备份后数据是否可改变分为活备份与死备份;按选择的备份软件的功能可分为动态备份和静态备份。2019/10/2553.3硬件冗余3.双机容错系统4.双机热备份5.三机表决系统6.集群系统2019/10/2563.3硬件冗余集群(Cluster)集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。2019/10/2573.3硬件冗余集群(Cluster)集群必须可以协调管理各分离的组件的错误和失败,并可透明地向集群中加入组件。一个集群包含多台(至少二台)拥有共享数据存储空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。2019/10/2583.3硬件冗余集群(Cluster)每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。集群内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上的任一故障发生时,客户都将能很快连接到新的应用服务上。2019/10/2593.3硬件冗余集群(Cluster)集群技术的出发点是提供高可靠性、可扩充性和抗灾难性。集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域相互通信。当某一服务器故障时,它所运行的应用程序将由其它服务器自动接管。2019/10/2603.3硬件冗余集群(Cluster)群集网格(grid)2019/10/2613.3硬件冗余服务器群集:群集由通过输入输出系统互联的若干服务器构成。这些服务器连接到存储介质中,由分布资源管理软件DRM进行管理。群集组成部分处在不断的改进之中:刀片式服务器,快速InfiniBandI/O技术和更为复杂的DRM软件,这些部分组合在一起构成群集。群集是由一组独立的计算机组成,这些计算机一起工作以运行一系列共同的应用程序,为客户和应用提供单一的系统映射。2019/10/2623.3硬件冗余群集内的计算机物理上通过电缆连接,程序上则通过群集软件连接。群集允许计算机使用故障应急与负载均衡功能。2019/10/2633.3硬件冗余Windows2000群集技术:高度的可用性,可伸缩性,易管理性;在Windows2000AdvancedServer和Windows2000DataCenterServer操作系统支持群集技术。2019/10/2643.3硬件冗余Windows2000群集技术:群集服务:这种服务起初是针对为数据库、消息系统和文件/打印服务等应用提供故障应急支持的要求而开发的。支持双节点故障应急群集和四节点群集。网络负载均衡(NLB):该项服务可在32个节点
本文标题:计算机安全保密XXXX-03可靠性
链接地址:https://www.777doc.com/doc-1269120 .html