您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 北邮信息安全专业容错计算技术课件第1章
容错计算原理北京邮电大学计算机科学与技术学院姚文斌绪论容错和避错技术的产生和发展容错计算的特征及定义避错和容错技术的分类容错和避错技术的产生和发展评价信息系统的三大要素性能、价格和可靠性数字系统的可靠性避错(Fault-avoidance):完美系统元器件老化和筛选生产工艺把关容错(Fault-tolerance):容忍错误系统多倍冗余与表决自身纠错能力等避错设计发展起始于计算机问世之日计算机发展经历电子管-晶体管-集成电路-大规模集成电路-超大规模集成电路,避错设计一直是提高计算机可靠性基本方法元器件筛选-避错设计结构-避错系统美国军用计算机公司包括:NORDEN公司、EMM公司、ROLM公司和MILTOPE公司产品包括PDP-11M,VAX-11M等我国从80年代开始研制抗恶劣环境计算机容错设计-1VonNeumann提出的五个容错理论报告是容错研究的基础60年代,提出了三模冗余、N模冗余结构、纠错码理论、自检和自修计算机70年代,研究范围从宇航领域扩大到交通管制、工厂自动化、银行、空港管理、潜艇导航等,成果有SIFT计算机、表决多处理机80年代广泛应用,容错计算机普及深入到整个工业界,Stratus容错计算机系列、IBMSystem88,Tandem16等商业化。容错作为每个数字系统的一个重要特征的时代已经到来容错设计-290年代,基于通用硬件的容错计算机得到重点发展。代表性是Stratus公司的FtServer系列计算机受价格制约,专用容错计算机费用开销大通用硬件开发时间短、软件支持丰富学术界IEEE(国际电机和电子工程学会)从1971年每年召开“国际容错计算年会FTCS”,2000年后改为可信计算会议DCS展望-可靠性设计重要性随着计算机技术进一步发展,可靠性设计必将越来越重要:计算机性能提高使系统复杂性增加计算机应用普及,使用者容易操作失误计算机应用环境恶劣,如温度、湿度、电磁干扰、机械冲击和震动、盐雾硬件成本日益降低,维护成本相对增高,需提高系统的可靠性以降低维护费用发展方向-1走与商用机兼容道路研究避错技术发展抗恶劣计算机瞄准主流商用机,集中力量在计算机结构组装、系统工艺、质量控制研究商业硬件和软件构成高可靠容错计算机传统容错计算机不足包括成本高(软/硬件专门设计)、扩展能力差、编程复杂、设计能力弱、设计周期长美国NASA的JPL实验室研制航空航天通用容错计算机欧洲GUARDS计划,共同研制通用容错计算机发展方向-2随着VLSI线路复杂性增高,故障埋藏深度增加,发现故障难度增大,为增加芯片可控性和可观测性的可曾实行研究已成为重要课题随着整片集成WSI技术和Soc技术提出,硅片容错技术应运而生将动态冗余技术用于VLSI设计,产生RVLSI技术。用PLA进行容错设计是实现硅片容错发展方向-3容错系统结构从单机向分布式系统,由通用微处理器及微计算机来实现高性能分布式容错系统分布式系统具有模块性、并行性和自治性三大特征在局部网络中注入全局管理、并行操作、自治控制、冗余和错误处理,是研究高性能、高可靠性分布式容错系统发展方向-4软件可靠性技术据统计,软件系统中软件故障占系统故障比例越来越高,甚至达到80%以上软件可靠性两种方法避错法:程序设计方法和软件验证技术容错法:冗余信息与算法程序,及时发现程序设计错误发展方向-5容错性能评价软件正确性证明难以获得容错系统的可靠性数据故障注入:通过对目标容错计算机系统注入各种软/硬件故障并观察目标系统对故障的响应,可以获得评价目标系统的各种参数,以辅助系统设计的改进发展方向-6理论研究方面,建立包含“故障”状态的计算机模型,并提出一套容错系统的综合方法论,建立一个广泛的故障病理学和相应的故障防护学绪论容错和避错技术的产生和发展容错计算的特征及定义避错和容错技术的分类可靠性的四论域信息模型逻辑的、信息的(内部的)、物理的、用户的(外部的)这样一个递增次序构造一个层次结构模型来描述一个信息处理系统层次结构模型中每一层次都包含各自的一组基本概念、模型和术语,设计要求、性能度量、正确特性样式、测试方法和概念规范都可以通过给定的论域描述系统的正常功能可由一个不希望时间UE(UnexpectantEven)(失效、故障、错误、失败而破坏)、不希望事件源于一个内部的论域容错系统的属性和实现它的方法论就可以通过四论域、它们的不希望事件、不希望事件的检测算法和恢复算法来解释容错计算就可以定义为当系统出现不希望事件时仍能正确地执行所规定的算法不希望事件UE的分类不希望事件在从逻辑域、信息域、物理域、用户域分别称为故障-错误-失效-失败。对于每一个论域,我们都可以根据原因、时间间隔、值和范围对该域的不希望事件等价在逻辑域来描述,并都把他们归纳为“故障模型”故障分类按时间间隔分为“永久故障”和“瞬间故障”按值分为“确定值故障”和“非确定值故障”按范围分为“局部故障”和“分布式故障”容忍不希望事件确认被容忍的不希望事件的规范选择与该不希望事件的类别相匹配的检测算法设计恢复算法使系统恢复到正确操作的某个级或者安全停机(系统恢复)容错计算四要素UE的检测损坏估价UE的恢复UE处理和继续服务实现容错计算的主要方法硬件冗余时间冗余信息冗余软件冗余硬件冗余硬件堆积冗余(N模冗余)待命储备冗余混合冗余系统时间冗余通过消耗时间资源来达到容错目的方法:初始检查、联机检查、周期检查信息冗余增加信息的多余度来提高可靠性检错能力和纠错能力方法:奇偶码、海明码、乘积码、循环码优点增加的冗余度比别的方法低、许多码的信息位和校验位在运算中可统一处理能纠正瞬时错误,提供故障自检测、自定位、自纠错能力缺点产生延时,难于纠正编码器和译码器本身的错误软件冗余无错误软件高可靠软件产品的程序设计方法软件测试技术程序正确性证明容错软件静态冗余:NVP动态冗余:RB综合冗余技术根据系统特性所确定的可靠性指标,成本诸因素选择适当的冗余方式,将这些冗余方式应用于适当的级别可靠性参数度量系统可靠性参数:R(t),A(t)系统可靠度R(t)是指在t=0时系统正常的条件下,系统在时间区间[0,t]内能正常运行的概率系统可靠度可以表示为:系统可用度A(t)是指系统在时间t可运行的概率:当t趋于无穷大时,A(t)的极限存在,则该极限成为系统的稳态可用度,他表示期望系统可用来执行有用计算的时间部分系统的平均无故障运行时间MTTF为tetR)(1)(00dtedttRMTTFt绪论容错和避错技术的产生和发展容错计算的特征及定义避错和容错技术的分类避错技术分类MIL-217B模型:器件的复杂程序因子,应用环境条件决定:环境因子,由系统的结温决定:温度因子,由器件的格程序决定化、筛选项目多少和严:质量因子,由器件老生过程的成熟程度决定:学习因子,由器件产2121)(CCCCErQLErQL避错的方法环境防护技术热设计、机械应力防护、化学防护、电磁兼容性设计等质量控制要求对全部材料、工艺及设备有严格的质量管理规范提高元件集成度整个系统失效率随着集成度的增大而减少容错技术分类冗余系统克服故障影响的阶段:故障检测故障限制故障屏蔽重试诊断重组恢复重启修复重构冗余系统的阶段容错技术分类(故障处理方式)故障检测不提供对故障的容忍,只提供已发生故障的警告故障屏蔽静态冗余,容忍故障但不给出故障警告动态冗余最复杂的一类容错技术,包含故障处理的所有10个阶段检错技术检测和定位故障的技术指标:检测覆盖率,即任意故障被检测到的概率诊断分辨率,即故障定位的精确程度检测技术检错码多倍冗余自校验等故障屏蔽提供容忍故障的冗余,在故障效应到达模块输出以前,通过隔离或校正来消除它们的影响指标:可靠度函数技术:N模表决冗余纠错码屏蔽逻辑动态冗余发生故障时,通过系统内部的重组来切除和替换故障部件重组实际上起着补充冗余、延长系统寿命的作用。重组有故障检测所激活,因此故障检测是动态冗余的基础,检测覆盖率和诊断分辨率决定了动态冗余系统故障处理能力软件可靠性技术软件避错技术软件管理技术、设计方法、验证工具软件容错技术恢复块技术、NVP技术可靠性技术分类范围技术硬件避错环境防护、质量控制、元件集成度故障检测检错码、自校验电路及自校验网络、监视定时器、一致校验和权限校验故障屏蔽N倍冗余结构、交织逻辑、编码状态机、纠错码动态冗余重组、恢复、可重组的N倍冗余、缓慢降级软件避错程序设计方法学、软件管理技术、验证技术容错恢复块技术、NVP
本文标题:北邮信息安全专业容错计算技术课件第1章
链接地址:https://www.777doc.com/doc-46522 .html