您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 计算机故障诊断与维护第二章
计算机故障诊断与维护第二章计算机的可靠性本章主要内容:计算机的可靠性分析基础系统可靠性分析计算机常用测试及检测方法第一节计算机的可靠性分析一.定义1.可靠性:是指计算机在规定的条件下和给定的时间完成预定功能的概率。对于无备份计算机来说,其可靠性用下式来表示:-λt-λ/QR(t)=℮=℮其中:λ---失效率Q---平均寿命2.失效率:指计算机在某一瞬间元件失效数与元件总数的比例。其表示如下:dn(t)λ(t)=-/dtn(t)-dn(t)---表示某一时刻计算机失效的元件数。3.平均寿命:也称为平均故障间隔时间MTBF或平均无故障时间MTTF。如果把n个元件进行一次寿命实验,直到元件全部损坏为止。把每个元件损坏以前的工作时间记为t1,t2,---tn。则平均寿命可表示为:Q=1/n∑ti=MTBF=MTTF=1/λ可以看出,λ值越小,MTBF越长的机器越好。4.可维护性:计算机从判定故障到排除故障所需时间。它包含诊断、定位、校正等时间。常用平均修复时间MTTR来表示。5.可用性:计算机的使用效率。也就是系统在执行任务的任意时刻正常工作的概率。可表示为:A=MTBF/MTBF+MTTR计算机的可靠性应该是可靠性、可用性、可维性的综合因素。二.影响计算机可靠性的因素1.内在因素①设计、工艺、结构、调试②元件选择2.外在因素①空气条件(温度、湿度、盐雾)②机械条件(振动、冲击、摇摆)③电气条件(电压稳定性、接地、雷击、静电)④电磁条件(电机、变压器、功率开关)三.可靠性保证元件是基础,设计是关键,环境是保证。为了提高计算机系统的可靠性,除了保证计算机系统正常工作环境及正确地使用维护外,还需要:1.可靠性装置可靠性装置是通过选用高可靠性元件及采用容错技术来保证计算机功能的正确性。容错技术:用增加冗余资源的办法来掩蔽故障造成的影响,使计算机在元器件、线路有故障、系统有差错时仍能正确使用预定算法的功能。①硬件冗余:多重结构、表决系统、双工系统。②时间冗余:指令复执、程序卷回。③信息冗余:多重模块、阶段表决、增加校验。2.故障诊断随时提供故障信息。3.可靠性模型画出系统可靠性框图,框图是根据计算机系统中各部件功能、关系及连接方式的抽象模型。第二节系统可靠性分析计算机可靠性系统按各部分的功能及连接方式,可分为串联结构系统、并联结构系统和混合结构系统。一.串联结构系统1.定义:所谓串联结构系统是指在一系统中,构成这个系统的每个部件都是不可缺少的,只有每一个部件都正常工作时,系统才能正常工作。2.串联结构系统的可靠性输入输出如果第i个部件的可靠性为Ri,则系统的可靠性为:R=R1·R2------Rn=∏RiR1R2Rn如果第i个部件得的失效率为λi,则系统的可靠性为:λ=λ1+λ2+------+λn=∑Ri3.系统平均无故障时间MTBF=1/λ=1/λ1+λ2+---λn4.串联系统每一个部件的可靠性①一个部件由数种元件组成②每种元件有一定数量③任何元件失效将造成部件失效④失效率λ=k1λ1+k2λ2+---kmλm二.并联结构系统1.定义:并联结构系统也叫冗余系统,是指一个系统由n个部件构成,只要其中有一个部件正常,该系统就能正常工作。2.并联系统的可靠性输入输出---第i个部件的可靠性为Ri,则不可靠性为1-Ri,系统总的可靠性为:R=1-(1-R1)(1-R2)---(1-Rn)=1-∏(1-Ri)R1R2Rn举例:有一台计算机系统配置100个终端,另有4个备份,每台终端平均无故障时间为500小时,平均单台故障修复时间为5小时,求该系统平均每隔多少小时需更换一次有故障的终端?解:n=100λi=1/MTBFi=1/500MTBF=1/(λ1+λ2+---+λn)=50(小时)∴λ=1/50平均50小时有一台终端出故障∵MTTR=5小时∴修复率=1/5K=修复率/故障率=1/5/1/50=10实用算法:T=TB×(K**(B+1)–1)/(K–1)=50×(10**(4+1)–1)/(10–1)≈555550(小时)三.双重结构系统的可靠性1.并联结构的种类:双重结构、三重结构和多重结构。2.双重结构:也称为备份系统,通常有三种表示:1)双通道结构输入输出如果每一个部件的可靠性均为Ri,则系统的可靠性为:a.先为串联结构:R串=R1·R2·R3·R4=Ri**4b.后为并联结构:R=1–(1-R串)·(1–R串)=1–(1–Ri**4)·(1–Ri**4)R1R5R6R7R8R4R3R22)串并结构输入输出如果每一个部件的可靠性均为Ri,则系统的可靠性为:a.先为串联结构:R串1=R1·R2=Ri**2R串2=R5·R6=Ri**2R串3=R3·R4=Ri**2R串4=R7·R8=Ri**2b.再为并联结构:R并1=1–(1–R串1)·(1–R串2)=1–(1–Ri**2)**2R并2=1–(1–R串3)·(1–R串4)=1–(1–Ri**2)**2c.最后为串联结构:R=R并1·R并2=(1–(1–Ri**2)**2)**2R1R5R6R7R8R4R3R23)双部件结构输入输出如果每一个部件的可靠性均为Ri,则系统的可靠性为:a.先并联R并1=1–(1–R1)·(1–R5)R并2=1–(1–R2)·(1–R6)R并3=1–(1–R3)·(1–R7)R并4=1–(1–R4)·(1–R8)b.再串联R=R并1·R并2·R并3·R并4=(1-(1–Ri)**2)**4R1R4R3R2R5R6R7R83.三种结构形式的比较基本结构R=Ri**4Ri取值结构形式0.700.800.900.95基本结构0.24010.40960.65610.8145双通道结构0.42260.65140.88170.9656串并结构0.54740.75760.92910.9811双部件结构0.68570.84930.96060.99004.两种备份结构1)热备份结构:备份件和使用件一起加电工作。2)冷备份结构:当某部件失效时,启动备份部件工作时,备份部件才上电。举例:要求一台计算机在6天运行中顺利进行。采用如下冗余结构2个CPU,4个MM体,2个I/OP。基本运行条件是1个CPU,2个MM体,1个I/OP。已知CPU、MM、I/OP的单个平均无故障时间MTBF分别为500、200、800小时,平均单个修复时间分别为2、0.5、1小时。求执行该任务的可靠性?解:先将CPU、MM、I/OP分别看成3个子系统,求出各子系统的失效率,然后再求整个系统的可靠性。1)MM子系统在运行过程中,随故障数的增加所用个数减少,而使得存储器处于不同的状态,故障率为:λ=(4–i)/200λi4/2003/2002/200坏一个坏一个坏一个中断修复一个修复一个启动TM2=1/λ2=200/2=100(h)K1=修复率/1/TM2=1/0.5/1/100=200TM1=(1/λ1)(1+K1)=(200/3)(1+200)=13400(h)k2=修复率/1/TM1=1/0.5/1/13400=26800TM0=(1/λ0)(1+K2)=(200/4)(1+26800)=1340050(h)∴TM=∑TMi=100+13400+1340050=1353550(h)λM=工作时间/可用时间=6x24/1353550=0.0106﹪TM0TM1TM22)CPU子系统:λi2/5001/500坏一个坏一个中断修复一个启动TC1=1/λ1=500K1=修复率/1/TC1=1/2/1/500=250TC0=(1/λ0)(1+K1)=(500/2)(1+250)=62750(h)∴TC=∑Tci=250+62750=63000λc=工作时间/可用时间=6x24/63000=0.2277﹪TC0TC13)I/OP子系统:λi2/8001/800坏一个坏一个中断修复一个启动TP1=1/λ1=1/1/800=800(h)K1=修复率/失效率=(1/1)(1/800)=800TP0=(1/λ0)(1+k1)=(800/2)(1+800)=320400(h)∴TP=∑Tpi=800+320400=321200(h)λp=工作时间/可用时间=24x6/321200=0.0448﹪4)整个系统失效率:λ=λC+λM+λp≈0.3﹪∴R=1-λ=99.7﹪TP0TP1四.混合结构系统以N模冗余结构作为核心,再由S个备份的备件库组成。工作时,当N个单元中有一个失效时,就用一个备份代替,使基本N模冗余结构的操作继续进行。在混合结构中,利用“偏差检测器”来检测系统工作单元的输出是否正常。有偏差时,则利用开关把故障单元切离,换上备份,使系统依然能正常工作。第四节计算机常用测试方法一.常用测试工具1.示波器2.三用表3.逻辑测试笔4.人工测试台5.诊断检查程序1)CPU检查程序3)外设检查程序2)MM检查程序4)系统综合检查程序6.自动测试仪(带有计算机的测试设备)7.逻辑分析仪(带有瞬间记忆能力的装置)第四节计算机常用测试方法二.微机故障检测方法1.功能测试法2.分段查找法3.直接观察法4.同类比较法5.逻辑测试法6.升温法7.降温法8.插拔法
本文标题:计算机故障诊断与维护第二章
链接地址:https://www.777doc.com/doc-4302567 .html