华为可靠性基础

1、可靠性基础第一节可靠性定义产品的可靠性是指：产品在规定的条件下、在规定的时间内完成规定的功能的能力。从定义本身来说，它是产品的一种能力，这是一个很抽象的概念；规定的条件工作条件：电压，负载，使用方法，维修方法，输出功率等。环境条件：温度，湿度，压力，振动，冲击，电场，磁场，电磁场等。储存条件：运输，保管等规定的时间指产品的生命周期（如交换机寿命20年，手机寿命5年，手机划盖工作寿命6万次，汽车寿命30万公里等）规定的功能指产品标准或产品技术条件中所规定的各项技术性能（技术指标）。对产品而言，可靠性越高就越好。可靠性高的产品，可以长时间正常工作（这正是所有消费者需要得到的）；从专业术语上来说，就是产品的可靠性越高，产品可以无故障工作的时间就越长。我国的可靠性发展我国的可靠性工作起步较晚，20世纪70年代才开始在电子工业和航空工业中初步形成可靠性研究体系，并将其应用于军工产品。其他行业可靠性工作起步更晚，差距更大，与先进国家差距20～30年，虽然国家已制订可靠性标准，但尚未引起所有企业的足够重视。二、可靠性的重要性调查结果显示（如某公司市场部2001年调查记录）：“对可靠。

2、性的重视度，与地区的经济发达程度成正比”。例如，英国电讯（BT）关于可靠性管理/指标要求有产品寿命、MTBF报告、可靠性框图、失效树分析（FTA）、可靠性测试计划和测试报告等；泰国只有MTBF和MTTF的要求；而厄瓜多尔则未提到，只是提出环境适应性和安全性的要求。产品的可靠性很重要，它不仅影响生产公司的前途，而且影响到使用者的安全（前苏联的“联盟11号”宇宙飞船返回时，因压力阀门提前打开而造成三名宇航员全部死亡）。可靠性好的产品，不但可以减少公司的维修费用，而且可以很快就打出品牌，大幅度提升公司形象，增加公司收入。随着市场经济的发展，竞争日趋激烈，人们不仅要求产品物美价廉，而且十分重视产品的可靠性和安全性。日本的汽车、家用电器等产品，虽然在性能、价格方面与我国彼此相仿，却能占领美国以及国际市场。主要的原因就是日本的产品可靠性胜过我国一筹。美国的康明斯、卡勃彼特柴油机，大修期为12000小时，而我国柴油机不过1000小时，有的甚至几十小时、几百小时就出现故障。我国生产的电梯，平均使用寿命（指两次大修期的间隔时期）为3年左右，而国外的电梯平均寿命在10年以上，是我们的3倍；故障率，国外。

3、平均为0.05次，而我国为1次以上，高出20倍，这样的产品怎么有竞争力呢！因此要想在竞争中立于不败之地，就要狠抓产品质量，特别是产品可靠性，没有可靠性就没有质量，企业就无法在激烈的竞争中生存和发展。因此，可靠性问题必须引起政府和企业的高度重视，抓好可靠性工作，不仅是关系到企业生存和发展的大问题，也是关系到国家经济兴衰的大问题。三、可靠性指标衡量产品可靠性水平有好几种标准，有定量的，也有定性的，有时要用几种标准（指标）去度量一种产品的可靠性，但最基本最常用的有以下几种标准。1.可靠度R（t）；它是产品在规定条件和规定时间内完成规定功能的概率。一批产品的数量为N，从t=0时开始使用，随着时间的推移，失效的产品件数逐渐增加，而正常工作的产品件数n(t)逐渐减少，用R(t)表示产品在任意时刻t的可靠度。2.可靠寿命[CR(tr)]；它与一般理解的寿命有不同含义，概念也不同，设产品的可靠度为R(t)，使可靠度等于规定值r时的时间tr的，即被定义为可靠寿命。3.失效率（故障率）λ（t）；它是指某产品（零部件）工作到时间t之后，在单位时间△t内发生失效的概率。4.有效寿命与平均寿命；有效寿命一般是。

4、指产品投入使用后至达到某规定失效率水平之前的一段工作时间。而平均寿命MTTF对于不可修复产品，指从开始使用直到发生失效这一段工作时间的平均值；对于可修复的产品，是指在整个使用阶段和除维修时间之后的各段有效工作时间的平均值。5.平均无故障工作时间MTBF；是指相邻两次故障之间的平均工作时间，也称为平均故障间隔。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。其他如可靠度、有效度、维修度、平均维修时间等也是衡量产品可靠性水平的一种标准重点指标1.平均故障间隔时间；可维修的产品，其可靠性主要的参数是MTBF（MeanTimeBetweenFail），即平均故障间隔时间，也就是两次维修间的平均时间；不可维修的产品，用MTTF（MeanTimeToFail）；两个参数的计算没有区别，下文只提到MTBF。MTBF越大，说明产品的可靠性越高。可以用以下理想测试来精确测试一批产品的MTBF；即将该批产品投入使用，当该批产品全部出现故障以后（假如第1个产品的故障时间为t1，第2个产品的故障时间为t2，第n个产品的故障时间为tn），计算发生故障的平均时间，则有公。

5、式如下：nnntMTBF1/2、失效密度λ另外一个常用的参数是λ，它是指在产品在t时刻失效的可能性，是失效间隔时间的倒数，也就是：λ＝1/MTBF。对某一类产品而言，产品在不同的时刻有不同的失效率（也就是失效率是时间的函数），对电子产品而言，其失效率符合浴盆曲线分布（如下图）：λttIIIIII知道了λ，就可以找到产品连续工作了t时间后、还正常的概率为R(t)=e-λt，此时已经失效的概率为F(t)＝1-R(t)＝1－e-λt。R(t)=e-λt是一个经验公式，一般电子产品的寿命服从这一指数分布，其它分布下文再叙；软件可靠性软件的可靠性是用以衡量一个软件(指计算机程序)好坏很重要的一个评价指标。软件的可靠性与硬件的可靠性有许多相似之处，更有许多差别。这种差异是由于软、硬件故障机理的差异造成的，因而使软件可靠性在术语内涵、指标选择、设计分析手段以及提高软件可靠性的方法与途径等方面具有其自身的特点。然而，软件可靠性作为一个新的研究领域正在发展和应用。基本概念软件故障及其特征对于软件的不正常，常用三个术语来描述：①缺陷(fault)：指的是软件的内在缺陷。②错误(error)：缺。

6、陷在一定环境条件下暴露导致系统运行中出现可感知的不正常、不正确和不按规范执行的状态。③故障(failure)：由于对错误未作任何纠正而导致系统的输出不满足预定的要求。缺陷可能导致错误并造成系统的故障，因此，缺陷是一切错误的根源，故存在下面的传递关系：缺陷→错误→故障。但是发生过故障的软件通常仍然是可用的。只有当软件频繁发生故障，或公认已经“陈旧”时，软件才被废弃，这一版本软件的寿命也就终结。有缺陷的软件只有在特定条件下才能导致出错，而在一般情况下是能够正常工作的。软件缺陷一般有以下特征：①软件缺陷的固有性。软件一旦有缺陷，它将潜伏在软件中，直到它被发现和改正。反之，在一定的环境下，软件一旦运行是正确的。它将继续保持这种正确性，除非使用环境发生了变化。②缺陷对环境的敏感性。对于一个软件来说，它的各部分之间有着密切的联系。软件的运行过程实际上是各部分间的一个逻辑组合过程，不同的逻辑组合就可得到不同的程序路径，而每一次软件运行或完成某功能都是选择了某一条程序路径。选什么样的程序路径是由软件自身确定的输入环境决定的。对于不同的输入环境，软件的运行路径可能有不同。如果软件在某些程序路径上。

7、含有缺陷，那么在执行这些程序路径时就有可能发生错误。这就是软件错误与输入环境的关系。对在一定输入环境下工作出错的软件，当退出该环境后，对于其他环境，此软件又可能正常工作。但当再次进入该环境时，软件又会出错。这说明缺陷对环境是十分敏感的。③软件错误的传染性。任一软件缺陷，只要未被排除，始终存在于该软件中，一旦暴露，处理过程就将产生错误，而这种错误往往是变化的。例如，由于某一处错误处理，使某个处理变量C的值与要求不合，当变量C继续参加运行时会引起处理过程中的其他错误。故这类错误是具有“传染性”的。如果错误不被纠正，也许这种错误就一直存在以至继续“传染”，直到引起软件故障。软件可靠性定义软件可靠性是“软件在规定的条件下、规定的时间周期内执行所要求的功能的能力”。软件可靠性同样可用可靠度来衡量，而软件的可靠度是“软件在规定的条件下、规定的时间周期内不引起系统故障的概率”。常用参数软件的故障与硬件不同，软件一旦出现故障，查明原因后相应的缺陷就可以得到纠正，以后不再重复出现。因此这是一个可靠性增长的问题。常用的软件可靠性参数有以下一些。①系统平均不工作间隔时间(MTBSD)设VT为软件正常。

8、工作总时间，d为软件系统由于软件故障而停止工作的次数，则定义式中：TBSD——系统平均不工作间隔时间(MTBSD)。②系统不工作次数(一定时期内)由于软件故障停止工作，必须由操作者介入再起动才能继续工作的次数。③可用度(A)设VT为软件正常工作总时间，DT为由于软件故障使系统不工作的时间，则定义式中：BDT——平均工作时间(h)；TDT——平均不工作时间(h)。一般情况下，生产计算机系统要求A≥99.8%；银行计算机系统要求A≥99.9%。④初期故障率一般以软件交付使用方后的三个月内为初期故障期。初期故障率以每100h的故障数为单位。用它来评价交付使用的软件的质量并预测软件可靠性何时基本稳定。⑤偶然故障率一般以软件交付给使用方后的四个月后为偶然故障期。偶然故障率一般以每千小时的故障数为单位，它反映了软件处于稳定状态的质量。⑥使用方误用率使用方不按照软件规范及说明等文件来使用而造成的错误叫“使用方误用”。在总使用次数中，使用方误用次数占的百分率叫“使用方误用率”。造成使用方误用的原因之一是使用方对说明理解不深，操作不熟练，但也可能是说明没有讲得非常清楚引起误解等。软件可靠性模型虽然软件。

9、可靠性与硬件可靠性有相似之处，都是用出故障的概率来表示的，但由于两者间故障机理不同，因此可靠性模型也不一样。软件可靠性模型有很多种，下面介绍常用的三类：①从硬件可靠性理论导出的模型；②根据程序内部特性得到的模型；③用已知错误植入软件，经过测试、分析比较建立的可靠性模型。第一种可靠性模型所做的假设是：①在两次错误出现之间的调试时间随错误出现率呈现指数分布，而错误出现率和剩余错误数成正比；②每个错误一经发现，立即排除，并使错误总数减1；③产生错误的速率是个常数。对软件来说，上面假设的合理性可能还有问题，例如，纠正一个错误的同时可能不小心而引入另一些错误，这样第②个假设将不成立。第二种可靠性模型计算存在于软件中的错误的预期数目，根据软件复杂性度量函数导出的定量关系，这种模型建立了程序面向代码的(如操作符的数目)与程序中错误的初始估计数字之间的关系。奈伯(Naib)在一项利用霍尔斯特德(Halstead)方法对软件出错率估算的研究中发现，环境因素对软件出错率的影响最大，并找出了三个起决定作用的随机变量，即：①使用过该软件的总用户数X；②当前用户人数Y；③当前用户中有过出错历史的用户数Z。

10、。X、Y、Z为随机变量。这样软件出错率可表示为其中：式中：η——操作符个数；η2——操作对象个数；N2——操作对象使用次数；B3——模块个数。经实验奈伯发现，该式的结果与实验值相关系数达0.92。第三种可靠性模型是由D.Mills首先提出的。这种方法一开始用来估算野外生活的动物数或一个池塘内鱼的尾数。比如，要估算池塘内鲢鱼的尾数N，可以先把带有标记的Nt尾鲢鱼放入池塘，过一段时间后，从池塘中捕捉鲢鱼。数一数不带标记的鲢鱼有n尾，带标记的有nt尾。如果这些带与不带标记的鲢鱼分散均匀，又比较合群，而且捕捉的难易度相同，那么就可以求得N为植入模型就是在软件中“植入”已知的错误，并计算发现的植入错误数与发现的实际错误数之比而开发出的模型。随机将一些已知的带标记的错误植入程序。设程序中尚未发现的残留错误总数为N，植入的错误总数为Nt。在历经一段时间的测试之后，总共发现有程序的残留错误n个和带标记的植入错误nt个。假定植入错误和程序中的残留错误都可以同等难易地被测试到，就可用上式求出程序中尚未发现的残留错误总数N。但这种模型依赖于测试技术。例如，如何判定哪些错误是程序的残留错误，哪些是植。