您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 六西格玛数据分析技术4
σσσσσσSSMC中国人民大学六西格玛质量管理研究中心六西格玛管理培训丛书(5)何晓群主编六西格玛数据分析技术何晓群编著光盘作者:陶沙苏晨辉中国人民大学出版社σσσσσσSSMC中国人民大学六西格玛质量管理研究中心第4章参数估计4.1参数估计的基本概念4.2总体均值和总体比例的区间估计4.3样本容量的确定4.4两总体均值之差的区间估计4.5两总体比例之差的区间估计4.6正态总体方差的区间估计4.7两个正态总体方差比的区间估计4.8有关区间估计的Minitab软件实现小组讨论与练习返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心本章目标1.掌握参数估计的基本概念2.建立起在管理中运用参数估计的思想3.能运用Minitab实现各种区间估计的计算4.掌握样本容量的确定方法5.能在管理实践中运用参数估计方法返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心4.1参数估计的基本概念参数估计有两大类,一种叫点估计,一种叫区间估计点估计是利用样本的信息对所感兴趣的参数估计出一个数值区间估计包含了两个数值,对应着数轴上的一个区间,所以称为区间估计点估计的方法最常用的有两种:•矩估计法•极大似然估计法对一个估计优良性的评价有一些相应的评价准则返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心对总体参数的估计,人们最容易想到的方法就是矩估计法,即用样本矩估计总体相应的矩,用样本矩的函数估计总体相应矩的函数。矩是指以期望值为基础而定义的数字特征,例如均值、方差、协方差等。最常用的矩估计有:用样本均值估计总体均值,用样本标准差估计总体标准差。例4-1.已知某种灯泡的寿命X~N(μ,σ2),其中μ,σ2均未知,今随机抽取4只灯泡,测得寿命(单位:小时)为1502,1453,1367,1650。试估计μ,σ。矩估计法返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心矩估计法(续)解:因为μ是全体灯泡的平均寿命,为样本的平均寿命,很自然地会想到用去估计μ;同理用s去估计σ。由于例4-2.设样本x1,x2,…,xn来自参数为λ的泊松分布。由于E(X)=D(X)=λ,因而与s2都可以作为λ的矩估计值。由例4-2可以看出E(X)=D(X)=λ,这表明总体均值与方差相等,但在实际问题中与s2不见得一样,因而矩估计的结果不惟一。)(61.118ˆ),(1493ˆ16.118140691406914)14936501()14931502(1493)1650136714531502(41222小时小时即sxssxxxxx返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心极大似然估计极大似然估计是利用总体的分布密度或概率分布的表达式及其样本所提供的信息建立求未知参数估计量的一种方法。极大似然估计好多初学者觉得难以理解,我们用下面的说法帮助理解:在产品检验中,有说这批产品的次品率可能是1/10000,也有说次品率可能是1/100。如果你在这批产品中随机抽取一件,竟然就是次品,自然应当认为这批产品的次品率最有可能是1/100而不是1/10000。把这种考虑问题的方法一般化,就概括出极大似然估计方法。返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心极大似然估计(续1)设总体X的分布已知,未知参数为θ,假定其分布密度族为f(x;θ);假设对总体X的n次观测结果为(x1,x2,…,xn)。应在一切θ中选取使样本(X1,X2,…,Xn)落在点(x1,x2,…,xn)附近概率最大的作为未知参数θ真值的估计值,即选取使:其中称为似然函数,它是样本的联合概率密度函数。ˆˆ)(max)ˆ(2121nn,x,,xxL,x,,xxL;;)(21n,x,,xxL;返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心极大似然估计(续2)一般情况下,我们用求解似然方程的方法进行极大似然估计,具体步骤是:1.由总体分布导出样本的联合概率密度;2.把样本联合概率密度中自变量x1,x2,…,xn看成已知常数,而把参数看作变量,得到似然函数;3.用微分原理求似然函数的最大值点;4.在最大值点的表达式中,代入样本值就得参数的估计值。可以证明:若x1,x2,…,xn来自正态总体N(μ,σ2),则:niiniixxnxnx121)(1ˆ1ˆ返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心例4-3.设某种品牌的电视机的首次故障时间遵从指数分布f(t)=λe-λt,t0,共测试了7台电视机,获得相应的首次故障时间(单位:万小时)为:1.49,3.65,0.26,4.25,5.43,6.97,8.09求参数的λ估计值。解:样本x1,x2,…,xn的联合密度用均值来表示,就有:,将看作常数,λ看作变量,可得似然函数,进而取对数,求微商,解方程可得:对本例而言,就有:极大似然估计(续3)2326.01.307ˆ1ˆxxnnxnnnniixnxnineLe,x,,xxPxnxee,x,,xxPniii)()(1)()(2111211x返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心点估计的优良性准则不同的参数估计方法,可得到不同的估计量,不同的估计量谁优谁劣?我们有一些相应的评价准则。在6σ管理中,最常用的点估计优良性准则有两个:一个是无偏性,另一个是有效性。无偏性:设是参数θ的一个估计量,如果,则称是参数θ的无偏估计。无偏性实际上是指对于一个估计量,屡次变更数据反复求估计值时,估计值的平均与真值相一致,即尽管有时比θ大,有时比θ小,总的看来,它的“平均值”就是θ。可以证明:许多情况下,是μ的无偏估计,s是σ的无偏估计。然而,在正态分布中σ的极大似然估计就不是无偏估计。x)ˆ(Eˆˆˆ返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心有效性无偏性只考虑估计值的平均结果是否等于待估参数的真值,而不考虑每个估计值与待估参数真值之间偏差的大小和散布程度。实际问题的研究中,不仅希望估计是无偏的,更希望这些估计值的偏差尽可能地小。设都是参数θ的无偏估计量,如果且至少有一个,严格不等号成立,则称比有效。设、x1都是μ的无偏估计,但样本均值的方差为σ2/n,x1的方差为σ2,只要n>1,作为μ的估计值,比x1就更有效。)ˆ()ˆ(21DD21ˆˆ、2ˆ1ˆ0ˆxxx返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心区间估计点估计没有给出估计的精度和可靠程度,区间估计解决了这一问题。设θ是总体的一个待估参数,从总体中获得容量为n的样本是x1,x2,…,xn,对给定的α(0α1),有统计量:θL=θL(x1,x2,…,xn)与θU=θU(x1,x2,…,xn)若对任意θ有P(θL≤θ≤θU)=1-α,则称随机区间[θL,θU]是θ的置信水平为1-α的置信区间。θL与θU分别称为1-α的置信下限与置信上限,α称为显著性水平。返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心区间估计(续)置信区间的大小表达了区间估计的精确性,置信水平表达了区间估计的可靠性,1-α是区间估计的可靠概率;而显著性水平α表达了区间估计的不可靠的概率。如果[θL,θU]是置信水平为0.95的置信区间,由于随机区间[θL,θU]会随样本观察值的不同而不同,它有时包含了参数θ,有时没有包含θ,但是用这种方法作参数的区间估计时,100次中大约有95个区间能包含着参数θ,大约有5个区间没能包含θ。在进行区间估计时,必须同时考虑置信概率与置信区间两个方面。即置信概率定的越大,则置信区间相应也大。这两者要结合考虑,才更为实际。返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心总体均值的区间估计当X~N(μ,σ2)时,x1,x2,…,xn是来自该正态总体的随机样本,。当总体方差σ2已知时,μ的1-α置信区间为:其中Z1-α/2是标准正态分布的1-α/2分位数。当总体方差σ2未知时,σ用其s代替,用t分布,μ的1-α置信区间为:其中t1-α/2(n-1)表示是自由度为n-1的t分布的1-α/2分位数)/,/(2121nZxnZx)/)1(,/)1((2121nsntxnsntx4.2总体均值和总体比例的区间估计),(2nNX~返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心在统计推断中常常会碰到自由度这一概念,不少人对这一概念不好理解。如果我们有10个数,而且你知道了均值和其中的9个数的值,那么你就可以推出第10个数。让10个人挑选10支不同颜色的铅笔,只有9人有自由挑选的可能,因为当这9人都挑好之后,你别无选择!因此这个问题的自由度为9。自由度可以理解为在研究问题中,可以自由取值的数据的个数。关于自由度1)(ˆ12nxxsnii返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心例4-4.σ2已知时,μ的区间估计某种零件的长度遵从正态分布,从该批零件中随机抽取9件,测得其平均长度为21.4mm。已知总体标准差σ=0.15mm,试建立该种零件平均长度的置信区间,给定的置信水平为0.95。解:已知X~N(μ,0.152)时,=2.14,n=9,1-α=0.95,α=0.05,查标准正态分布表可得1-α/2的分位数,Z1-α/2=1.96;α=0.01时,Z1-α/2=2.58;α=0.10时,Z1-α/2=1.64。这是一些常用值,请读者记住。我们可以95%的概率保证这种零件的平均长度在(21.302,21.498)之间。x)498.21,302.21()915.096.14.21,915.096.14.21()/,/(2121即为:nZxnZx返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心例4-5.σ2未知时,μ的区间估计为了估计各省市电视台在某黄金时间一分钟广告的平均费用,随机调查了20个电视台,他们每分钟的广告费=25000元,s=8000元。假定所有电视台的广告费近似遵从正态分布,试求总体均值95%的区间估计。解:这是总体方差σ2未知的情况。已知=25000,s=8000,n=20,α=0.05,则t1-α/2(n-1)=t0.975(19)=2.093;于是从而,我们有95%的把握认为所有省市电视台在黄金时间播出的广告一分钟的平均费用在(21255.93,28744.07)之间。xx)07.28744,93.21255()/)1(,/)1((2121nsntxnsntx返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心n≥30时均值的区间估计前边讨论的是当总体为正态分布时,μ的区间估计,然而总体不是正态分布时,如果样本容量n超过30,则我们可根据中心极限定理知:仍近似遵从正态分布,因而仍可用正态分布总体时的均值μ的区间估计方法。例4-6.某航空公司在过去飞行记录中,随机抽取了225个航班,航班空位数的样本均值=11.6,标准差=4.1,试求过去一年所有航班的平均空位数的置信区间。(α=0.10)解:所有航班空位数的分布未知,且总体标准差未知,但n=225,因而仍可用做区间估计。代入其具体数据得[11.15,12.05],也即该公司有90%的把握认为过去的一年该公司的平均空位数在11.15到12.05之间。nsZx/21xx返回目录σσσσσσSSMC中国人民大学六西格玛质量管理研究中心总体比例的区间估计我们常需要估计总体中具有某种特征的单位占总体全部单位的比例一批产品中,合格品的比例;顾客满意度调查中,有意见顾客的比例等。记总体比例为p,样本
本文标题:六西格玛数据分析技术4
链接地址:https://www.777doc.com/doc-420552 .html