您好,欢迎访问三七文档
1第10章参数估计(Estimationofpopulationcoefficient)10.1点估计10.2区间估计10.3样本容量确定通常我们知道某个随机变量服从某种特定的概率分布或者愿意假定某个随机变量服从某种特定的概率分布,但是却不知道分布的参数。比如,知道某个随机变量服从正态分布,但不知道参数和2。这时常常需要根据样本对总体的某种特征做出推断。这就是参数估计问题。如商场经理要推断每天的平均销售额。电力公司要推断每天的用电量在何范围变动。铁道部要推断非假日天平均旅客流量。海关要估计每年的走私额是多少。参数估计可分为两大类。(1)点估计,(2)区间估计。10.1点估计10.1.1评价估计量好坏的标准总体参数:总体的特征数在参数估计中也称作被估计量,用表示。估计量:样本统计量,用ˆ表示。当总体参数未知时,常需要用样本参数去估计,这就是参数估计问题,当用一个值ˆ去估计,这就是点估计(Pointestimation)问题。显然对总体参数,可用若干种方法去估计。如要估计采用下面三种方法:①只从总体中抽取一个样本值,即用x1估计。②在样本(x1,x2,…,xn)中取2minmaxxx去估计。③用样本平均数x估计。对于这三种估计方法来说,哪个好些?哪个差些?这就提出了对估计量的评价标准问题。主要介绍5个标准:(1)无偏性,(2)有效性,(3)一致性,(4)渐近无偏,(5)渐近有效。1.无偏性:(unbiasedness)对于参数若有估计量ˆ满足E(ˆ)=则称ˆ为的无偏估计量。ˆ具有无偏性。其意义是:虽然在一次抽样中ˆ,但当进行一系列抽样时,ˆ的值能在周围摆动,且E(ˆ)=,即无系统偏差,见图10.1。当不满足无偏性,会有什么后果呢?若E(ˆ),将会产生正偏差(见图10.2),若E(ˆ),将会产生负偏差(见图10.3)-4-2240.10.20.30.4-4-2240.10.20.30.4-4-2240.10.20.30.4图10.1无偏估计图10.2有偏估计图10.3有偏估计2例1:试证明x是总体均值的无偏估计量,即E(x)=E(x)=E[nxxxn...21]=)...(121nxxxEn=n1[E(x1)+E(x2)+…+E(xn)]=n1(++…+)=例2:证明样本方差S2是总体方差2的无偏估计量,即E(S2)=2证明:E(S2)=E[11n)(xxi2]=11nE{])()[(xxi2}=11nE[2)[(ix+2)(x-))((2xxi]=11n[2)(ixE+nE(x-)2–2E(x)n(x)]=11n[n2+nE(x-)2-2nE2)(x]=11n[n2+2-22]=11n[n2-2]=2□例3:证明样本方差S2*=n1)(xxi2不是总体方差2的无偏估计量,即E(S2*)2证明:E(S2*)=E[n1)(xxi2]=nn1E[11n)(xxi2]利用例2结果,E(S2*)=21nn2□2.有效性(Efficiency)若有E(ˆ1)=,E(ˆ2)=,且Var(ˆ1)Var(ˆ2),则相对ˆ2来说,ˆ1是的有效估计量。ˆ1具有有效性。-4-2240.20.40.60.8例4:E(xi)=,E(x)=,Var(xi)=2,Var(x)=n2,有Var(xi)Var(x),所以相对xi来说,x是的更有效估计量。实际意义是因x的方差小,所以一次抽样中x比单个xi离值近的可能性更大。在众多无偏估计量中,称具有最小方差的估计量为最佳无偏估计量。怎样才知具有最小方差呢?这里有Cramèr-Rao(克拉美罗)不等式。对于总体X,若有E(ˆ)=,则3Var(ˆ)2)),((1xLnfnE式中f(x,)为x的概率密度函数。n为样本容量。含义是Var(ˆ)不会小于克拉美下限,克拉美下限是Var(ˆ)的最小可能取值。当Var(ˆ)=2)),((1xLnfnE时,称ˆ为的最佳无偏估计量,取得了最小方差。例5:已知E(x)=,求证x是xN(,2)的均值的最佳无偏估计量。f(x,,)=e21-222)(xLn(f(x,,))=-Ln(2)-222)(x),,(xLnf=-2212(x-)(-1)=2xE(),,(xLnf)2=E(2x)2=41E(x-)2=42=21所以2)),((1xLnfnE=211n=n2=Var(x)x是的最佳无偏估计量。3.一致性(Consistency)当任意给定ε0时有nLimP{ˆ-ε}=1当n∞,ˆ依概率收敛于则称ˆ为的一致估计量,ˆ具有一致性。可以证明x,S2分别是和2的一致估计量,但样本Me不是总体的一致估计量。由定义可知,一致性只在n很大时才起作用。4.渐近无偏性先给出渐近分布的概念。用T1T2…TN表示连续递增样本。设在每个样本容量Ti下重复抽样。则每个x(i)都应有自己的均值E(xi)与方差Var(xi)。利用递增样本可以求得随机变量序列{x1,x2,…,xT}。当T趋于无穷时,这些分布收敛于某一分布。则称该分布为渐近分布或极限分布。对于期望值序列,{E(x1),E(x2),…,E(xT)},如随着T,期望值收敛于某一常数,则称为渐近期望。)(TTxELim=4若ˆ的渐近期望为,即。)ˆ(TTELim=则ˆ为的渐近无偏估计量,5.渐近有效性若上述随机变量序列有渐近期望,同时有新序列{E{T[x1-E(x1)]2},E{T[x2-E(x2)]2},…,E{T[xT-E(xT)]2}}满足]))(E([E2TTTxxTLim=v则定义xT的渐近方差为T1]))(E([E2TTTxxTLim=T1v在具有一致性的估计量中,具有较小渐近方差的估计量具有渐近有效性。-6-4-22460.20.40.60.810.1.2常用的点估计特征数法。这里主要指对总体的均值、方差2、标准差、比率p、相关系数和协方差等的估计。如前所述,因x是的,S2是2的,p是p的,r是的无偏、一致估计量;所以经常用x=n1niix1估计,用S2=11nniixx12)(估计2,用p=nx估计p,用相关系数r=TttTttTtttyyTxxTyyxxT12121)(1-1)(1-1))((1-1估计,用样本协方差Cov(xt,yt)=TtttyyxxT1))((1-1估计总体协方差。10.2区间估计(Intervalestimation)10.2.1区间估计的概念用点估计方法估计总体参数,即使是无偏、有效估计量也会由于样本的随机性,使从样本中求出的估计量,不等于被估计量(总体参数)。退一步讲,即便偶然ˆ=,因为不知5到参数真值为多少,所以很难验证这种相等。人们在得到点估计值的同时,自然希望知道ˆ与到底相差多少?这就引出了区间估计问题。即希望对的取值估计出一个范围,并希望知道落入这个范围的可靠程度。即P{ˆ1ˆ2}=1-其中[ˆ1,ˆ2]是置信区间;ˆ2,ˆ1是置信区间上、下限;1-是置信度、置信系数;是估计不准的概率,通常取=0.05,或0.01。看上式可知,要想求出被估计量的置信区间,(1)必须找到一个含有被估参数的合适统计量,(2)并知其概率分布。10.2.2的置信区间(1)条件:大样本(n50),总体分布不限。若2已知,根据中心极限定理有xN(,n2),则选用统计量U=nx/。有结论UN(0,1),当给定有P{Uu1-/2}=P{∣nx/∣u1-/2}=1-把括号内不等式展开-u1-/2nx/u1-/2,-u1-/2nx-u1-/2nx-u1-/2nx+u1-/2n所以的置信区间是[x-u1-/2n,x+u1-/2n]。若2未知,则可直接用S2代替2。即有xN(,nS2),所以选用统计量U=nSx/。计算公式与2已知情形相仿。置信区间是[x-u1-/2ns,x+u1-/2ns]。例1:(131页,账单问题)注意:(1)为什么置信区间取在正态分布的中心部位,且两侧又对称呢?因为越靠近平均值x,(或Z=0)概率密度就越大,即落入中心区间的可能最大。所以置信区间取在中心部位。在置信度相同前提下,只有在置信限对称的时候,置信区间才最小,即精度最高。所以置信限以x(或Z=0)对称。(2)从置信区间公式可以看出,①置信度(1-),u1-/2,置信区间越宽。②样本容量n,置信区间越窄。说明精度高。通常在置信度一定的条件下,希望置信区间越窄越好,即加大样本容量。(3)一次抽样所求置信区间有(1-)的把握把包括在内,换句话说,若抽样100次,则平均有100(1-)次的估计区间中包括。6置信区间图示(132页)。-4-2240.10.20.30.44550556065707580020406080图4区间估计示意图置信区间宽度与置信系数(1-)的关系(135页)99.9%95%90%80%70%样本容量的确定在点估计中用无偏性与有效性来评价估计量的好坏,在区间估计中是用置信度和精度来衡量估计量的优劣。以置信区间为例,当已知时,公式[x-u1-/2n,x+u1-/2n]xh是一个以x为中心,以u1-/2n为半径的区间。通过u1-/2n可知当置信度(1-)增大,u/2增大,区间长度增大(精度降低)。当样本容量n增大,u1-/2n缩小,区间长度缩小(精7度提高)。可见追求置信度和精度是矛盾的。置信度增大(减小),精度降低(提高)。通常作法是,在控制一定的置信度条件下,用加大n的办法提高精度。由于n的加大会直接导致人力、物力、财力的支出加大,所以实际工作中只取满足精度的哪个尽可能小的样本容量即可。这里称置信区间半径h=u1-n为允许误差限,整理之后得n=222/1)(hu这就是在精度h已知条件下,样本容量的最低允许值。当未知时,常用以往资料中的标准差代替,若没有以往资料则抽样求S2去代替2值。例2:(136页)例3:某地区有40,000农户,想通过抽样方法了解一下,每户农民春小麦的平均播种面积,从历史资料看=8.5亩比较合适。若给定(1-)=0.95,若给定所求平均播种面积的允许误差不超出0.5亩,求抽样时样本容量应选多大?解:n=(u1-2)n=(1.462)5.05.8=33.322=1111答:样本容量不应小于1111户(实际为1110.2户)。注意:只要n为小数时,应进位取整数。例4:用130名大学生身高资料,x=170.57,估计8000名大学生平均身高的置信区间。给定1-=0.95。解:因n=130大样本,x近似服从正态分布,未知,用S代替。x=170.57,S2=5.24。xu1-/2nS=170.571.9613024.5=170.570.392=170.178,170.178答:置信区间是[170.178,170.962]。(2)条件:正态分布、小样本,未知选用统计量t=nsx/t(n–1)。给定后有,P{tt1-/2,(n–1)}=P{nSx/t1-/2,(n–1)}=1-把括号内不等式展开-t1-/2,(n–1)nSx/t1-/2,(n–1),-t1-/2,(n–1)nSx-t1-/2,(n–1)nS,x-t1-/2,(n–1)nSx+t1-/2,(n–1)nS置信区间为:[x-t1-/2,(n–1)nS,
本文标题:第10章参数估计
链接地址:https://www.777doc.com/doc-2241613 .html