您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 统计学参数估计与假设检验
二战中的点估计—德军有多少辆坦克?二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。这种估计N的公式的缺点是:不能保证均值的2倍一定大于记录中的最大编号。二战中的点估计—德军有多少辆坦克?N的另一个点估计公式是:用观测到的最大编号乘以因子1+1/n,其中n是被俘虏坦克个数。假如你俘虏了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50=55。此处我们认为坦克的实际数略大于最大编号。从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!资料来源:GUDMUNDR.IVERSEN和MARYGERGRN著,吴喜之等译:《统计学—基本概念和方法》,高等教育出版社,施普林格出版社,2000。在实际问题中,经常遇到随机变量X(即总体X)的分布函数的形式已知,但它的一个或者多个参数未知的情形,此时写不出确切的概率密度函数.若通过简单随机抽样,得到总体X的一个样本观测值),,,(21nxxx,我们自然会想到利用这一组数据来估计这一个或多个未知参数.诸如此类,利用样本去估计总体未知参数的问题,称为参数估计问题.参数估计问题有两类,分别是点估计和区间估计.参数估计参数估计的基本概念总体样本算术平均数x统计量用来推断总体参数的统计量称为估计量(estimator),其取值称为估计值(estimate)。同一个参数可以有多个不同的估计量。参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。?参数本章的学习目的抽样与抽样分布是推断统计的基础。统计推断就是根据样本的信息,对总体的特征作出推断,包括参数估计和假设检验。参数估计是在抽样及抽样分布的基础上,根据样本的统计量来推断总体参数。一个总体参数的估计,两个总体参数的估计,样本容量的确定。统计方法统计描述统计推断参数估计假设检验点估计区间估计基本概念常用的估计量,样本平均数、样本方差、样本比率。点估计:用一个点(数)估计未知参数。例如:用样本均值作为总体未知均值的估计值。点估计没有给出估计值接近总体未知参数程度的信息优点:简单,能够明确的估计总体参数。缺点:其误差与可靠性不得而知。点估计的方法:特征数法、矩估计法、顺序统计量法、最大似然法、最小二乘法。区间估计:用一个区间估计未知数,把未知参数估计在某两界限之间。样本统计量加减抽样误差。譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数N的极大似然估计为1000条.若我们能给出一个区间,在此区间内我们合理地相信N的真值位于其中.这样对鱼数的估计就有把握了.实际上,N的真值可能大于1000条,也可能小于1000条.参数的区间估计也就是说,我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真参数值.湖中鱼数的真值[]这里所说的“可靠程度”是用概率来度量的,称为置信度或置信水平.习惯上把置信水平记作1,这里是一个很小的正数.区间估计根据事先确定的置信度1-给出总体参数的一个估计范围。置信度1-的含义是:在同样的方法得到的所有置信区间中,有(1-)%的区间包含总体参数。抽样分布是区间估计的理论基础。区间估计:根据样本统计量以一定的可靠程度去估计总体参数值所在的范围或区间,是抽样估计的主要方法。置信区间样本统计量置信下界置信上界区间估计抽样估计的置信度与精确度1.置信度:表示区间估计的可靠程度或把握程度,也即所估计的区间包含总体参数真实值的可能性大小,一般以1-表示。其中表示显著性水平,即参数不落在区间内的概率。置信度通常采用三个标准:(1)显著性水平=0.05,即1-=0.95(2)显著性水平=0.01,即1-=0.99(3)显著性水平=0.001,即1-=0.9992.抽样估计的精确度:用置信区间的大小即抽样极限/允许误差来表示。3.抽样估计的置信度与区间大小关系:在样本容量和其他条件一定的情况下,区间估计若希望抽样估计有较高的可靠度,则必须扩大置信区间;即:抽样估计要求的把握度越高,则抽样允许误差越大,精确度越低;反之则相反。1268.27%95.45%99.73%~(0,1)xN123213x区间与置信水平(上分位数定义)假定条件总体服从正态分布,且方差(2)已知如果不是正态分布,可由正态分布来近似(n30)总体均值在1-置信水平下的置信区间为)1,0(~NnXZ)(22未知或nSzXnzX使用正态分布统计量Z123总体均值的区间估计(大样本)/21,,z对于给定的置信度查分位点使得/2{||}1PZz0/2z/2/2z/2/21/xPzn/2/21Pxzxznn/2/2(,)xzxznn得到置信区间为的这样得到了置信度为1从而影响因素1.标准差2.样本容量n3.置信水平(1-a)已知n=40,=15;计算得到样本均值由1-0.95,查标准正态分布概率表得:于是在95%的置信水平下的置信区间为:即(40.83,50.13)。结果表明:在95%的置信水平下,二手房交易价格的置信区间为40.83万元~50.13万元。1/45.48niixxn0.0251.96z/21545.481.9645.484.6540xzn沿用前例,假定房地产中介公司从上季度的二手房交易记录中得到以下信息:交易价格的标准差为15万元,于是我们假定总体标准差=15。试在95%的置信水平下估计二手房平均价格的置信区间。假定条件总体服从正态分布,且方差(2)未知小样本n30总体均值在1-置信水平下的置信区间为)1(~ntnSXZ使用正态分布统计量Z123总体均值的区间估计(小样本)nStX2t分布分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布Xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)ZXt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)Z沿用前例,假定该房地产公司在某日随机抽取16位二手房购买者,得到二手房交易价格如下表所示(万元)。根据以往交易情况得知:二手房交易价格服从正态分布,总体方差225。试在95%的置信水平下估计二手房交易平均价格的置信区间。63.422.6554879.437.542.84836.52745.233.54136.230.549计算得到样本均值;43.475x计算得到样本均值;由1-=0.95,查表得:于是在95%的置信水平下的置信区间为:即(36.12,50.82)。结果表明:在95%的置信水平下,二手房价格的置信区间为36.12万元~50.82万元;即该公司可以有95%的把握认为,二手房交易价格介于36.12万元到50.82万元之间。43.475x0.0251.96z/21543.4751.9643.4757.3516xzn沿用前例,假定该房地产公司在某日随机抽取16位二手房购买者,得到二手房交易价格如下表所示(万元)。根据以往交易情况得知:二手房交易价格服从正态分布,但总体方差未知。试在95%的置信水平下估计二手房交易平均价格的置信区间。63.422.6554879.437.542.84836.52745.233.54136.230.549已知n=16;计算得到样本均值;样本标准差s=14.175;43.475x已知n=16;计算得到样本均值;样本标准差s=14.175;由1-=0.95,查表得:于是在95%的置信水平下的置信区间为:即(35.923,51.027)。结果表明:在95%的置信水平下,二手房价格的置信区间为35.923万元~51.027万元;即该公司可以有95%的把握认为,二手房交易价格介于35.923万元到51.027万元之间。43.475x)0.05152.131t/214.17543.4752.13143.4757.55216sxtn单一总体均值的区间估计总结假定条件总体服从二项分布可以用正态分布近似估计np5且n(1-p)5置信区间估计12单一总体比例的区间估计)/21pppzn根据前例的数据,整理得出2006年第一季度交易价格在43万元以上的二手房交易数量及所占比例,试在95%置信水平下估计交易价格在43万元以上的二手房交易所占比例置信区间。整理数据如下:示例2006年第一季度样本容量n3643万元以上的交易数量25所占比例p69.44%已知在95%置信水平下的置信区间为:即(61.76,77.12%)。结果表明:有95%的把握认为,这一时期价格在43万元以上的二手房交易所占比例的置信区间介于61.76到77.12%之间。121240,36;52.5%,69.44%.nnpp)/2169.44%(169.44%)(69.44%)1.9636(69.44%)(7.68%)pppzn假定E(Error)是在一定置信水平下允许的误差范围,又称边际误差,于是有:估计总体比例时:估计总体均值时:12样本容量的确定/2Exzn)/21ppEzn)22/22znE)2/22(1)zppnE已知:样本容量:即应抽取35个交易作为样本。/215;5;10.95,1.96;Ez)22/22znE沿用引例,假定房地产中介公司想要估计2005年第四季度二房的平均交易价格。按照历史经验,总体标准差为15万手元。试问:在95%的置信水平下,使二手房平均交易价格的误差范围小于5万元,样本容量应定为多少?2221.961534.573551:一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示,样本均值为105.36。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%。2:一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表,样本均值39.5,方差为60.37。试建立投保人年龄90%的置信区间3:已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下,样本均值1490,方差613.6。建立该批灯泡平均使用寿命95%的置信区间【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%。25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136
本文标题:统计学参数估计与假设检验
链接地址:https://www.777doc.com/doc-5125055 .html