您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 2004年9月全国计算机等级考试二级VB笔试试题
第五章参数估计(下)7.1参数估计的基本原理一、估计量与估计值统计量(statistics):不含有未知参数的样本函数参数估计(parameterestimation):用样本统计量去估计总体的参数的方法。例如:假设某啤酒厂想调查了解该厂啤酒的市场占有率P,P是总体参数,是未知的,该厂派市场部工作人员去昆明部分酒店调查,获得在这些酒店该厂啤酒的占有率是。显然,是随机的,称是P的估计量。假设调查的结果是,10%就是估计值,用10%作为该厂啤酒的市场占有率,以此为基础,对该厂啤酒制定生产计划、销售计划等。上述过程就是参数估计及其应用。在统计学中,对于总体参数,常用表示其估计量,有时,也用表示估计值。ˆpˆpˆpˆ10%pˆˆ二、点估计与区间估计参数估计有两种方法:点估计和区间估计1、点估计点估计就是用样本估计量的值直接作为总体参数的估计值的过程。例如我们要知道昆明市民的月平均收入是多少?为了解决这个问题,调查100位市民,计算出他们的月平均收入是2300元,把这2300元作为昆明市全体居民的月平均收入的过程就是点估计。2、区间估计在点估计的基础上,加上允许误差,构成了一个区间,并指出总体参数落在该区间的概率的过程,称为区间估计。由区间估计所得到的区间称为置信区间。总体参数落在置信区间的概率称为置信概率或置信水平。例如假定我们确定昆明市居民月平均收入在2000到2600元之间的概率是90%,[2000,2600]是置信区间,2000是置信区间的下限,2600是置信区间的上限,90%是置信概率(又叫置信水平、置信系数等等)。2600-2300=2300-2000=300称为允许误差。ˆ三、如何理解置信区间的含义置信区间的含义深刻,往届许多同学对置信区间的含义理解不清,现在我们就上例的问题来向大家讲解如何理解置信区间的含义问题。就上例而言,昆明市居民月平均收入在2000至2600之间的概率是90%。四、评价估计量的标准对于一个参数,它的估计有很多种,我们要选择一个最好的估计,为此向大家介绍估计好坏的标准。估计好坏的标准主要从三个方面来分析:1、无偏性(unbiasedness)无偏性是指估计量分布的数学期望等于被估计的总体参数值。即在其他条件相同时,无偏估计比有偏估计要好。ˆ()E2有效性(efficiency)假设是一个参数,是它的无偏估计,若对于的任一个无偏估计都有成立,称是是的有效估计。通俗地讲,有效估计就是方差最小的无偏估计。无偏性和有效性都是针对小样本而言的,如果参数的小样本估计不具有良好的统计性质,这时要考虑它的大样本性质,也就是相合性。注:小样本是指样本容量小于30的样本,当样本容量超过30的样本称为大样本。3、一致性(consistency)一致性是指参数的小样本估计不是有效的,在样本不断增多的情况下,估计量渐渐地趋向于有效估计。ˆ*ˆ*ˆˆvar()var()ˆ5.2一个总体参数的区间估计一、总体均值的区间估计1、大样本的估计方法当总体服从正态分布且已知时,或者总体不是正态分布但为大样本时,样本均值的概率分布均为正态分布,其数学期望是,方差是,即,根据正态分布和标准正态分布的关系,有设是z的分位点,为置信水平。有2x2n2~(,)xNn~(0,1)/xzNn/2z/212z2z22所以,有下式成立化简,得/2/2{}1pzzz/2/2{}1pxzxznn在(1)中,称为允许误差。如果总体服从正态分布但方差未知,或者总体并不服从正态分布,只要是在大样本条件下,上式中的总体方差可以用样本方差来代替,这时,总体均值的置信区间可以写成(2)(1)/2zn2/2/2{}1sspxzxznn在(1)和(2)中,可以看出,是总体均值,是未知的,我们通过样本数据知道了所在的区间,并且还知道在这个区间里的概率。这就是说,根据样本数据的信息,我们知道了总体的信息了,这就是推断统计的实质。例题在双色球彩票中,蓝球号码范围是1~16,并且只要蓝球号码买对,就中奖了(至少是5元,而彩票价格是2元),因此研究蓝球号码出现规律对于彩民来说是非常重要的。现在我们用区间估计的知识来研究蓝球号码出现的规律。我们以2007年至2012年的蓝球中奖号码作为总体(一共是424个),用统计软件计算其方差和标准差是24.5921.04同时,注意到双色球号码的平均周期是16,因此我们以n=16作为样本容量,求出它的均值区间估计是令,得也就是/2/24.594.59{}11616Pxzxz0.054.594.59{1.961.96}10.0544pxx{2.24912.2491}0.95pxx最近16期双色球蓝球号码的平均值是7.1875,代入得{4.93819.4369}0.95p还可以得到其他置信区间,分别是{7.18751.651.1747.18751.651.174}0.9{5.299.12}0.9{5.688.69}0.8{6.01358.36}0.7pPPP这些对于彩民来说,具有重要参考意义。例如,某彩民计算近期蓝球号码不在6.0135和8.36之间,这时他(或她)可以考虑选择哪些使近期平均号码在或者接近6.0135和8.36之间的号码,按照这样思路,选中的概率应该在70%左右。注:大家可以根据这个思路继续分析其他彩票或股票数据。2小样本的估计方法如果总体服从正态分布,而总体方差未知,同时抽出的样本容量很小,这时用样本方差代替总体方差,样本均值经过标准化后的统计量服从自由度为n-1的t分布,即~(1)/xttnsn所以置信水平为的置信区间是1/2/2{}1sspxtxtnn例5.3讲解已知某灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其寿命(小时)是:1510145014801460152014801490146014801510153014701500152015101470试确定该批灯泡平均使用寿命95%的置信区间。解:先算出这批灯泡使用寿命的均值和方差如下:12123840149016()920024.761161niiniixxnxxsn由,查t分布表,得所以置信区间是0.05/20.025(1)(15)2.13tnt24.7624.76{14902.1314902.13}0.951616{1476.21503.2}0.95pp也就是说,我们以95%的概率断定这批灯泡的平均使用寿命在1476.2到1503.2小时之间。二、总体比例的区间估计1、总体比例:总体比例是指总体中某种特征的个体占总体的比例。例如,假设总体是昆明理工大学全体在校学生,所包含的个体为N个,n为过了四级全体学生,则P=n/N称为总体比例(四级通过率)。2、样本比例:指样本中具有某种特征的个体占样本全体的比例。假设是某一个总体比例,设P是其样本比例,则有()~(0,1)(1)/EPPzNn由于是未知的,常用其点估计P来代替,有(2)~(0,1)(1)pzNppn由(2)得到的置信区间是/2/2(1)(1){}1PPPPpPzPznn例5.4讲解某城市要估计下岗工中女性所占的比率,随机抽取了100个下岗工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间。解:根据题意,样本容量n=100,样本比率=65/100=65%,将上述数据代入总体比率的区间估计表达式,得/20.05,1.96z0.65(10.65){0.651.960.651000.65(10.65)1.96}0.95100{0.55650.7435}0.95pp该城市下岗职工中女性的比率95%的置信区间是(55.65%,74.35%),也就是说,我们以95%的概率断定该城市下岗职工中,女性职工所占的比率在55.65%到74.35%之间。5.3两个总体参数的区间估计一、两个总体均值之差的区间估计对于两个总体均值之差的区间估计,是社会科学和自然科学统计中的重要内容。两个总体之间的关系不同,其区间估计方法也不同,这里主要介绍独立样本(independentsample)和匹配样本(matchedsample)的区间估计。1、两个总体均值之差的区间估计:独立样本(1)大样本的估计方法如果两个样本是从两个总体中独立地抽取的,即一个样本中的元素与另一个样本中的元素互相独立,则称为独立样本。例如为了比较昆明理工大学和云南师范大学学生外语成绩,分别从这两个学校抽取100个非英语专业学生,记录他们的四级成绩,所得到的两个样本数据就是独立样本。设X和Y是两个总体,是从这两个总体中抽出的样本,有抽样分布知识,有1212,,,,,,nmxxxyyy和122212()()~(0,1)xyzNnm得到置信区间是(3)22221212/212/2{}1pxyzxyznmnm(3)中的是已知的,若是未知的,用代替的置信区间是2212和2212和21s22和s2212和22221212/212/2{}1sssspxyzxyznmnm例题讲解(4)一工厂的两个化验员,每天从工厂的冷却水中取样,测量一次水中含氯量(ppm),下面列出10天的计录:化验员A:1.151.860.751.821.141.651.900.891.121.09化验员B:1.001.900.901.801.201.701.951.871.691.92假设各化验员化验结果服从正态分布,求两化验员化验结果之差的置信区间。解:两化验员化验结果之差就是这两个正态总体均值之差,由于我们不知道这两个正态总体的方差,故应根据(4)来求置信区间。1(1.900.81.09)1.337101(1.001.901.92)1.59310xy22221222221[(1.151.337)(1.861.337)(1.091.337)]0.427991[(1.001.593)(1.901.593)(1.921.593)]0.40219ss题目没有告诉是多少,通常认为是0.05,查表得将这些值代入(4),得0.0251.96z120.42790.4021{1.3371.5931.9610100.42790.40211.3371.5931.96}0.951010p化简,得两位化验员化验结果之差的置信区间是12{0.820670.30867}0.95p(2)小样本的估计方法在两个总体都是小样本的情况下,为估计两个总体的均值之差,需要作以下假定:1)两个总体都是服从正态分布2)两个总体的方差相等,3)两个随机样本独立地分别抽自两个总体ⅰ)当两个总体方差未知但相等这时需要用两个样本方差,同时将两个样本合为一体,计算出总体合并后的方差估计量,其计算公式是222112212(1)(1)2pnsnssnn两个样本均值之差经标准化后服从自由度为t分布122nn121212212()()~(2)11pxxttnnsnn22/2t/2t所以,其置信区间是/2/2{}1pttt化简,得212/2121212122/2121211{()(2)()()11(2)()}1pppxxtnnsxxnntnnsnn例5.7讲解为估计两种方法组装产品所需要的时间的差异,分别对两种不同的组装方法个随机安排12个工人,每个工人组装一件产品所需要的时间(分钟)如下
本文标题:2004年9月全国计算机等级考试二级VB笔试试题
链接地址:https://www.777doc.com/doc-3287685 .html