您好,欢迎访问三七文档
第6章参数检验【学习目标】了解参数估计的含义。理解点估计和区间估计的含义。理解一个总体参数区间估计的几种情形和两个总体参数区间估计的几种情形。理解假设检验的基本原理。掌握SPSS中平均数比较与T检验的操作方法:平均数分析过程,单样本T检验,独立样本T检验和配对样本T检验。【引导案例】《静静的顿河》作者之争《静静的顿河》是前苏联文学史上首屈一指的战争名著,它全景式的描写了俄国内战时期顿河流域的社会景观,堪称不朽的史诗。但自从《静静的顿河》诞生之日起,围绕其作者所引起的争议就没有停止过。有人指控肖洛霍夫是个骗子,说《静静的顿河》不是肖洛霍夫所写,真正的作者是费奥尔克鲁乌科夫。挪威奥斯陆大学的前苏联文学教授盖尔·克其萨用计算机对《静静的顿河》进行了分析研究,其别具一格的论文曾发表在世界知名的权威杂志《计算机与人文科学》上,轰动一时。那么,克其萨教授怎样把统计学引入这本名著的研究的呢?克其萨教授与同事一起,对《静静的顿河》的文章风格和其他一些特点分别与肖洛霍夫和克鲁乌科夫的作品进行了统计分析。他们通过抽取的样品,研究了三个重要参数,为了对比,把肖洛霍夫的无可争议的作品作为第一组,《静静的顿河》作为第二组,克鲁乌科夫的作品作为第三组,其结果如表6-1所示。表6-1文学风格统计表(单位:%)组别不同词汇量与总词汇量的百分比俄文中常见词汇与作品总词汇量的百分比作品中出现一次的词汇占总词汇量的百分比第一组65.522.880.9第二组64.623.381.9第三组58.926.276.9根据表中的数据,所有参数都存在一致的趋势,即克鲁乌科夫的作品与《静静的顿河》之间,存在着显著的统计差异,所以,这部著作的真正作者很难说是克鲁乌科夫,相比之下,肖洛霍夫更像是《静静的顿河》的作者。本章介绍的内容可以帮助我们解决类似的问题。6.1参数估计6.1.1什么是参数估计估计就是根据所掌握的信息对客观世界进行某种判断。例如,根据一个人的衣着、言谈和举止判断其身份;根据上市公司公布的各种信息,估计其股票价格的走势等。统计中的估计是完全根据数据做出的判断,我们把用样本统计量去估计总体参数称为参数估计(parameterestimation)。例如,用样本平均数x估计总体平均数,用样本标准差s估计总体标准差,用样本比例p估计总体比例。通常我们用表示总体参数,用ˆ表示估计参数的统计量,当用ˆ来估计时,ˆ也称为估计量。根据一个具体的样本计算出来的估计量的数值称为估计值。例如,想要了解北京城市大学全体学生的英语成绩,抽取工商管理专业的100名学生作为样本,100名学生的平均成绩x是一个估计量,若计算出来平均成绩是80分,则80分就是一个估计值。参数估计和假设检验一起构成了推断性统计的内容,它们在统计学中的地位如图6-1所示。6.1.2点估计与区间估计参数估计的方法有点估计和区间估计两种。1.什么是点估计点估计(pointestimation)就是将估计量ˆ的某个取值作为总体参数的估计值,即直接用样本平均数x作为总体平均数,直接用样本标准差s作为总体标准差,直接用样本比例p作为总体比例。例如上例中将工商管理专业100名学生的英语平均成绩80分作为北京城市大学全体学生的英语成绩。点估计值代表总体参数值是直接给出一个具体数字,使用简便、直观。但是每次抽出一个样本就会产生一个估计值,每个估计值与总体参数的误差无法确定,即点估计的可靠性无法度量,因此点估计的使用有一定的缺陷,应该围绕点估计值构造总体参数的一个区间,这就是下面要介绍的区间估计。2.什么是区间估计现实生活中,人们在描述一个人的体重时,一般不会说其体重是76.35公斤,而是说他的体重是大概是七八十公斤,或者是在70~80公斤之间。在描述员工的工资水平时,一般不会说员工的工资是2500元,而是说员工的工资水平是2000~3000元,即给出一个上限或下统计学的基本内容描述性统计推断性统计参数估计假设检验图6-1统计学基本内容构成图限,这就是区间估计(intervalestimation)。区间估计就是在点估计的基础上,给出总体参数的一个估计区间,该区间通常是由样本统计量加减估计误差(estimateerror)得到。在区间估计中,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。区间估计需要确定两个统计量1ˆ和2ˆ分别来估计总体参数的下限和上限,并使在区间21ˆ,ˆ的概率为1ˆ21P,即我们有%1100的把握断定的真值在区间21ˆ,ˆ内。是一个事先给定的一个小正数,1就是估计区间21ˆ,ˆ包括真值的概率,称为置信水平(confidencelevel)、置信系数或置信度,常用的是0.01,0.05和0.1,所以常用的置信水平是99%,95%和90%。估计区间21ˆ,ˆ称作参数在置信水平1-α的置信区间(confidenceinterval),1ˆ为置信下限,2ˆ为置信上限。置信水平、置信区间的关系如图6-2所示。图6-2置信区间示意图需要注意的是:置信区间是根据样本构造的,所以是一个随机区间,会根据样本的变化而变化,并不是所有的置信区间都包含真值。例如,用95%的置信水平得到北京城市大学全体学生英语成绩的置信区间为65~85,意味着在100次抽样中,大概有95次得到的置信区间包含了真值,有5次得到的置信区间不包含真值。假定全体学生英语成绩的平均数真值为70,则65~85这个区间一定包含真值。假定全体学生英语成绩的平均数真值为60,则65~85这个区间一定不包含真值。3.评价估计量优劣的标准既然统计量ˆ仅是总体参数的一个估计量,它就不可能完全准确,而且总体某一参数的估计量可能不止一个,如样本平均数、样本中位数都可以用来估计总体平均数,但并非所有的估计量都是优良,我们常用三条标准去衡量估计量的优劣。(1)无偏性无偏性(unbiasedness)是指估计量抽样分布的期望值等于被估计的总体参数。设ˆ是总体参数的估计量,若ˆE,则称ˆ是的无偏估计量。无偏性就是没有系统偏差,从平均意义上看,如果估计方法重复多次,则估计量的平均数就是总体参数。由样本均值的抽样分布可知,xE,22sE,pE,因此x,2s,p是,2,的无偏估计量。(2)有效性有效性(efficiency)是指估计量的方差要尽可能小。所以,有效性是衡量离散程度的指置信下限1ˆ点估计值置信上限2ˆ置信水平1置信区间标,若两个估计量都是无偏的,其中方差小的离散程度就小,其值更接近总体参数,我们认为它更有效。(3)一致性一致性(consistency)指的是随着样本容量的增大,如果估计量越来越接近总体参数的真值,就称该估计量是一致估计量。一致性实际上是要求从一个大样本得到的估计量要比一个小样本得到的估计量更接近总体参数。6.1.3一个总体参数的区间估计一个总体参数的区间估计包括对总体平均数,总体方差2,总体比例的估计。1.总体平均数的区间估计总体平均数的置信区间是由样本平均数加减估计误差得到。估计误差由两部分组成:一是点估计量的标准误差,它取决于样本统计量的抽样分布。二是置信水平为-1时,统计量分布两侧面积各为2时的分位数值,它取决于事先所要求的可靠程度。(1)大样本估计大样本30n情况下,根据中心极限定理可知nNx2,~,样本平均数经标准化后服从标准正态分布,即1,0~Nnxz。若总体标准差已知,总体平均数在-1置信水平下的置信区间为:nzx2(6.1)式中,nzx2是置信下限,nzx2是置信上限,2z是标准正态分布两侧面积各为2时的z值,n是标准误差,nz2是估计误差。若总体标准差未知,用s代替,总体平均数在-1置信水平下的置信区间为:nszx2(6.2)(2)小样本估计小样本30n情况下,要求总体服从正态分布。若总体标准差已知,样本平均数经标准化后服从标准正态分布,总体平均数在-1置信水平下的置信区间仍是式(6.1)。若总体标准差未知,样本平均数经标准化后服从自由度为1n的t分布,即1~ntnsxt,则总体平均数在-1置信水平下的置信区间是:nstx2(6.3)【例6-1】英语成绩.sav是北京城市大学26名学生的期中和期末的英语考试成绩。请估计期中平均成绩的95%的置信区间。(1)观察数据样本量是26所以采用小样本估计的方法。(2)单击【分析】→【均值比较】→【单样本T检验】,打开单样本T检验对话框。(3)从左侧源变量窗口选择期中考试成绩(score1)进入【检验变量】窗口。(4)在【检验值】后面的窗口输入检验值0,如图6-3所示。图6-3单样本T检验对话框(5)单击【选项】按钮,在【置信区间百分比】窗口后面输入95%。单击【继续】,返回单样本T检验对话框。单击【确定】,提交运行。(6)结果分析。在结果输出窗口得到表6-2。由表可知期中平均成绩95%的置信区间是59.7002~69.5306。表6-2单个样本检验检验值=0tdfSig.(双侧)均值差值差分的95%置信区间下限上限期中考试成绩27.07525.00064.6153859.700269.53062.总体比例的区间估计大样本30n条件下,样本比例p服从期望值为pE,方差为np12的正态分布,样本比例经标准化后服从标准正态分布,即:1,0~1Nnpz,总体比例的置信区间也是点估计量p±估计误差得到的,则总体比例在-1置信水平下的置信区间是:nppzp12(6.4)3.总体方差的区间估计假定总体服从正态分布,样本方差的抽样分布服从自由度为1n的2分布,即:1~1222nsn(6.5)建立总体方差的置信区间,就是要满足222221,用式(6.5)来代替2,有:22222211sn(6.6)则总体方差2在-1置信水平下的置信区间是:2212222211snsn(6.7)图6-4总结了一个总体参数估计所使用的分布的各种情形。图6-4一个总体参数估计所使用的分布6.1.4两个总体参数的区间估计两个总体参数的区间估计包括对两个总体平均数之差21,两个总体的比例之差21,两个总体的方差比2221的估计。1.两个总体平均数之差的区间估计从两个总体平均数分别是1和2的总体中分别抽取样本量是1n和2n的两个随机样本,样本平均数分别是1x和2x,则两个总体平均数之差21的点估计量是两个样本均值之差21xx,两个总体平均数之差21的置信区间是点估计量加减估计误差。(1)独立大样本估计若两个样本是从两个总体中独立抽取的,则一个样本与另一个样本相互独立,称为独立待估参数总体平均数总体比例总体方差大样本小样本Z分布总体方差已知总体方差未知大样本Z分布2分布Z分布t分布正态分布样本(independentsample)。若两个样本都是大样本301n302n,两个样本平均数之差21xx服从期望值为21、方差为222121nn的正态分布,经标准化后两个样本平均数之差服从标准正态分布,即:1,0~2221212121Nnnxxz(6.8)若两个总体方差21和22都已知,则两个总体平均数之差21在-1置信水平下的置信区间为:222121221nnzxx(6.9)若两个总体方差21和22都未知,则用两个样本方差21s和22s来代替,两个总体平均数之差21在-1置信水平下的置信区间为:222121221nsnszxx(6.10)(2)独立小样本估计若两个样本都是小样本
本文标题:第6章参数检验
链接地址:https://www.777doc.com/doc-2111001 .html