您好,欢迎访问三七文档
第八章第八章参数估计第一节统计推断的有关问题.............................................................................................1第二节参数估计的原理.....................................................................................................2第三节总体均数的估计.....................................................................................................5第四节其他总体参数的估计...............................................................................................9第五节SPSS实验——参数估计.....................................................................................11本章小结.................................................................................................................................13同步练习与思考题.................................................................................................................14问题从某市随机抽取小学三年级学生60名,测得平均体重为28公斤,标准差3.5公斤。试问该市小学三年级学生的平均体重大约是多少?某教师用韦氏成人智力量表测100名高三学生,平均智商115。那么根据此信息来我们是否能了解该校所有高三学生的平均智商呢?学习目标1.1.掌握推断统计的内容和前提条件2.2.理解统计估计的原理,掌握统计估计的方法3.3.能够运用总体均数估计的方法解决实际问题第一节统计推断的有关问题科学研究不仅需要对事物特征作出一般性的描述,而且更要根据样本提供的信息去推测相应总体的情况,统计内容中的推断统计则是专门研究如何用样本去推断总体的方法。一、一、什么是推断统计推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,由已知推未知的过程。推断统计根据推测的性质不同而分为参数估计和假设检验两方面。参数估计(parameterestimation)就是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验(hypothesistest)的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statisticaltest)。在检验中又根据是否需要依赖于对总体分布形态和总体参数检验的假设而分为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数(,2)有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的情况。参数检验法主要有Z检验、t检验、F检验和q检验等,非参数检验(non-parametertest)主要有χ2检验、符号检验法、符号等级检验法、秩和检验、中位数检验等。二、统计推断的基本问题没有系统学过统计学的人往往有一种误解,以为只要搜集了数据资料,就可以用统计方法来处理数据。殊不知统计学是建立在概率论基础上的,而概率论是专门研究随机事件的。因此,在做统计推断之前必须考虑你所获得的资料是否能够用统计的方法来分析。通常,进行统计推断时应首先考虑以下三个方面的问题。一是关于统计推断的基本前提。统计推断的前提是随机抽样。因此当我们利用样本统计量进行总体推断时,首先要了解抽样的方式,即了解样本是如何得来的,是随机抽取的,还是人为抽取的。随机抽样的均等性和独立性,避免了入样个体只来自总体的某一部分,从而也就避免了样本的偏倚性。可以说,样本的抽取直接关系着统计研究结果的科学性。二是样本的规模与样本的代表性。抽样研究需要有一定的样本规模,而样本要具有代表性也需要有一定的样本规模来保证,以减少抽样误差。一般来说,在其它条件相同的情况下,样本越小,抽样的误差越大;样本越大,抽样的误差就越小。当样本增至包括总体的全部个体(即Nn)时,抽样的误差为0。因此,只要条件允许,尽可能地采用大样本,以增强样本对总体的代表性和可靠性。值得注意的样本规模和样本代表性是建立在随机抽样基础之上的,否则即使样本再大也是无意义的。三是统计推断的错误要有一定限度。统计推断是在特定的时间、空间和条件下得出的结论,加上抽样误差的影响,在用样本推测总体时总会犯一定的错误。这种错误在统计推断中是不可避免的,也是允许的。不过这种错误要有一定的限度,超过一定限度的错误是不允许的。统计推断中允许犯错误的限度是用小概率事件来表示。第二节参数估计的原理一、参数估计的定义所谓参数估计就是根据样本统计量去估计相应总体的参数。譬如我们可以根据样本均数(X)去估计总体的均数(),根据样本方差(2S)去估计总体方差(2),根据样本的相关系数(r)去估计总体相关系数()等等。二、参数估计的方法参数估计有点估计和区间估计两种。譬如,某学区期末时抽取所管辖的小学四年级的数学测验成绩,求得平均分70分,标准差10分,于是一个管理者认为全区四年级的数学平均分可能是70分,而另一个管理者则认为全区四年级数学平均分可能性在65~75之间。因前者是用数轴上的一点做估计,称为点估计。后者是用数轴上的一段距离做估计,称区间估计。(一)点估计点估计(pointestimation)是在参数估计中直接以样本的统计量(数轴上的一个点)作为总体参数的估计值。譬如用样本统计量:X,S、r等作为总体参数、、等的估计值。但是作为良好点估计的统计量必须具备一定的前提条件。1.无偏性用统计量估计总体参数必然会存在一定的误差,而恰好相等的情形是极少见的。当然,无偏性并不是说没有一点误差,而是要求用各个样本的统计量作为估计值时,其偏差为0,即0X这时的统计量被称为无偏估计量(unbiasedestimator)。譬如,根据中心极限定理二有X,即样本均数的均数是总体均数的无偏估计量,亦即我们可以用样本均数的均数作为总体均数的点估计值。假设我们从某市四个区的六岁男童中随机抽取四个样本,对每个样本测量其身高的平均数,再求得四个样本均数的均数为110.70公分,并此值作为该市所有六岁男孩的平均身高就是一个点估计。如果,X大于0或小于0,那么这时的统计量就为有偏估计量。作为总体参数的良好估计值是应当具备无偏性的。当样本容量足够大的时候,用样本均数或样本标准差作为总体相应参数的估计量都可视为无偏估计量。正因为如此,在大样本统计分析中,常用样本标准差(1nS)去代替总体标准差()。当总体分布呈正态时,中数也是总体均数的无偏估计量。然而由于抽样误差的普遍存在,我们不能期待一次抽样就能对总体参数作出精确的估计。加之点估计不能给出估计误差及其可靠性有关信息,因此采用点估计时应特别注意样本统计量所具有的特性。2.一致性总体参数的估计量随样本容量的无限增大,应当能越来越接近它所估计的总体参数。例如正态总体的总体均数为,标准差为,如果X是从总体中随机抽取样本获得的平均数,其容量为n,则当N→∞时,X→;1nS→。这时样本统计量的均数X就是总体参数的一个估计值,或者说X与是一致的。3.有效性当总体参数的无偏估计量不止一个统计量时,则要分析无偏估计量的变异大小的情况。无偏估计量变异性小的,有效性较高;无偏估计量变异性大的,则有效性较低。例如作为总体均数的估计值来说,样本均数X、中数Mdn和众数Mo等都是无偏估计量。这时选谁作为估计值最恰当则要看谁的变异性最小。在X,Mdn和Mo中只有X的变异性最小,即X的方差最小。所以用统计量——样本均数作为总体参数的估计值是最佳选择。这也同时说明为什么在统计推断中不常使用中数和众数。4.充分性充分性是指一个容量为n的样本统计量是否充分地反映了全部n个数所反映的总体信息。从X,Mdn和Mo的比较中我们已知,只有在求均数X时n个数据全部参与计算,它充分地反映所有数据所要反映的总体信息,而在计算Mdn和Mo时只有部分数据参与计算,是用部分数据反映的总体信息。因此平均数的充分性最高,中数和众数的充分性较低。同理,在差异量数中方差2S和标准差S要比平均差AD、四分位差Q更具有充分性。一个好的点估计应当具备以上四个条件。但是无论如何,抽样误差总是存在,加上点估计不能提供正确估计的概率,所以应用时受到局限。例如,我们只能大体上知道样本容量比较大时,多数的X靠近,但是样本容量究竟大到什么程度,“多数”、“靠近”到什么程度,“多数”到底是多少等等都是很模糊的。点估计的这些不足以及缺陷可以用区间估计的方法来弥补。(二)区间估计如前所述,管理者估计全区四年级数学平均分可能性在65~75之间,但是这种估计的可靠性究竟在多大?换句话说,做出这种估计可能会犯多大的错误?因为有可能全区平均分低于分65,或高于75分。假设我们有95%的把握做出这种估计,被认为是良好的估计,因为超出这一区间的可能只有5%,也就是说犯错误的概率为5%。所以,区间估计(intervalestimation)是以一个统计量的区间来估计相应的总体,它要求按照一定的概率要求,根据样本统计量来估计总体参数可能落入的数值范围。区间估计是用两个数之间的距离或数轴上的一段距离来表示未知参数可能落入的范围。这种估计虽然不用某一个确定的值,而是用一个区间作为总体参数的估计值,但是它却可以指出估计时的误差大小以及估计的可靠性程度。当已知了正态总体的样本均数(X)和总体方差(2),这时只要样本容量足够大,总体均数有95%的可能落在X96.1之间,而落在这一范围之外的可能性最多不超过5%。其中,X为区间估计的标准误,表示进行估计时的误差大小;1.96为可靠性程度的指标。1.区间估计的标准误区间估计的原理是样本分布理论,而样本分布标准差即为标准误,根据中心极限定理二,区间估计的标准误为nSEXX2.置信区间、置信系数和置信限在X96.1中有三个重要概念,置信区间、置信系数和置信限。置信区间(confidenceinterval)是指在特定的可靠性(即置信系数)要求下,估计总体参数所落的区间范围,亦即进行估计的全距。以样本均数(X)为例,在估计总体均数()时,假定X的抽样分布服从正态分布,就可以用正态分布的理论,在一定的置信系数下推算出的置信区间,即95.0D(即05.0)时,置信区间为X96.1,即XX96.1<<XX96.199.0D(即01.0)时,置信区间为X58.2,即XX58.2<<XX58.2置信系数(confidencecoefficient)是指被估计的总体参数落在置信区间内的概率D,或以1表示。又叫置信水平、置信度、可靠性系数和置信概率。置信系数是用来说明置信区间可靠程度的概率,也是进行正确估计的概率。一个置信系数同时反映了在做出一个估计时所犯错误的小概率(),即可靠性为95%时,意味着犯错误的概率为5%;可靠性为99%时,意味着犯错误的概率为1%。置信系数的选择一般是由研究者根据估计可靠性程度的要求而确定,在教育与心理统计中,通常选用0.95和0.99的置信度。置信限(confidencelimit)是被估计的总体参数所落区间的上、下界限,即XX96.1<<XX96.1置信下限置信上限例8-1:某次测验中有10个正误判断题,试问在置信系数为0
本文标题:心理统计学第八章
链接地址:https://www.777doc.com/doc-2473237 .html