您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 教育统计学课件-7抽样理论与参数估计
心理与教育统计学第六章抽样理论与参数估计本章要点:1.抽样方法;2.抽样分布;3.参数估计;概率与概率分布1.抽样的基本概念与方法Population&Sample;Populationisacompletesetofindividuals,objects,ormeasurementshavingsomecommonobservablecharacteristic.总体(Population)是具有某些共同的可被观察的特征的人和物的总集合。或者,根据研究目的确定的同质研究对象的全体(集合),分有限总体与无限总体。总体中接受统计观测的每一个对象叫做个体(case),个体是统计的基本单位。DefinitionoftermsPopulation&Sample;Sampleisasubsetofapopulationthatsharesthesamecharacteristicsasthepopulation.样本(Sample)总体的一个子集,拥有与总体同样的特征。也就是说,按统计的原则和方法从总体中随机抽取一部分个体。样本所含的个体数叫做样本含量(samplesize)。Definitionofterms参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数。总体样本抽取部分观察单位统计量参数推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。SX、简单随机抽样概念:从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中。抽取元素的具体方法:a、抽签法;b、随机数字等距抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。方法:将总体元素连续编号确定样本间的间距(N/n=K)随机确定一个起点A(1AK)后,每隔K个单位抽取一个。分层抽样将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本原则:层间差异大于层内差异(层内样本差异要小;层与曾间的差异尽可能大)方法:按各层比例分配样本元素个数。各个层次按简单随机抽样的方法抽样,产生自己的样本,最后合成整个整体。概率与概率分布2.抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)总体一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)样本从总体X中,随机抽取n个样本元素:“x1、x2……xn”,则f(x1、x2……xn)即统计量的概率分布即抽样分布。例:是样本“x1、x2……xn”的函数;当“x1、x2……xn”是随机变量时,也是随机变量;当“x1、x2……xn”有确定的值时,就是个统计量;样本均值,样本比例,样本方差等均可以形成抽样分布。其结果来自容量相同的所有可能样本抽样分布(samplingdistribution)11niiXxnXX抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础样本均值的抽样分布例:设一个总体,含有4个个体,即总体单位数N=4。4个个体的取值分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差12.5niixN25.1)(122NxNii样本均值的抽样分布现从总体中抽取n=2的简单随机样本;采用重复抽样条件(C41*C41)所有样本的结果为:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5样本均值的抽样分布样本均值的分布与总体分布的比较=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x样本均值的数学期望样本均值的方差样本均值的抽样分布)(xEnx22样本均值的抽样分布与中心极限定理=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)中心极限定理当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。一个任意分布的总体xxx的分布趋于正态分布的过程中心极限定理平均数的抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布2212122222(),,,(0,1),~.nnnxxxNxxxn设是来自标准正态总体的一个样本,的服从自由度为的分布记为卡方分布22分布的密度函数很复杂,不要求掌握。其分布图形与自由度的大小有关。我们需要掌握的是分布表。22(),.nn也就是说,n个相互独立的均服从标准正态分布的随机变量的平方和服从自由度为的分布记为)(tftO)(2n不同容量样本的抽样分布2n=1n=4n=10n=20)(tftO)(2n卡方分布22222.P(n)(n)分布表列出了变量在不同自由度下的临界值,它满足条件:-22注:叫做显著性水平,一般标记在检验符号的右下角,若单侧检验就记为;若双侧检验则记为,双侧检验的另一侧记为1。2=0.054,df例如:若,自由度请确定分布的单侧临界值。2解:查分布的单侧检验表(附表11)可知:22=9.499.490.05P(n),那么2=.13.30.01P若取001,则2=.14.90.005P若取0005,则2=.25.20.005P若取0005,自由度为10,则卡方分布练习:220.050.95220.050.01(1)(10)18.30;(2)(10)3.94(3)(7)14.10;(4)(7)18.50:1051515001解查卡方分布表,在表中自由度为的横行中找到与最接近的数值是.,得到的近似值为.。2 5df515已知=,=,求临界概率(。)2分布有如下特点:卡方分布21nnn()分布是一个正偏态分布,样本含量的大小决定其形状,小则分布偏斜;很大,则接近正态分布。不同容量样本的抽样分布2n=1n=4n=10n=20)(tftO)(2n2分布有如下特点:卡方分布22()值都是正值。22211121...nxxx22221222...nxxx...22212...nnnnxxx2分布有如下特点:卡方分布2222221222123=++...+...kkdfdfdfdf()分布具有可加性,即k个分布的和也是分布。是服从自由度的分布。211x212x...21nx2(1)222131xx222232xx...2223nnxx2(2)222415161xxx222425262xxx222456nnnxxx2(3)...2(6)2分布有如下特点:卡方分布222224()22()EdfDdfdfdf,;或者,();2225分布是连续形分布,但有些离散型的分布也近似于分布。分布主要用于检验数据总体分布的拟合性和计数数据的()显著性。2分布有如下特点:卡方分布226S利用可以推出样本方差的分布。推导过()分布程如下:212(,),,...,(0,1),1,2,...,niXNxxxXxNin当时,是来自总体的随机样本,那么就有。那么:222121()()niniiixxnX是服从自由度为的分布。但实际应用这个公式时,往往是未知的,故而常常用作为的无偏估计值来代替,于是就有下面的结论:2222122221()-1=11=()-1niiniixXnSnSSxXn()服从自由度为的分布。是样本方差,且。()21110,0.0518.30,n解:在附表中查的对应的值为20.05(10)18.30即2:1018.300.05其概率意义为服从自由度为的分布的随机变量取值大于的概率为。222(1)(,),0.05nsN11例1:已知容量为的样本来自正求统计量当时的态总体临界值。卡方分布222(1)~(1)nSn解:因为S222563387例2:由一正态总体抽出容量为的一随机样本,已知=,求样本方差在.到.之间的概率。2(3.38.7)PS22223.3-1-18.7-1nnSnP()()()23.3248.724((24))66P2(13.2(24)34.8)P卡方分布222(1)~(1)nSn解:因为S222563387例2:由一正态总体抽出容量为的一随机样本,已知=,求样本方差在.到.之间的概率。13.213.2-0.95013.8-13.2=0.975-13.2-12.434.834.8-0.05036.4-34.8=0.100-34.8-33.213.2=0.96134.8=0.0752(3.38.7)=0.961-0.075=0.886PS卡方分布2~(0,1),~(),,~()./XYXNYnXtntttnYn设与是两个相互独立的随机变量,且则统计量的概率密度函数服从自由度为的分布记作t分布45.ttN分布是类似标准化正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布的形状依赖于自由度。随着自由度的增大(),分布也逐渐趋于正态分布.t分布的平均数为0且位于曲线中央,分布密度曲线是关于原点0对称,当自变量为0时处于最高点,然后向两侧逐渐下降而以横轴为渐进线,曲线与横轴所包围的总面积也等于1xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z标准正态分布不管n的大小,曲线只有一条,而t分布是一蔟曲线。随着n增大,t分布就越来越接近标准正态分布曲线,而当n接近无穷时,t分布就与标准化整态分布完全重合。t分布)(tfOt)(nt)(tftO)(2nt22)(2nt双侧临界值表单侧临界值表()()2()():nnttttt分布的密度函数比较复杂,因而编制了分布表,表中列出了变量不同自由单测或双侧。满足度下的临界条件为值t分布()()22nnPttPtt或2(8)0.058dft例1.已知,自由度,请确定临界值的值。0.052(8)=2.306.tt解答:查值双侧检验表可得(8)20.058dft例
本文标题:教育统计学课件-7抽样理论与参数估计
链接地址:https://www.777doc.com/doc-2387269 .html