您好,欢迎访问三七文档
第十章抽样与抽样分布第一节抽样与抽样分布第二节参数估计的基本方法第三节总体参数的区间估计第一节抽样与抽样分布一、抽样判断二、抽样方法三、抽样分布一、抽样判断◆什么叫抽样判断从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征叫样本推断。二、抽样方法根据抽取样本的原则不同,抽样方法有概率抽样和非概率抽样。概率抽样的常用方法有:1、简单随机抽样2、分层抽样3、整群抽样1、简单随机抽样①从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n的样本都有相同的机会(概率)被抽中②抽取元素的具体方法有重复抽样和不重复抽样③特点:简单、直观,在抽样框完整时,可直接从中抽取样本④局限性当N很大时,不易构造抽样框,抽出的单位很分散,给实施调查增加了困难,没有利用其他辅助信息以提高估计的效率2、分层抽样①将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本②优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计3、整群抽样①将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查②特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差三种不同性质的分布1、总体分布2、样本分布3、抽样分布三者之间有什么关系?1、总体分布1)总体中各元素的观察值所形成的相对频数(频率)分布2)分布通常是未知的(因为几乎得不到总图所有观察值)3)可以(根据理论分析)假定它服从某种分布总体2、样本分布1)一个样本中各观察值的形成的相对频数(频率)分布2)也称经验分布3)当样本容量n逐渐增大时,样本分布逐渐接近总体的分布3、抽样分布1)样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2)样本统计量是样本的函数,依据不同的样本计算出来的值是不同的所以统计量是随机变量样本均值,样本比例,样本方差等3)结果来自容量相同的所有可能样本4)提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据(1)总体分布、样本均值的抽样分布【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体分布、总体的均值、方差及分布如下总体分布14230.1.2.35.21NxNii25.1)(122NxNii现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值()nxxx样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5样本均值的分布与总体分布的比较的分布形式与原有总体和样本容量n的大小有关总体分布x14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x=2.5σ2=1.25当总体服从正态分布N(μ,)时,样本均值的抽样分布仍然是服从正态分布的,其均值仍为μ,方差为,即样本均值的方差比原总体的方差要小,而且样本容量n越大,方差越小。2n2n=2.52=1.25X总体分布上述结论是对正态总体而言的,不过实际上,即使对于非正态总体而言,随着样本容量的增加,的抽样分布也会近似地变成正态的。事实上,只要样本足够大(通常要求样本容量不小于45),即使是从非正态分布的总体中抽样,根据统计学中的中心极限定理,样本均值的抽样分布与从正态分布总体中的抽样所得到的结果也近似相同。总结:样本均值的抽样分布样本均值的数学期望仍为μ样本均值的方差(方差的概率意义在于刻画了随机变量取值的分散程度。方差越小,随随机变量的取值越集中在期望值附近。)重复抽样不重复抽样nx22122NnNnx(2)样本比例的抽样分布总体中具有某种属性的单位数与总体全部单位数之比称为总体比例,也称总体的成数,记作P。而样本中具有某种属性的单位数与样本总数之比称为样本比例,或称样本成数,记作p。若从总体中随机抽取出容量为n的样本,发现其中具有某种属性的单位数为m,则样本中具有某种属性的单位的比例就为p=m/n样本比例是一个随机变量,当样本容量很大时,近似地服从正态分布。其分布的数学期望为总体的成数,方差等于,即:PPn1-PnPPPNp-1,~第二节参数估计的基本方法参数估计也就是用样本统计量去估计总体的参数。比如,用样本均值估计总体均值估计总体均值,用样本方差估计总体方差,用样本比例估计总体比例等。用来估计总体参数的统计量的名称,称为估计量,用符号表示用来估计总体参数时计算出来的估计量的具体数值,称为估计值点估计与区间估计参数估计的方法有点估计和区间估计◆(一)点估计点估计又称定值估计。它是用实际样本指标数值代替总体指标数值,即总体平均数的点估计值就是样本平均数,总体成数的点估计值就是样本成数。这种估计不考虑是否有抽样误差。例如,对一批某种型号的电子元件10000只进行耐用时间检查,随机抽取100只,测试的平均耐用时间为1055小时,合格率为91%,我们推断说10000只电子元件的平均耐用时间为1055小时,全部电子元件的合格率也是91%。评价估计量的标准用于估计θ的估计量很多,究竟用样本的哪种估计量作为总体参数的估计呢?统计学家给出了一些标准:(一)无偏性。即以抽样指标估计全及指标要求抽样指标值的平均数等于被估计的全及指标本身。(二)一致性。即当样本容量n充分大的时,若样本指标充分地靠近被估计的全体指标,则该样本指标是被估计的全体指标的一致估计量。(三)有效性。即如果一个样本估计量的方差比其他估计量的方差小,则称该样本估计量是被估计的全及指标的有效估计量。(二)区间估计所表明的是一个可能范围,不是一个绝对可靠的范围。是用样本指标和它的抽样极限误差构成的区间来估计总体指标,并以一定的概率保证总体指标将在所估计的区第三节总体参数的区间估计一、总体均值的区间估计二、总体比例的区间估计一、总体均值的区间估计1、区间估计的基本原理◆根据样本平均数的分布特征可知:p(x-Δx-≤X≤x+Δx)=F(t)在概率保证程度为F(t),概率度为t的情况下,总体平均数的数值将在x-Δx和x+Δx的范围内。其中,x-Δx称为估计下限,x+Δx称为估计上限。区间[x-Δx,x+Δx]称为置信区间。◆估计可靠性程度称为置信度。◆如果我们将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率称为置信水平。当总体服从正态分布且方差已知时,或者总体不是正态分布且方差未知但大样本,在这种情况下,样本均值的抽样分布均为正态分布,其数学期望是μ方差是根据正态分布的性质可以得出总体均值μ所在的区间为:n/2nzx2/如果总体方差未知,大样本条件下,则可以用样本方差代替总体方差,这时总体均值在1-置信水平下的置信区间可以写为nszx2/2s2如果是采取不重复抽样,而且抽样比很大时,则样本分布的方差应乘以修正系数,这时总体均值在1-置信水平下的置信区间可以写为:1NnN)1(2/NnNnzx当总体方差未知时,总体均值在1-置信水平的置信区间可以写为:2)1(2/NnNnSzx(二)总体成数的估计区间总体成数的区间估计原理与总体平均数相同,即:在概率保证程度为F(t),概率度为t的情况下,总体成数的数值将在p-Δp和p+Δp的范围内。其中p-Δp称为估计下限,p+Δp称为估计上限。区间[p-Δp,p+Δp]称为置信区间,估计可靠性程度1-α当样本容量很大时,样本比例p的抽样分布可用正态分布近似。p的数学期望等于总体的比例P,而p的方差在重复抽样条件下为与总体均值的区间估计类似,样本比例p的基础上加减边际误差即得总体比例P的置信区间:nppp)1(2nppzp)1(2/若在大样本不重复抽样条件下,p的方差为=()因此总体比例在1-α置信水平下的置信区间为:nPP)1(1NnN1)1(2/NnNnppzp2p
本文标题:抽样与抽样分布
链接地址:https://www.777doc.com/doc-418132 .html