您好,欢迎访问三七文档
第六章抽样推断第六章抽样推断§1抽样推断有关概念与理论依据§2抽样误差§3抽样估计和推算§4抽样推断的组织形式第一节抽样推断有关概念与理论依据一、抽样推断的意义、内容(一)概念按照随机原则从总体中抽取一部分单位进行观察,并根据被抽取的那部分单位的结果,对总体作出具有一定可靠程度的推断。统计推断的过程总体样本样本统计量例如:样本均值、比例、方差(二)特点1、按照随机原则抽取部分单位,抽样推断运用概率估计的方法。2、部分单位总体。3、抽样误差可以计算和控制。(三)抽样推断的内容参数估计依据所获得的样本观察资料,对所研究现象总体的水平、结构、规模等数量特征进行估计。假设检验利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。二、抽样推断的作用抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。建立起以周期性普查为基础、经常性抽样调查为主体,必要的统计报表、重点调查、综合分析等为补充的国家统计调查方法体系,是我国统计方法制度改革的指导思想。1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;2.虽可进行全面调查观察,但比较困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。三、抽样推断的基本概念(一)全及总体和抽样总体(总体和样本)全及总体:所要调查观察的全部事物。总体单位数用N表示。抽样总体:抽取出来调查观察的单位。抽样总体的单位数用n表示。n≥30大样本n30小样本(二)抽样方法1、重复抽样:2、不重复抽样:1N1111......12NNNNn、、重复抽样和不重复抽样会产生三个差别:抽取的样本数目不同抽样误差的计算公式不同抽样误差的大小不同(三)参数和统计量(全及指标和抽样指标、总体指标和样本指标)全及指标:全及总体的那些指标。抽样指标:抽样总体的那些指标。研究总体中的数量标志总体平均数总体方差X=∑XNX=∑XF∑FΣ(X-X)N2σ=2Σ(X-X)FΣF2σ=2研究总体中的品质标志总体成数成数方差σ2=P(1-P)P=N1N参数研究数量标志样本平均数x=∑xnx=∑xf∑f样本方差22()xxsn22()xxfsf研究品质标志样本成数成数方差np=n2(1)spp统计量(四)样本容量——指一个样本所包括的单位数。(五)抽样比例——抽样比例是指在抽取样本时,所抽取的样本单位数与总体单位数之比。(六)样本个数——指从总体中可能抽取的最多的样本数量。1、重复抽样:2、不重复抽样:n(1)考虑顺序:M=N(2)不考虑顺序:M=(N+n-1)!n!(N-1)!(1)考虑顺序:M=(2)不考虑顺序:M=N!(N-n)!N!n!(N-n)!考虑顺序不考虑顺序不重复抽样重复抽样!()!nNNANnnnNBN!!()!nNNCnNn(1)!!(1)!nnNNNnDDnN可能样本数目的计算公式置信度也称为可靠度,或置信水平、置信系数。即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。(七)置信度(一)大样本统计量分布的依据-中心极限定理22221xexp四、抽样推断的理论依据1、正态分布(1)正态分布模型如果连续型随机变量X的概率密度的函数为:x其中σ>0,μ和σ均为常数,则称X服从参数为μ和σ的正态分布,记作X~(μ,σ2)。dxxpxXPXFX22(x)21(x)dxedx2(2)正态分布的分布函数xt22t1edt1若,对其进行“标准化”变换,即令则(3)一般正态分布的标准化2,XNXZ0,1ZN2、中心极限定理一般意义:无论随机变量服从何种分布,只要样本容量足够大,都可以近似地看作是服从正态分布。中心极限定理说明,大量相互独立的随机变量和的概率分布是以正态分布为极限的。由于正态分布在概率论中占有的中心地位,中心极限定理因此而得名。(1)独立同分布的中心极限定理设随机变量X1,X2,…,Xn相互独立,服从同一分布,且有有限的数学期望和方差,则随机变量的分布函数满足如下极限式1niiXnYn()nFx22121lim()lim2ntixinnnXnFxPxedtn定理的应用:对于独立的随机变量序列,不管服从什么分布,只要它们是同分布,且有有限的数学期望和方差,那么,当n充分大时,这些随机变量之和近似地服从正态分布nX(1,2,,)iXin1niiX2,Nnn(2)棣莫弗—拉普拉斯中心极限定理定理设随机变量服从二项分布,则对于任意区间,恒有n(,)Bnp[,]ab221lim(1)2tbnannpPabedtnpp二项分布的极限分布是正态分布即如果~(,)XBnp,则221()()(1)2tbnanpPabedtbanpp()()(1)(1)bnpanpnppnpp一般地,如果~(,)XBnp,则(1)(1)(1)anpXnpbnpPaXbPnppnppnpp1、t分布及小样本均值的分布律(二)小样本统计量的分布律设随机变量X~N(0,1),Y~2(n),且X与Y相互独立,则称统计量XTYn服从自由度为n的t分布或学生氏分布,记作t分布的概率密度函数为T~t(n).1221()2()(1),()()2nntfttnnn其图形如图5-6所示(P106),其形状类似标准正态分布的概率密度的图形.当n较大时,t分布近似于标准正态分布.当n较大时,t分布近似于标准正态分布.一般说来,当n30时,t分布与标准正态分布N(0,1)就非常接近.但对较小的n值,t分布与标准正态分布之间有较大差异.且P{|T|≥t0}≥P{|X|≥t0},其中X~N(0,1),即在t分布的尾部比在标准正态分布的尾部有着更大的概率.t分布的数学期望与方差设T~t(n),则E(T)=0,D(T)=.(2)2nnn设(X1,X2,…,Xn)为来自正态总体X~N(,2)的样本,则统计量~(1)(5.9)XTtnSn证由于与S2相互独立,且X~(0,1),XUNn222(1)~(1)nSn由定义5.4得22~(1)(1)(1)XnXTtnSnnSn设(X1,X2,…,Xn1)和(Y1,Y2,…,Yn2)分别是来自正态总体N(1,2)和N(2,2)的样本,且它们相互独立,则统计量121212()~(2)(5.10)11nXYTtnnSnn其中22112212(1)(1),2nnSnSSnn、21S22S分别为两总体的样本方差.2——分布~0,1XN定义设总体,是的一个样本,则称统计量服从自由度为n的分布,记作X12,,...,nXXX222212nXXX222~()n自由度是指独立随机变量的个数,dfn2n个相互独立的标准正态分布之平方和服从自由度为n的分布五、抽样推断的基本原理举例说明总体方差已知时总体均值μ的区间估计当X~,可以证明抽自该总体的简单随机样本X1,X2,…,Xn的样本平均数服从数学期望为,方差为的正态分布,即~采用统计量Z,将非标准正态分布转化为标准正态分布,2,Nxn/2xn,N2~N(0,1)nxZ/例对于给定的置信概率a1,可以查正态分布表,2/Z(即概率度t)使得:得出相应的临界值aZZZP12/2/aZnxZP1/2/2/anZxnZxP12/2/即在给定的显著性水平下,总体均值在的置信概率下的置信区间为aa1nZxnZxaa2/2/,第二节抽样误差一、抽样误差的概念及种类在抽样调查中,总体指标与样本指标不一致,两者的偏差称为抽样误差。-X抽样误差就是指样本指标和总体指标之间数量上的差别,即、p-P。抽样误差即指随机误差,这是抽样调查固有的误差,是无法避免的。登记误差系统性误差统计误差代表性误差抽样实际误差随机误差抽样平均误差抽样误差的作用:1.在于说明样本指标的代表性大小。误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。2.说明样本指标和总体指标相差的一般范围。二、抽样平均误差(一)概念抽样平均误差是所有可能出现的样本指标的标准差。反映样本指标与总体指标之间误差的一般水平。通常用μ表示。即是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。(二)理论公式22()()xpMMxXpP21020304050X30()525()五户家庭三月份购买福利彩票的支出:元,元,元,元,元元现从五户中抽取二户作调查,如果为重复抽样考虑顺序=种排列组合如下:例1010102010301040105020102020203020402050301030203030抽取样本抽取样本304030504010402040304040405050105020503050405050合计101010-20400102015-15225103020-10100104025-52510503000201015-15225202020-10100203025-52520403000205035525301020-10100302025-52530303000x样本平均数xX误差2xX抽取样本x样本平均数xX误差2xX抽取样本30403552530504010100401025-52540203000403035525404040101004050451522550103000502035525503040101005040451522550505020400合计--25002()250010()25xMxX元(三)实际计算公式(以纯随机抽样为例)x2n1.重复抽样pp(1p)n2.不重复抽样pp(1p)n(1)nN2xn(1)nN总体方差未知时解决方法:1、用样本方差代替22s用代替用(1-)代替p(1-p)2、用过去全面调查的资料,也可以用过去抽样调查的资料代替。某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时,根据以往资料σ=20小时,试求抽样平均误差。例x22202n100(小时)2x2n(1)nN20100(1)1.99(10010000小时)重复抽样:不重复抽样:14798%150(1)0.98(10.98)1.14%150ppppn某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方法从中抽取150只进行质量检验,有147只合格,试求这批印花玻璃杯合格率的抽样平均误差。例(1)0.98(10.98)150(1)(1)1.1374%15015000pppnnN若按不重复抽样方式:(四)影响抽样误差的因素:4.不同的抽样组织形式。1.全及总体标志变异程度。2.抽样单位数目的多少。3.不同的抽样方法。例:假定抽样单位数增加
本文标题:第6章 抽样推断
链接地址:https://www.777doc.com/doc-419505 .html