您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 2014统计学原理--chapter5抽样分布
第5章抽样调查和常用抽样分布5.1抽样与抽样调查方法5.2关于分布的几个概念5.3由正态分布导出的几个重要分布5.4样本均值的分布与中心极限定理5.5样本比例的抽样分布5.6两个样本平均值之差的分布5.7关于样本方差的分布5.1抽样和抽样调查方法抽样调查的四个阶段抽样的种类非概率抽样有意抽样机会抽样判断抽样……概率抽样随机抽样拟随机抽样……非概率抽样主要依据研究者的主观意愿、判断或是否方便等因素抽取样本;误差大,难以估计,代表性小,适合探索性研究。也叫判断抽样,主要有:偶遇抽样、判断抽样、定额抽样、滚雪球抽样等等。概率抽样依据概率论的基本原理,按照随机原则进行抽样;主要有:简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样等等。普查&抽样调查概率抽样的特点•按照一定的概率以随机原则抽取样本•每个单位被抽中的概率是已知的•推断时要考虑到每个样本单位被抽中的概率概率抽样并不意味着等概率抽样抽样调查中常见的概率抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样按随机原则直接从总体N个单位中抽取n个单位作为样本。抽样时分还原抽样和非还原抽样。(1)回顾:简单随机抽样的特点想一想,为什么是这样?通过抽样极限误差公式计算必要的样本单位数。重复抽样:不重复抽样:抽样平均数抽样成数22222xxxtNNtnpptNpNptnp11222222xxtn221ppptn(1)回顾:简单随机抽样样本容量的计算方法简单随机抽样的实施1.抽签法2.随机数法(2)分层抽样•又称类型抽样,先对总体各单位按主要标志加以分组成两两不相交的典型组,每个典型组称做一层(类或者组)然后再从各组中按简单随机抽样的原则抽选一定单位构成样本。•例如:对城市职工进行家计调查,先把职工按所有制形式分为国有经济单位职工。集体经济单位职工和其他所有制单位职工,然后再从各组职工中随机抽样本单位。分层的原则层内变异性尽量小,层间变异性尽量大。分层抽样的分组标志,一般应选择与被研究现象有关的重要标志。通过分组,尽量缩小组内各单位标志值的差异,增大组间各单位标志值的差异,以便降低抽样误差。分层抽样的适用情形分层随机抽样是判断抽样和随机抽样相结合的一种混合型抽样方法。分层抽样适宜于由差异较大的单位所组成的总体。它将分组法与随机原则结合起来,减少了各组内标志值的差异程度,使各组都有抽取样本单位的机会,有利于提高样本的代表性,能得到比简单抽样更为准确的结果,因此在实际工作中应用较广泛。•需要获得有关总体的分类数据,将每类视为一层•总体的内部结构差异显著,为保持样本的代表性必须分层•为提高总体指标或参数的估计的精度,需要分层•为适应行政管理的需要而分层分层抽样中抽样单位数的分配•按比例分配法•定额抽样法•奈曼分配法•经济分配法按比例分配法N-----------总体容量Ni----------第i层的容量n-----------样本容量ni----------来自第i层的样本数目ni=nNi/N每层入样单位的比例,恰好等于该层的单位总数Ni在总体单位总数N中所占的比例。定额抽样法定额抽样法,又称配额抽样法。是根据调查的目的和要求按照事先规定的比例配额确定从每层抽取的单位数的一种抽样方法。奈曼分配法从每层抽选的单位数ni与该层的单位总数Ni和样本标准差Si之积成正比例的一种分配方法,即ni=nNiSiNiSi经济分配法同时考虑变异性和费用的一种分配抽样单位的方法。ni=nNiSi/CiNiSi/Ci(3)整群抽样将总体各单位划分成许多两两不相交的群,然后从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织形式。整群抽样中群的划分原则群内变异性尽量大,群间变异性尽量小。群的划分通常是自然形成的。比如:成箱包装的同种产品、在校学生的教学班等。群中的单位数称做该群的容量,群的容量可以相同也可以不同。整群抽样的特点便于选择抽样框费用低,方便实施调查估计的精度较差费用和效果的权衡•分层要求增大组间差异,缩小组内差异,以利于提高样本代表性;而分群要求缩小群间差异,增大群内差异来提高样本代表性。因为对中选群是作全面调查,群间差异越小,中选群的代表性就越大。高中低大中小大中小大中小大中小分层分群整群抽样与分层抽样的区别(4)系统抽样又称机械抽样、等距抽样。是指先将总体各单位按照一定规则(或某个标志)将抽样单位依次排列,并随意确定一个抽样的起点,按样本容量n将所有总体单位N分为n个相等的部分,每个部分包含K个单位。然后依固定抽样的间隔(步长)抽取单位。再用随机抽样方法确定在每个部分中的抽样序号i(i=1,2,…,K),从每个部分的K个单位中抽取排序为i的那一个单位组成样本的一种抽样组织形式系统抽样时用来排队的标志一种是与被调查的内容无关,称为无关标志,在这种情况下,等距抽样与简单抽样相仿,因为被研究总体是随机总体。另一种是与被调查的内容有关,称为有关标志。在这种情形下,等距抽样与分层抽样相仿,因为它类似于按某个标志等距分组,利用了总体的有关信息。系统抽样的抽选步长h=【N/n】•排队中的周期性•h=【N/n】是自然数系统抽样的抽选方法原则:保证样本的代表性方法:随机起点等距抽样法、中点定位等距抽样法、对称等距抽样法、半步长定位等距抽样法、循环等距抽样法系统抽样的特点系统抽样在实际工作中广为采用,它能使被抽选的各单位更均匀地分布在总体各个部分,提高了样本对总体的代表性。•系统抽样在所分的每个相等部分中只抽取一个单位,且中选单位总处在每个部分中的同样位置或对称位置。•分层抽样在所分的每个组中抽取若干个单位,每个组的单位可以相等或不等。即使每个组只抽一个单位,但每组的中选单位不一定处于相同位置或对称位置。系统抽样与分层抽样的区别(5)多阶段抽样多阶段抽样又称多级抽样,分为两个或两个以上阶段实施的抽样。在不同阶段抽样单位的概念不同。在抽样的第一阶段,抽选若干个较大的单位入样;在第二阶段,首先将入样的各一级抽样单位分为若干较小的二级单位,然后从入样的二级单位中各抽选若干二级单位入样,依次类推,直到最终获得全部样本。实际中,大量抽样调查多是分阶段抽样进行的,并且在不同阶段可能采用不同的抽样方式和方法。分阶段抽样的总误差等于各阶段抽样误差之和。你还能举一些抽样的例子吗?非概率抽样•方便抽样•判断抽样(重点、典型、代表抽样)•自愿样本•滚雪球样本•配额抽样方便抽样•优点:容易实施,调查的成本低•局限性:调查结果不能用于对总体的推断•使用方便样本可以产生一些想法,对研究内容初步认识或者建立假设.判断抽样•重点抽样•典型抽样•代表抽样•特点:判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性.•优点:成本低,易操作•局限性:调查结果不能用于对总体的推断自愿样本•调查结果不能用于对总体的推断•能提供许多有价值的信息,反映某类群体的一般看法.滚雪球样本•适用于对稀少特定群体的调查•调查成本低配额抽样•什么是配额抽样•特点:操作简单,可以保证总体中不同类别的单位都能包括在所抽取的样本中.•调查结果不能用于对总体的推断概率抽样与非概率抽样的比较因调查目的不同而不同抽样方法作用抽样原则误差判断应用优缺点非随机抽样研究总体的局部现象非随机抽出样本,主观性强不能计算和判断抽样误差可随时随地采用不够科学规范,但省钱、省事、灵活方便随机抽样以部分推断总体随机抽出样本,客观性强不能计算和判断抽样误差只能定期采用科学规范,但费时、费钱、不够灵活方便5.2关于分布的几个概念5.2.1总体分布&抽样分布5.2.2渐近分布&精确分布5.2.3随机模拟获得的近似分布5.2.1总体分布&抽样分布•总体•总体分布•样本•样本的分布•抽样分布回顾:统计量•统计量的概念统计量是样本的函数,并且不依赖于任何未知的参数。比如:样本均值、样本方差等等。•统计量是统计推断的基础。•常用统计量常用统计量•样本均值•样本(修正)方差、样本(修正)标准差•样本变异系数•样本的原点矩•样本的中心矩•样本偏度•样本峰度•中位数•分位数•四分位数•样本极差抽样分布统计量从一个具体的样本来看,是一个值;从广义上看,具有随机性,是一个随机变量,有自己的分布——抽样分布。抽样分布的例子——样本均值的抽样分布对来自正态总体X~N(,2)的简单随机样本,样本均值n,N~nXXnxxniinii211102,N~nX5.2.2渐近分布——以中心极限定理为例不同自由度的卡方分布中心极限定理的一个例子——样本的均值的分布(总体为自由度为3的卡方分布,样本容量20)抽样次数=2000抽样次数=5000想一想nSX25.2.3随机模拟获得的近似分布•ADF检验5.3由正态分布导出的几个重要分布5.3.1卡方分布5.3.2t分布5.3.3F分布5.3.1卡方分布•卡方分布的定义0,00,)(212)2/(212/yyeyyfynnn2分布的密度函数曲线nE)(2nD2)(2(3)2分布的可加性)(~121nX)(~222nX2分布的性质并且X1,X2相互独立,则X1+X2~2(n1+n2)(1)2分布的数学期望(2)2分布的方差(1)构成P{2(n)λ}=p,已知n,p可查表求得λ;(2)有关计算λpnP)(2)(2np上侧分位数2分布表及有关计算2分布的极限分布•2分布的极限分布是正态分布5.3.2t分布tntnnntfn,)1()2()21()(212概率密度曲线若X~N(0,1),Y~2(n),X与Y独立,则).(~ntnYXT称为自由度为n的t分布。t分布的定义(1)f(t)关于t=0(纵轴)对称;(2)f(t)的极限为N(0,1)的密度函数,即xettftn,21)()(lim22t分布的性质)(1ntpt分布表及有关计算上侧分位数:P{t(n)λ}=p双侧分位数:P{|t(n)|λ}=2p,λ=tp(n))()(1ntntpp)(ntppt分布的极限分布是正态分布5.3.3F分布1、定义若X~2(n1),Y~2(n2),X,Y独立,则),(~2121nnFnYnXF称为第一自由度为n1,第二自由度为n2的F—分布,其概率密度为0,00,)1)(2()()/)(2()(2/)(2122122/212121111yyynnnynnnnyhnnnnnP{F(n1,n2)λ}=p,记做上侧分位数λ=Fp(n1,n2)F分布表及有关计算pF分布与t分布的关系•自由度为v的t分布是F(1,v)分布5.4样本均值的分布与中心极限定理一、正态总体的样本均值的抽样分布)1,0(~NnXU证明niiXnX11组合,故服从正态分布。niiXEnXE1)(1)(nXDnXDnii212)(1)(),(~2nNX1、若),(~,,,221NXXXiidn则是n个独立的正态随机变量的线性)1,0(~NnXU正态总体的样本均值的抽样分布)1,0(~NnXU证明niiXnX11组合,故服从正态分布。niiXEnXE1)(1)(nXDnXDnii212)(1)(),(~2nNX1、若),(~,,,221NXXXiidn则是n个独立的正态随机变量的线性1nt~nSX设(X1,X2,…,Xn)是总体的样本,则当n足够大时,根据中心极限定理,有nNX2,~二、非正态总体的抽样分布(大样本))1,0(~NnXU5.5样本比例的抽样分布设(X1,X2,…,Xn)是0-1分布总体(参数为p)的样本,则当n足够大时,根据中心极限定理,有n)p(p,pN~nXXnii115.6两个样本平均值之差的分布•两个样本平均值之差的分布•
本文标题:2014统计学原理--chapter5抽样分布
链接地址:https://www.777doc.com/doc-3013818 .html