您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第六章 不等概率抽样
第六章不等概率抽样§1概述一、不等概率抽样的定义和特点(一)定义:如果总体中每个单元进入样本的可能性是不相等的,则这种随机抽样方式就称为不等概率随机抽样,简称不等概率抽样。(二)特点:将总体中每个单元的入样概率与其“规模”大小联系起来,使得“大单元”被抽到的概率大,“小单元”被抽到的概率小。二、不等概率抽样的优点和局限性(一)优点:能够大大提高抽样精度,减少抽样误差。(二)局限性:必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包含概率。三、不等概率的适用场合:总体单元之间的差异较大。四、不等概率抽样分类:我们最关心也是最重要的情形是抽样容量n固定时,单元入样的概率(不放回抽样)或每次抽样的概率(有放回抽样)与单元的大小严格成比例。这种情况下的有放回抽样称为抽样不放回抽样称为抽样。pspps§2放回的不等概率抽样1、多项抽样、抽样及其实施方法pps既然是不等概率抽样,那么就应该在抽样之前给总体中的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽取中,设第个单元入样的概率为且,按此规定有放回地独立抽取n次,形成所谓的多项抽样。i(01,1,2,,)iiZZiN11NZii假设第个单元在n次抽样中被抽中次,则是一个随机向量,其联合分布为:iit12(,,,)Nttt这是我们熟悉的多项分布,多项抽样其名正出于此。121212!!!!NtttNNnZZZttt1Niitn(7.1)多项分布(7.1)具有如下性质:()()(1)1,2,,(,)iiiiiijijEtnZVartnZZiNCovttnZZij倘若单元有一个数值度量其大小,诸如职工人数、工厂产值商店销售额等,或者感兴趣的调查指标在上一次普查时的数据也可以作为其单元大小的一种度量。记为第个单元的“大小”,并记iMi01NMiiM多项抽样是最简单的不等概率抽样,它的实施方法通常有两种,以pps抽样为例。则可取0iiZMM此时多项抽样体现了每次抽样时单元的入样概率与单元的大小成比例,即为pps抽样。(1)代码法它适合于N不太大的情形。假定所有的为整数,倘若在实际中存在不是整数的话,则可以乘以一个倍数使一切为整数(对一般的多项抽样,也总可找到整数,使一切成为整数)。对于具整数的第个单元赋予一个与相等的代码数,见表7—1。iMiMiM0M0iMZiMiMi单元i单元大小iM代码数12N12NMMM11101111,2,,NNNiiiNiiiMMMMM11,2,,M11121,2,,MMMM表7—1pps抽样时各单元的代码数每次抽样前,先在整数里面随机等可能的选取一个整数,设为m,若代码m属于第j个单元拥有的代码数,则第j个单元入样。整个过程重复n次,得到n个单元入样(当然存在重复的可能性)构成pps样本。01,2,,M例7.1设某总体共有N=8个单元,相应及代码如表所示iM12345678iiM2/51/22/34/38/53/52/3130iM1215204048182030累计12274787135153173203代码1~1213~2728~4748~8788~135136~153154~173174~2030203M若取n=3,在1~203中随机有放回地产生3个随机整数,不妨设为45、89、101,则第3个单元入样一次,第5个单元入样2次。(2)Lahiri(拉希里)方法当N相当大时,累计的将很大,给代码法的实施带来很多不方便。Lahiri提出下列方法:令每次抽取1~N中一个随机整数及1~内一个随机整数,如果,则第个单元入样;若,则按前面步骤重抽,显然,第个单元的入样与否受到的影响,只有时它才入样,因此第个单元入样的概率与的大小成正比,此时*1max{}iiNMMiiii(,)im*MmiMmiMmiMmiM0iiZMM0Mm2、Hansen-Hurwitz(汉森—赫维茨)估计量若是按为入样概率的多项抽样而得的样本数据,它们相应的值自然记为,则对总体总和,Hansen-Hurwitz给出了如下的估计量:12,,,nyyy12,,,nzzziZiZ11niHHiiyynz(7.4)且,即是总体总和的无偏估计。()HHEyYHHyY211()()NiHHiiiYVaryZYnZ(7.6)()HHVary的无偏估计为211()()(1)niHHHHiiyvyynnz(7.7)§2不放回的不等概率抽样上一节讲述了有放回不等概率抽样,无论从实施上还是从估计计算以及精度估计都显得十分方便。但是,一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。因此,实际调查工作者一般倾向于使用不放回形式。最简单的不放回不等概率抽样方式自然会想到逐一抽样这在第一次抽样时不会发生问题,但在抽第二个样本时面临的情况与有放回时大不相同,余下的(N-1)个单元以什么样的概率参与第二次抽样就是个问题;再在抽第三个样本时又面临新问题,如此下去,一是抽样实施的复杂,二是估计量及其方差计算的复杂,因此,在本节仅讨论n固定,尤其是n=2时的情形。同时,我们只对使总体中每个单元的入样概率严格地与其“大小”成比例感兴趣,这就是所谓的抽样。ps1、包含概率,iij不放回不等概率抽样中,总体中每个单元被包含到样本的概率,即入样概率是个重要的概念,而且任意两个单元包含到样本中去的概率也是个重要的概念,可以想象,估计量的方差等计算会与有着密切的关系()ipi(,)ijpij,iij既然表示第个单元在n个样本中出现的可能性,那么所有N个单元在样本中出现的可能性之和自然等于n,这就是的一个众所周知的性质:ii{}i我们所考虑的严格抽样,既然与成比例,若n固定的话,显然有:psiiM1Niin(7.8)010,NiiiiiMnZnMMM(7.9)对于,我们有11(1)2NNijiijnnij(7.11)2、Horvitz—Thompson(霍维茨—汤普森)估计量1niHTiiyy(7.12)H—T估计量与H—H估计量是及其相似的。因为,它们在形式上似乎完全一样,但是H—H估计量中的可以互相重复,而H—T中的却是绝对地互不相同。iinZiyiy对于不放回不等概率抽样,关于总体总和由Horvitz和Thompson提出如下的估计量:Y当n固定时,H—T估计量的方差为:21()()NNjiHTijijiijijYYVary(7.13)3、几种严格的不放回抽样方法ps前面已经指出,所谓“严格不放回”是指样本容量n固定,严格不放回、的抽样。仅介绍n=2的情形。psiinZ(1)Brewer(布鲁尔)方法(1963)假设对所有,均有,现抽取两个样本,最通常的方法是逐个选取。i12iZ先以正比于的概率从N个单元中抽取1个样本,(1)12iiiZZZ然后在余的N-1个单元中按与成正比的概率抽取第2样本jZ这种抽样方法可以保证每个单元入样概率为:2(1,2,,)iiZiN而(12)(12)ijijijjiZZZZDZDZ14(1)(12)(12)(1)12ijijNiijiiZZZZZZZZ(7.17)其中11(1)1112212NNiiiiiiiZZZDZZ(2)Durbin(德宾)方法(1967)的概率抽取第二个样本。此时以概率在总体中进行一次不等概率抽样,设第个单元以概率入样,在剩余的N-1个单元中,以正比于12(,,,)NZZZiiZ11()1212jijZZZ于是可以计算出11()12122jNijiiiijiZZZZZZD(7.19)11()21212NijiijDZDZZ(7.18)Durbin方法中的与Brewer方法中的完全一样这表明两种不等概率抽样方法其实是等价的。,iij,iij112()121211()1212ijijijijijZZDZZZZDZZ(7.20)
本文标题:第六章 不等概率抽样
链接地址:https://www.777doc.com/doc-419874 .html