您好,欢迎访问三七文档
1抽样调查课----整群抽样单位:浙江财经学院数统学院课程:抽样调查课教师:张锐2整群抽样一、整群抽样的基本概念二、群规模相等条件下的估计三、群规模不相等条件下的估计3一、整群抽样的基本概念•问题的提出•整群抽样的定义•整群抽样的特点•群的划分•群规模简介4一个新建的居民区由近百幢居民楼组成,其中住户总数达数千户。欲用抽样调查方法估计该居民区现有的电话拥有率。a.一种是用简单随机抽样,抽取一定样本量的住户,譬如说共抽取n=250户进行调查,然后用简单估计方法对全居民区的电话拥有率进行估计。b.另一种方法是按一定方法抽取一定数量的居民楼,譬如说15幢或20幢楼,然后对这些楼中的每个住户都进行调查,根据调查结果来估计整个居民区的电话拥有率。实际问题的提出:5这两种方法的根本差别是:抽样单元不同。前者以住户为抽样单元,后者则以居民楼为抽样单元。后一种抽样方法称为整群抽样。6•Def.1一般地说,如果总体中所有较小的基本单元可以以某种形式组成数量较少但规模较大的单元;或反过来说,每个“大”单元都由若干“小”单元组成,称这些“大”单元为初级(抽样)单元(primarysamplingunit),“小”单元为次级(抽样)单元(secondarysamplingunit).•Def.2在总体中,按一定方式抽取n个初级单元,调查每个被抽中的初级单元中所包含的全部次级单元,这种抽样方法称为整群抽样(clustersampling),也称集团抽样。7定义:整群抽样是将总体划分为若干群,然后以群为抽样单元,从样本中随机抽取一部分群,对选中的群的所有基本单元进行调查的一种抽样技术。这里的群(cluster)就是指初级单元,整群抽样就是指将总体中的小单元整群整群地进行抽群。在前面的例子中,居民楼就是群(初级单元),而住户则是次级单元,对居民楼的抽样就是一种对住户的整群抽样。整群抽样的定义8整群抽样的特点1)抽样框的编制简单2)实施便利,节省费用3)抽样误差相对比较大些发挥整群抽样的优势,因为其省时省力,每个单元的平均调查费用比较少,故可通过增大样本量的方法弥补精度的损失。9划分群的标准总体方差=群间方差+群内方差群内方差群间方差整群抽样是对被抽中的群的群内的每个单元进行抽样,因此群内方差的影响很小,主要的误差是由群间方差影响的。分群的标准:使同一群内各单元之间的差异大一些即群内方差大些,群与群的差异尽可能的小些,即群间方差小些。10群的规模群的规模指组成群的单元的数量。群的规模比较灵活,可大可小,规模大些,估计的精度差些,但是费用省。规模小的,估计的精度可以提高但是费用大。费用与精度根据实际需要而定。11群规模相等的整群抽样一、群规模相等简介二、符号说明三、总体均值的估计及性质四、估计量方差的估计五、设计效应12总体中的N个初级单元即群的大小(群内次级单元数)都相等的情形。也就是,若总体有N个群时,每个群中所包含的单元数为M相等时,则称群规模相等,在实际问题中,只要群的规模接近时,也称为群规模相等。这时,对群的抽取一般采用简单随机抽样(无放回)。一、群规模相等简介13二、符号说明120111ijijNNiiMiijjMiijjNnijYijyiMMMMMMNMiYYiyy总体群数:样本群数:总体第群中的第个单元的指标值:样本第群中的第个单元的观测值:第群中的单元数:当各群规模相等时总体中的单元总数:总体中第群中的群总值:样本中第群中的群总值:14211212221121)()1(1)(1)(11iNiMjijwNiibNiMjijNiiiiYYMNSYYNMSYYNMSMYYNYYMYYi群内方差群间方差方差个体均值群均值群的个体均值第122112212211/1()1()11()(1)iiniinMijijnbiinMwijiijyyMyynyyMsyynMMsyynsyynM总体样本15三、总体均值的估计及性质总体平均值的估计为:Y111nMijijyynM性质1)的无偏估计yY是建立如下盒子模型证明:16……11Y111,,MYY212,,MYY1,,NNMYY2YNY2N在这个新的盒子中有N个小盒子,每个小盒子中含元素(Yij,j=1,2,…,M),它们的平均数是,iY11MiijjYYM而全体的平均数恰好构成盒子的平均数。iYY1712我们的模型是从这N个小盒子中随机无放回地抽取n个,这n个小盒子相应的平均数为MjijiyMy11而这n个的平均数恰好构成样本平均数,iyy总体均值,样本均值,故样本均值是总体均值的无偏估计。(为什么?)yYyYn……111,,MYY212,,MYY1y2ynynMnYY,11821211V()()11NiibfyYYnNfSnMٱ四、估计量方差的估计19根据,的一个无偏估计是:2111V()()1NiifyYYnNV()y()vy221111()1nibiffyysnnnM在实际问题中,具有某种特性的次级单元在总体中所占的比例P的估计常用整群抽样,不仅方便而且效率高,在各群大小相等的情况下,利用前面对的讨论,推导出对P的估计量及其方差。Y20五、设计效应我们已经研究了简单随机抽样和较复杂的分层抽样、不等概率抽样、整群抽样,抽样方法的不同会引起估计量精度的不同。之所以采用比较复杂的抽样手段,目的无非是提高估计的效果。因此,看一个抽样方案的效果究竟如何,一个比较好的办法是将它与简单随机抽样在相同的样本容量之下对精度作比较——这就是基什(Kish)在1965年提出的设计效应(designeffect,简记为deff):Deff=(所考虑抽样设计估计量的方差)/(相同样本量下简单随机抽样估计量的方差)21设计效应值愈大,表明它的效率愈低。若deff1,表明所考虑的抽样设计的效率不如简单随机抽样;若deff1,表明该抽样设计的效率比简单随机抽样高。在整群抽样中,我们在前面已经指出:如何划分群以及群的大小如何控制对于估计的精度都有影响,这就涉及到设计效应。根据设计效应的定义,考察在拥有NM个次级单元的总体中抽取容量为nM的简单随机样本,样本均值的方差为:yV()rany21fSnM22因此,群大小相等的整群抽样的设计效应为:V()deffV()ranyy1(1)cM上面结果意味着:按同样的样本量(以次级单元计)整群抽样的方差约为简单随机抽样的方差的倍。换句话说,为了获得同样的精度,整群抽样的样本量必须是简单随机抽样的样本量的倍。1(1)cM1(1)cM23群内相关系数222221)1(ˆ)1)(1())((2wbwbNiMkjikijsMsssSNMMYYYY24例6.1在一次对某寄宿中学在校生零花钱的调查中,以宿舍为群进行整群抽样。每个宿舍有8名学生。用简单随机抽样在全部510间宿舍中抽取n=12间宿舍。全部96个学生上周每人零花钱及相关数据如下。1)试估计生平均零花钱,并给出其95%的置信区间;2)试估计群内相关系数与设计效应。3)如果是简单随机抽样,需要多少样本?25i1240,187,162,185,206,197,154,173188.0027.192210,192,184,148,186,175,169,180180.5017.983149,168,145,130,170,144,125,167149.7517.324202,187,166,232,205,263,198,210207.8829.175210,285,308,198,264,275,183,231244.2545.206394,256,192,280,267,334,216,289278.5063.877192,121,172,165,152,224,195,241182.7538.778230,205,187,176,212,253,189,240211.5027.489274,208,195,307,264,258,210,309253.1344.5210232,187,150,182,175,212,169,222191.1328.2911342,294,267,309,258,198,244,286274.7543.7012228,294,182,312,267,254,232,298258.3843.52iyisijy26(1)解:已知N=510,n=12,M=8,f=n/N=0.0235故18.14186)38.21838.258()38.218188(1128)(1)(38.2181238.2585.1801881221221niibniiyynMsyny元27于是的置信度为95%的置信区间为也即013.123.144)()(3.14418.141868120235.011)(2yvyssnMfyvb元元,93.24183.194)013.12(96.138.218Y28(2)计算群内相关系数与设计效应解:由前已算出样本群间方差而群内方差为18.141862bs68.1431)52.4398.1719.27(121)(1)(111)()1(1222112211122见表最后一列MjniiiijniniMjiijwsnyyMnyyMns29527.068.1431)18(18.1418668.143118.14186)1(ˆ2222wbwbsMsss689.4527.0)18(1ˆ)1(1Mdeff30(3)若令为简单随机抽样的样本量则即可达到整群抽样96户样本量相同的估计精度srsn)(207.4128户deffMnnsrs31群规模不相等的整群抽样一、等概抽样,简单估计二、等概抽样,加权估计三、等概抽样,比率估计四、例子32对总体均值的估计为可以看出,的方差估计为YniMjijiniiiyMnynyY111)1(11ˆy1)(1)(12nyynfyvnii等概抽样,简单估计33•此法特点1.估计量是有偏的2.操作简便,易于掌握和使用3.适用条件,群之间的规模差异不大时y34思路:以群规模Mi为权数,得到群总和yi,进而求得群总和均值,再除以群平均规模yNMMNi等概抽样,加权估计35估计公式为:若未知,可用样本群平均规模代替niiMnm11011ˆ1MYNMNyMyyMnMnyMyniiniiiM36总体总量Y的估计为总量估计的另一公式为yMY0ˆyNynNYnii1ˆ37估计量的方差为它的无偏估计为均值估计的方差为NiiYYNnfNYV122)(11)1()ˆ(niiyynnfNYv122)(11)1()ˆ(yNiiYYNnMfNYVMyV1220220)(11)1()ˆ(1)(38总体均值估计为这里辅助变量不是Xi而是群规模Mi总体总量估计为niiniiMyy11niiniiMyMyMY1100ˆ等概抽样,比率估计39估计量的方差分别是1)(11)(1)(1222122NYYMMnfNMYYMnfyVNiiiNiii1)()1()()()ˆ(1222220NMYYnfNyVMNyVMYVNiii40与的样本估计分别是)2(111)(111)(1112222122niiininiiiniiiyMyMyynmnfMyynmnfyv)(yV)ˆ(YV41)2(11)1()(11)1()ˆ(1112222122niiininiiiniiiyMyMyyn
本文标题:第四章(整群抽样)
链接地址:https://www.777doc.com/doc-7254332 .html