您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样技术7不等概率抽样
第七章不等概抽样•放回不等概率抽样•不放回不等概率抽样•利用软件进行抽样和计算•案例分析第一节不等概率抽样概述一、不等概率抽样的必要性1、在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。等概率抽样的特点是总体中的每个单元在该总体中的地位(或重要性)相同,在抽样时对每个单元采取的是“不偏不倚”的态度。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概率抽样(samplingwithunequalprobabilities)。2、抽样单元在总体中所占的地位不一致:例如:要反映某小麦品种的优良情况,以村作为抽样单位,但各村的种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响,所以让“大单元”被抽到的概率大,“小单元”被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误差。不等概率抽样概述不等概率抽样的特点2、不等概率抽样的主要优点是由于使用了辅助信息,提高了抽样策略的统计效率,能显著地减少抽样误差。1、凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息。例如:每个单元的“大小”度量Mi。注意:比估计和回归估计是估计方法用到了辅助信息,本章是抽样方法用到辅助信息.不等概率抽样的特点3、抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要存储总体中每一个单元的度量大小;4、并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量;5、抽样及估计(特别对不放回抽样)相当复杂;6、当单元大小度量不准确或不稳定时不适用。6不等概率抽样的分类放回不等概抽样:按照总体单元的规模大小来确定在每次抽中的概率。抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。这种抽样称为放回不等概抽样(samplingwithprobabilitiesproportionaltosizes,简称PPS抽样)•不放回的不等概抽样:每次在总体中对每个单元按入样概率进行抽样,抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单元再以什么概率被抽取就较复杂。这种抽样不是独立的,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。不放回抽样通常称为πPS抽样。放回不等概抽样PPS抽样:有放回的不等概抽样01100,11NiiNiiiiiNMiiNinMMMZMnZ抽设总体包含个单元,是第个单元的大小或规模的度量,,,,总体的总规模度量为:则第个单元的抽选概率为:即,一次抽完后再,进行下一次抽取。独立地进行这样的抽样次样概率正比于规模度量放回有可能重复,只调查一次,但计算时按,共抽到个重复数单元(计算)。0N1N1jj1N1jj1N1jjN2111211iMMM2M1MMNMM2M1MM2M21M1Mi,,,,,,,,代码单元大小单元在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累加得到M0,每次抽样都等概产生一个[1,M0]之间的随机数,设为m,代码m所对应的单元被抽中。放回不等概率抽样实施方法1.代码法累计代码10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738=73.8738例5.1设某个总体有10个单元,相应的单元大小及其代码数如下表,在其中产生一个n=3的样本。iMi假设在[1,738]中等概产生第一个随机数为354,再在[1,738]中产生第二个随机数为553,最后在[1,738]中产生第三个随机数为493,则它们所对应的第5,7,6号单元被抽中。Mi*10例:假设有10个乡,每个乡的村庄数不同,按pps抽3个乡乡村庄数Mi累计代码1551~5228336~333265934~594147360~735108374~8363812184~12177128122~128850178129~17892180179~180108188181~188结合一下整群抽样、多阶段抽样2.拉希里法(二次抽取法)(统计学家Lahiri最先提出):1max11M,MM1M}{M.MiiNaaiiiiiMNMapNMMi令每次从,中简单随机地抽取一随机数a,同时再独立从,中抽取一随机数b。若b则第个单元入样,若b则重抽。第i个单元被抽中的概率:z=p{a=i,b}=p{a=ib}=显然地,z简单随机设M1,M2,…MN为单元的规模放回不等概率抽样实施方法拉希里法抽样举例:例5.1中,M=150,N=10.在[1,10],[1,150]中分别产生(i,m)如下:第一次(3,121),M3=15121,舍弃,重抽;第二次(8,50),M8=3650,舍弃,重抽;第三次(7,77),M7=10077,第7号单元入样;第四次(5,127),M5=78127,舍弃,重抽;第五次(4,77),M4=13777,第4号单元入样;第六次(9,60),M9=60≥60,第9号单元入样;因此第4,7,9号单元被抽中。三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:112121,1ˆˆ(1)()1ˆ(2)()()1ˆˆˆ(3)()()()(1)nniHHiiHHNiHHiiiniHHHHHHiizzyYnzEYYYVYZYnZyYYVYnnvz样本单元被抽中的概率,,则对总体总量Y的估计是是的无偏估计。因为是放回抽样,所以是独立样本,数理统计的结论可以在这里应用。放回不等概率抽样对总体特征的估计对上述结论加以说明:独立同分布样本y1y2…yn抽中概率z1z2…zn新变量ty1/z1y2/z2…yn/zn22111222111ˆˆ111ˆv()=v(1ˆVT()(1)1ˆ()11niniiHHinitHHiHHHHnnitiHHiiiiitytYnnzVtVYYtnnnysttysYnzYnnz样本均值()即()的无偏估计量为:)()()汉森-赫维茨估计量估计给出总体总量的估计,如果对总体均值估计可按下公式:0100221011()()(1)nHHiHHiiniHHHHiiMyYYMMnzyvYYMnnz假设是总体规模大小的度量例:某县农业局要调查全县养猪专业户今年生猪的出栏头数,现有全县365个养猪专业户去年的生猪存栏数,各专业户的规模相差较大,决定以放回方式按与各养猪专业户上年末生猪存栏头数成比例的PPS抽样从中抽取30户进行调查,结果如下,已知全县养猪专业户上年末生猪存栏头数为9542头,试估计该县养猪专业户生猪今年出栏总头数和抽样标准误。(摘自:“应用抽样技术”李金昌)imiyiimiyiimiyi11575114025821191242231341232186222616039371317692337215429152142615624211045845151149257496311851636221264333672413317251452718968291731853328301779137419382881019872042304其中第2、19号被抽中两次解:根据题中所给资料,n=30,M0=9542,0111954275134177(2...)56163()30152330nniiHHiiyMyYnznm头2220112222M1ˆˆˆ()()=()(1)(1)954275561631345616317756163[()()2...()]30291595422395423095422806070ˆ()1675nniiHHHHHHiiiiHHyyYYYnnzvvnnmY(头)利用汉森-郝维茨估计量,则有:例5.2:某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本。iimiyiimiyiimiy1*38.2310926105.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301315.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600245.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640275.20510niiiHHmynMY10ˆ2.651070.13102423.381092623.381092630367622121211ˆˆ()()=45%=20%ˆˆˆˆSSnnSSrttrttHHHHHHHHHHHHYY,YYYY773861.0595%t=1.96ˆ()174118ˆ1.9645%ˆ757087srtHHHHHH在置信度为时,对应的,YY的相对误差为:Y相对误差达到20%时所需样本量:220.45301520.2n222011M1ˆˆˆ()()=()(1)(1)=30317005145.8ˆ(1741)8=1nniiHHHHHHiiiiHHyyvYYYnnznnmvY解:有放回不等概整群抽样群规模不等的整群抽样中,可采用等概和不等概抽样;如果群规模差异不大,可采用等概抽样;如果群规模差异较大,各个群对总体的影响不同,此时采用不等概抽样。把群规模作为辅助信息,能提高估计精度,而且方差估计形式简单。但在抽样时要掌握辅助信息,比简单随机复杂。假设群的抽取是按与Mi成比例的pps抽样,每次按Zi=Mi/M0(i=1,2,…N)的概率抽取第i个群。由汉森-赫维茨估计量,pps整群抽样总体总值估计量为0121201ˆ1ˆˆ()(1)ˆˆ(),niiniiYvYyMyYnZynnZyM估计量方差的估计为:v(Y)=Yv()=例某企业欲估计上季度每位职工的平均病假天数。该企业共8个分厂,现用不等概整群抽样拟抽取3个分厂,并以置信度95%计算其置信区间。分厂编号职工人数Mi累积区间12345678120045021008602840191039032001-12001201-16501651-37503751-46104611-74507451-93609361-97509751-12950有放回不等概整群抽样解:n=3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。调查结果如下:01232110100243204160579011ˆˆˆ()(1)ˆ1143205790()2.023210032ˆ()00()0.0356nniiiiniiiyyyyyYnZnnZMyYyyMMnMnvyvYM,,,v(Y)=Y=有放回不等概整群抽样注:1、对于群规模不等的整群抽样,采用不等概PPS抽样,可以得到总体目标量的无偏估计,2、估计量和估计量的方差都有比较简明的形式,估计的效率也比较高,是值得优先考虑采用的方法,3、使用条件:在抽取样本前,要掌握各群规模的信息。多阶段有放回不等概抽样当初级单元规模不等时,常采用不等概抽样。对初级单元进行PPS抽样时
本文标题:抽样技术7不等概率抽样
链接地址:https://www.777doc.com/doc-418267 .html