您好,欢迎访问三七文档
SamplingWithUnequalProbabilities?--------非概率,等概率,不等概每个单元入样的概率第五章不等概抽样例O’Brienetal.(1995)对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。等概率的抽取样本医院的缺点?首先,可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量,采用等概简单估计量可能会有大的方差。其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。第三,调查成本在调查开始的时候是未知的----一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。其他办法?调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。分层抽样:抽样选择概率小的单位会有较高的权数。采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。抽样的关键是每个样本的选择概率是已知的。(iiP单元在第一次抽取中被抽中)=(iiP单元被选入样本)=场合:总体单元差异比较大时;抽样审计;多阶段的PSU.入样概率不同是否导致估计偏差?例如“水野法”抽样使得比估计为无偏估计量一、不等概抽样的必要性*提高估计精度*放回的PPS抽样简化方差计算应用条件:通常需要知道一个辅助变量,用以确定其入样的概率类型放回不等概抽样不放回不等概抽样逐个抽取重抽法全样本抽取;样本量随机系统抽样法二、放回的PPS抽样UiMiiM区域1881—8220289—283406829—68............(ProbabilityProportionaltoSize)也称PPZ01iiiNiiMMZMM1代码法案例累计代码10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738=738738一种多项抽样Mi100iMiMi100M02拉希里方法不需要累计,两次随机数决定抽中的单位。第一次:1-N之间的随机数i第二次:1-maxM之间的随机数m如果Mim,第i个单位被抽中UiMiiM区域1881—8220289—283406829—68............3不等概等距抽样K=M0/nMik不重复k可能重复2k肯定重复估计量对于放回不等概抽样,对总体总量的估计是汉森-赫维茨(Hansen-hurwitz)估计例如:估计超市销售额,m:员工人数解释公式意义niiiniiiHHmynMzynY1011ˆ可以证明221ˆ()()ˆ()1ˆ()(1)NiHHiiniHHiHHYVYZYnZyYZvYnn2220110ˆ11ˆˆ11nniiHHHHHHiiiiyMyYvYYnnznnmMˆ()ˆˆ()()HHHHHHEYYEvYVY例5.2某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.20510iimiyiimiyiimiy757087(元)相对误差相对误差达到20%时所需样本量?niiiHHmynMY10ˆ2.651070.13102423.381092623.3810926303676niHHiiHHMYmynnMYv12020ˆ1ˆHHHHYvYsˆˆ75708717411896.1ˆˆHHHHYYstr152302.045.02n=45%174118二、不放回不等概抽样Horvitz_Thompson估计量iji,的含义,性质:iNijNinn)1(,ininiiHTyWyYˆ,iiW1不放回的与单元大小成比例的概率抽样为πPS抽样n固定条件下的包含概率第i单位入样概率第i,j单位都入样概率NNN2iikikiiki1i1kiiik211ˆ()YYY()(//)HTNNikikiikkiKiVYYYSkSkkkii2iS2iiYY)(/Y)1()ˆ(iiikikkiiHTYv2SkSk)//()()ˆ(kkiiiiikikkiHTYYYv2ˆ()()nnijijjiHTijijyyYi=1jiˆHTYˆ()HTYˆ()HTVYˆHHYˆHTY是Y的无偏估计是的无偏估计PPSPS其他公式在某种程度上可用这两个公式表现。如:在srs中iynNYˆ(等概抽样)在srs等概抽样条件下,每个单元包含概率是nNWNniii1,则iniiHTynNyWYˆ又如,对于霍维茨——汤普森估计量iiHTyYˆ在入选概率与规模成比例条件下,i的性质为iinZ则HHniiniiHTYZynnZyYˆ1ˆπPS抽样的实施n=2条件下严格的πPS抽样布鲁尔方法德宾方法n2条件下严格的πPS抽样水野方法n2条件下非严格的πPS抽样莫蒂方法布鲁尔方法条件:所有Zi0.5逐个抽取:第一个与成比例的概率抽取第二个与成比例的概率在N-1个单元内抽取(1)12iiiZZZ1ijZZ德宾方法条件:所有Zi0.5逐个抽取:–第一个与Zi成比例的概率抽取–第二个与成比例的概率抽取11()1212jijZZZ水野方法总体差异不要太大逐个抽取:–关键:第一个单元与成比例的概率抽取–剩余的N-1个单位不放回等概抽取1(1)inZnN*(1)1()iinNZnZNnNn莫蒂方法逐个抽取:第一个单元按照Zj的概率抽取第二个单元按照Zj/(1-Zi)的概率抽取第三个单元按照Zk/(1-Zi-Zj)的概率抽取依次递推,直至第n个单位估计量:Pr(/)ˆPr()iMSiyYS作业5Q1假定所给数据为总体,1.利用前面的简单随机样本和分层样本分别估计产销国为502的审核差错率和减免税总额(假定总体中来自产销国为502的记录数未知)。2.利用PPS抽样抽取样本,写出抽样设计和过程,估计审核差错率和减免税总额,并给出估计误差P112Q4,Q5Q7
本文标题:不等概抽样.ppt
链接地址:https://www.777doc.com/doc-6567906 .html