您好,欢迎访问三七文档
第七章其他抽样方法第一节二重抽样第二节捕获再捕获抽样第三节电话调查抽样2019/8/2017.1二重抽样一、概述二重抽样(doublesampling),也称二相抽样或两相抽样(two-phasesampling),是指在抽样时分两步抽取样本,每一步抽取一个样本。一般情况下,先从总体N中抽取一个较大的样本n‘,称为第一重(相)样本,对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件。然后进行第二重(相)抽样,第二重抽样所抽的样本n相对较小,但是第二重抽样调查才是主调查。一般地,第二重样本是从第一重样本中抽取的,即第一重样本的子样本,但有时也可以从总体中独立抽取。由于样本是分两次抽取的,因此称为二重抽样。二重抽样与两阶段抽样二者都可被视为分阶段抽样方法;差异:两阶段抽样是先从总体N个单元(初级单元)中抽出n个样本单元,却并不对这n个样本单元中的所有小单元(二级单元)都进行调查;二重抽样则不同,要对第一重(相)样本进行调查以获取总体的某些辅助信息。两阶段抽样的第一阶段抽样单位和第二阶段抽样单位往往是不同的;而二重抽样的第二重样本则往往是第一重样本的子样本。二、为分层的二重抽样1、符号说明用下标h表示层数,h=1,2,…,LNh:总体第h层的单元数;总体单元数N=Nhn'h:第一重样本第h层的单元数;第一重样本单元数n'=n'hnh:第二重样本第h层的单元数;第二重样本单元数n=nhWh=:总体单元第h层的权重w'h=:第一重样本第h层的权重fhD=:第二重样本第h层的抽样比,0fhD≤1yhj:第二重样本第h层j单元的观测值,j=1,2,…,nh;h=1,2,…,L𝐲−𝐡=𝟏𝐧𝐡∑𝐣=𝟏𝐧𝐡yhj:第二重样本第h层样本单元的平均数𝐒𝟐:总体方差𝐒𝐡𝟐:第h层的总体方差s'𝐡𝟐:第一重样本第h层方差𝐬𝐡𝟐=𝟏𝐧𝐡-𝟏∑𝐣=𝟏𝐧𝐡𝐲𝐡𝐣-𝐲−𝐡𝟐:第二重样本第h层方差2.抽样方法第1步:利用简单随机抽样,从总体的N个单位中随机抽取第一重样本,样本单位数为n';根据已知的分层标志将第一重样本分层,令w'h=n'hn'(h=1,2,…,L),则w'h是总体层权Wh的无偏估计。第2步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单位数为n,第h层样本单位数为nh,n=∑h=1Lnh。3.估计量及其性质采用二重分层抽样,对总体均值𝐘−的估计量为:𝐲−𝐬𝐭𝐃=∑𝐡=𝟏𝐋w'h𝐲−𝐡(7.1)估计量𝐲−𝐬𝐭𝐃的性质如下:定理7.1估计量𝐲−𝐬𝐭𝐃是𝐘−的无偏估计,即E(𝐲−𝐬𝐭𝐃)=𝐘−(7.2)定理7.1证明证明:第二重样本是利用分层随机抽样从第一重样本中抽出的子样本,因此第二重样本第h层样本均值y−h是第一重样本第h层均值y−'h的无偏估计,即E(y−h)=y−'h。则在两次抽样下:E(y−stD)=E1E2y−stD=E1E2∑h=1Lw'hy−h=E1∑h=1Lw'hy−'h=E1y−'=Y−定理7.2y−stD的方差为:V(y−stD)=1n'-1NS2+∑h=1LWhSh2n'1fhD-1(7.3)式中,S2是总体方差;Sh2是第h层的总体方差;fhD第二重样本第h层的抽样比。定理7.2证明证明:V(y−stD)=V1E2∑h=1Lw'hy−h+E1V2∑h=1Lw'hy−h当w'h固定时,E2(y−h)=y−'h。故有V1E2∑h=1Lw'hy−h=V1∑h=1Lw'hy−'h=V1(y−')=1n'-1NS2式中,S2为总体方差。当w'h固定时,对第一重样本第h层方差s'h2,有E1(s'h2)=Sh2。E1V2∑h=1Lw'hy−h=E1∑h=1Lw'h2V2(y−h)=E1∑h=1Lw'h2s'n21nh-1n'h=E1∑h=1Lw'hs'h2n'1fhD-1=1n'∑h=1L1fhD-1E1E1(w'hs'h2|w'h固定)=1n'∑h=1L1fhD-1E1(w'hSh2)=∑h=1LWhSh2n'1fhD-1因此V(y−stD)=1n'-1NS2+∑h=1LWhSh2n'1fhD-1定理7.3V(𝐲−𝐬𝐭𝐃)的样本估计量为:v(𝐲−𝐬𝐭𝐃)=∑𝐡=𝟏𝐋𝟏𝐧𝐡-𝟏𝐧'𝐡w'𝐡𝟐𝐬𝐡𝟐+𝟏𝐧'-𝟏𝐍∑𝐡=𝟏𝐋w'h(𝐲−𝐡-𝐲−𝐬𝐭𝐃)2(7.4)v(𝐲−𝐬𝐭𝐃)是V(𝐲−𝐬𝐭𝐃)的近似无偏估计。式中,𝐬𝐡𝟐是第二重样本第h层方差。当二重抽样比𝐧𝐡𝐧'𝐡和𝐧'𝐍都可以忽略不计时,式(7.4)可简化为:v(𝐲−𝐬𝐭𝐃)≈∑𝐡=𝟏𝐋𝐰'𝐡𝟐𝐬𝐡𝟐𝐧𝐡+𝟏𝐧'∑𝐡=𝟏𝐋w'h(𝐲−𝐡-𝐲−𝐬𝐭𝐃)2(7.5)【例7.1】某银行要调查其客户的资产情况。已知该银行的客户数为8000,针对客户规模差异较大的特点,拟采用分层抽样。但由于缺乏现有的分层资料,决定采用二重分层抽样方法,第一重样本量n'=1000,根据其自报的资产情况可分为4层:第一层为300万元以下;第二层为300万元~1000万元;第三层为1000万元~2000万元;第四层为2000万元以上。然后在第一重样本分层的基础上,在各层分别抽取第二重样本。第二重样本量n=nh=200。通过对这200位客户进行详细的调查,取得有关数据整理如表7—1,试估计该银行所有客户的资产总额及其抽样标准误差。表7—1某银行客户的样本数据分层第一重样本第二重样本样本均值y−h(百万元)∑jyhj2sj2300万元以下5408024001.01300万元~1000万元32060731002.711000万元~2000万元1004015960015.382000万元以上40204045120690.53合计1000200解:根据表7-1,可计算各层的权重:𝑊1,=0.54,𝑊2,=0.32,𝑊3,=0.10,𝑊4,=0.04(1)根据式(7.1),该银行客户的平均资产额估计为:𝑦𝑠𝑡𝐷=𝑊ℎ,𝑦ℎ𝐿ℎ=1=6.42(百万元)该银行共有8000客户,故全部客户资产总额为:𝑌=𝑁𝑦𝑠𝑡𝐷=51360(百万元)(2)根据式(7.4),𝑦𝑠𝑡𝐷的方差估计为:𝑣𝑦𝑠𝑡𝐷=(1𝑛ℎ−1𝑛ℎ,)𝑤ℎ2𝑠ℎ2𝐿ℎ=1+1𝑛,−1𝑁𝑤ℎ,𝑦ℎ−𝑦𝑠𝑡𝐷2𝐿ℎ=1=0.0368+0.0552=0.092该银行客户资产总额的抽样标准误的估计:s𝑌=Ns𝑦𝑠𝑡𝐷=2426.52(百万元)4.二重分层抽样样本量的最优分配二重分层抽样中有两次抽样,这两次抽样的样本量,即n'和n,直接影响估计的精度。第一重抽样n'越大,对分层信息的了解和估计就越精确,从而可以减少估计量的方差;同样,第二重抽样n越大,估计量的方差越小。调查经费是有限的,因此需要在给定的费用条件下,选择n'和n,使得估计量的方差V()最小。假设第一重抽样的单位平均调查费用为c1(一般情况下,第一重抽样的单位平均调查费用都比较小),第二重抽样第h层的单位平均调查费用为c2h(h=1,2,…,L)。忽略其他费用,则费用函数可以表示为:CT=c1n'+∑h=1Lc2hnh(7.6)由于nh是随机变量,所以选择n'和fhD的期望费用CT*为:CT*=E(CT)=c1n'+n'∑h=1Lc2hfhDWh(7.7)根据式(7.3),总体均值估计量的方差为:V(y−stD)=1n'-1NS2+∑h=1LWhSh2n'1fhD-1(7.8)要在一定的费用约束下令估计方差最小化,则有L=V(y−stD)+λ(CT*-c1n'-n'∑h=1Lc2hfhDWh)=1n'-1NS2+∑h=1LWhSh2n'1fhD-1+λ(CT*-c1n'-n'∑h=1Lc2hfhDWh)(7.9)由∂L∂n'=0及∂L∂fhD=0得fhD=Shc1c2h(S2-∑h=1LWhSh2)n'=CT*c1+∑h=1Lc2hWhfhD(7.10)在实际应用中,要确定最优的n'和fhD,需要对总体事先有一定的了解,例如对S2,Sh2,Wh有一些粗略的估计。5.在无回答中的应用无回答(nonresponse)是指在调查中,由于种种原因没能获得按照原调查设计应获得的所有信息的现象,也称为缺失值(missingdata)或不完全数据(incompletedata)。如果无回答数据与回答数据在调查项目的数量特征上存在系统差异,即Y−回答层≠Y−无回答层,会使基于回答者的估计量出现偏差,即E(y−回答)-Y−=Y−回答-N回答NY−回答+N无回答NY−无回答=N无回答N(Y−回答-Y−无回答)该偏差取决于无回答层占总体的比例以及回答层和无回答层的差异。使用二重抽样方法对无回答样本进行二次抽样调查,其估计量优于仅根据回答数据的估计量,如果对无回答层的二重抽样中能得到完全回答,甚至可以消除无回答偏差。关于二重抽样对无回答数据的调整估计量参见第10章的相关内容。三、为比率的二重抽样一般来说,只要研究变量与辅助变量存在较强的正相关关系,比估计的估计精度就优于简单估计。但使用比估计的前提之一是已知辅助变量的有关信息。假设研究的变量为Y,辅助变量为X,在估计总体均值Y−时,需要辅助变量总体均值X−,才能计算Y−^=RX−;在估计总体总量Y时,需要辅助变量总量X,才能估计Y^=RX。在实际工作中,如果辅助变量的信息未知,可以利用二重抽样进行比估计。下面以对总体均值Y−的估计为例进行讨论。1.二重抽样比估计的抽样方法第1步:从总体的N个单位中随机抽取第一重样本,样本单位数为n';对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值x−'=1n∑i=1n'x'i估计总体均值X−。第2步:从第一重样本中随机抽取出第二重样本,样本单位数为n;对于第二重样本,观测研究变量与辅助变量,并用获得的y−和x−,计算R^=y−x−,构造比估计。2.二重抽样的比估计及其性质(1)二重抽样比估计二重抽样对总体均值Y−的比估计:y−RD=y−x−x−'(7.11)式中,y−,x−分别是第二重样本研究变量与辅助变量的样本平均数;x−'是第一重样本辅助变量的平均数。(2)二重抽样比估计的性质定理7.4与简单随机抽样下的比估计一样,y−RD是个有偏估计,其偏差随着样本量的增大而缩小。当第二重样本的样本量n足够大时,y−RD=y−x−x−'是近似无偏的。即E(y−RD)≈Y−(7.12)因为在第二重样本的n足够大时,E2(R^)≈R',式中,R^=y−x−,R'=y−'x−',所以E(y−RD)=E1E2y−RD=E1x−'E2(R^)≈E1y−'=Y−因此,y−RD是Y−的近似无偏估计。定理7.5二重抽样比估计的方差为:V(y−RD)=V1E2(y−RD)+E1V2(y−RD)≈V1y−'+E1(x−')2V2(R^)≈1n'-1NSy2+1n-1n'(Sy2+R2Sx2-2RSyx)(7.13)通常1N可忽略,因此V(y−RD)≈1nSy2+1n-1n'(R2Sx2-2RSyx)(7.14)式中,Sy2,Sx2,Sxy分别为Y和X的总体方差和总体协方差,R=Y−X−。定理7.6二重抽样比估计方差的样本估计:v(y−RD)=1nsy2+1n-1n'(R^2sx2-2R^syx)(7.15)式中,使用Y的第二重样本方差sy2估计总体方差Sy2;使用X的第二重样本方差sx2估计总体方差Sx2;使用Y和X的第二重样本协方差sxy估计总体协方差;使用第二重样本比率R^=y−x−估计总体比率R=Y−X−。【例7.2】某住宅小区共有200个住户,现欲估计小区住户家庭月平均收入的平均水平。家庭收入的数据不易调查,而家庭支出的资料相对容易获取,而且家庭月平均收入与家庭月平均支出之间强相关,因此拟采用二重抽样比估计方法。先从住户中随机抽取100个住户作为第一重
本文标题:抽样技术-第7章
链接地址:https://www.777doc.com/doc-418515 .html