您好,欢迎访问三七文档
假设总体由N个初级单元组成,每个初级单元又由若干个二级(次级)单元组成,若在总体中按一定的方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,这种抽样被称为二阶段抽样。如果每个二级单元又由更小的三级单元组成,那么可以对每个被抽中的二级单元中的三级单元再进行抽样,则整个抽样过程就是三阶段抽样。以此类推,可以定义更高阶的多阶段抽样。二阶段抽样中,一个估计量的均值可以表示为二阶段抽样中,一个估计量的方差可以表示为。12ˆ()[()]EEE1212ˆ()[()][()]VVEEVˆ证明:令ˆ()E22222222222ˆ()()2()[()]()2()EEEEVE2212ˆ()()[()]VEEEˆ根据12ˆ[()]EE有221212()[()][()]VEEEV1212ˆ[()][()]VEEV初级单元大小相等时的二阶段抽样设总体划分为N个初级单元,每个初级单元中含有M个次级单元。为总体第i个初级单元中第j个次级单元的指标值。1MiijjYY为总体第i个初级单元的指标和。11MiijjYYM为总体第i个初级单元指标按次级单元的平均数。11111NNMiijiijYYYNNM为总体按次级单元的平均数。ijY符号说明22111()1NiiSYYN为总体初级单元间的方差。222111()(1)NMijiijSYYNM为总体初级单元内的方差。从总体的N个初级单元中抽取n个初级单元,并从每个被抽中的初级单元中抽取m个次级单元组成样本。为样本第i个初级单元中的第j个次级单元的指标值。ijy1miijjyy为样本第i个初级单元的指标和。11miijjyym11111nnmiijiijyyynnm为样本按次级单元的平均数。22111()1Niisyyn为样本初级单元间的方差。222111()(1)nmijiijsyynm为样本初级单元内的方差。如果采用简单随机抽样的方法,第一阶段抽出n个初级单元,第二阶段从每个抽中的单元中抽出m个次级单元,其中每个初级单元都含有M个次级单元,且对每个初级单元,第二阶段抽样都是相互独立的,则样本按次级单元的均值是总体均值的无偏估计,即()EyY(一)总体均值的估计yY且方差为22121211()ffVySSnnm证明:11112211[((())])nniiiiEyyynnEEEE11111nniiiiYYYnEN22121212121111212112211212212121111()111()1111()[()][()](11)()1()1(iinniiiiMijinnjiiiNiniiiVyVEyynnYYfYnmMyEVyYYffSnNmnnVEEVffSSVEnnmnNE)N22121211ffSSnmn的无偏估计量是22112121(1)()fffvyssnnm证明:()Vy22221221211212112111222211()()()(1)11()(1)11()11nmijiijnmijiijnMijiijNiiEsEEsEEyynmEEyynmEYYnMSSN2221212222i=1222222122222222221111222222111[(1)]()()()[()]()[()]()1111..11NiininiiinnnniiiiiiiinnniiiiiiEnsEyyEynEyEyVynEyVyffYSnYnSmnnmfYnYSnm22212222111(1)(1)niinniniiifSnmnfYYSnm11nniiYYn其中2211212221121122212()()111nniniiiEsEEsYYSfEEnmnfSSm221121222112122222112121222212121(1)[]1(1)()()1(1)(1)(1)11fffEvyEssnnmfffEsEsnnmfffffSSSnnmnmffSSnnmVy总体总量的估计值为,方差的无偏估计为(二)总体总值的估计YNMyY22()()vyNMvy(三)总体比例的估计1MiijjAY为总体第i个初级单元中具有某种特征的次级单元数iiAPM为总体第i个初级单元中具有某种特征的次级单元比例1miijjay为样本第i个初级单元中具有某种特征的次级单元数iiapm为样本第i个初级单元中具有某种特征的次级单元比例总体中具有某种特征的次级单元对总体中所有次级单元数比例P的无偏估计量为11111nnmiijiijppynnmp总体中具有某种特征的次级单元对总体中所有次级单元数比例P的无偏估计量的方差为()Vp21211111()()1(1)NNiiiiiffMVpPPPQnNnmNM的一个无偏估计为()Vp21122111(1)()()(1)(1)(1)nniiiiifffvpppppnnnm初级单元大小不等的二阶段抽样等概率抽取初级单元设总体划分为N个初级单位,各初级单位中所包含的次级单元数为:(i=1,2,…,N)。iM01NiiMM为总体所包含的次级单元总数。NoMM为各初级单元中所包含的次级单元数的均值。0011111//iMNNNiijiiiijiiMYYMMYMYNM=为总体按次级单元平均。(一)总体均值估计22221211(1)11()()()(1)NNiiiiiiiiMMffVyYYSnNMNnMm估计量方差的样本估计为:22221211(1)11()()()(1)nniiiiiiiiMMffvyyysnnMnNMm两个阶段都采用简单随机抽样,则全部次级单元的总体均值的估计量为11111imnniiiijiijiMMyyynMnMmy可以证明,估计量是无偏的。其方差为:两阶段均采用等概率抽样0011111//iMNNNiijiiiijiiMPYMMPMPNM=样本比例为:11111imnniiiijiijiMMppynMnMm=(二)总体比例估计总体比例为:2222111(1)11()()()()(1)(1)NNiiiiiiiiiMMffVpPPPPnNMNnMm估计量方差的样本估计为:2222111(1)11()()()()(1)(1)(1)nniiiiiiiiiMMffvpppppnnMNnMm估计量p是无偏的,其方差为:如果总体中每个单元的入样概率是不相等的,则这种随机抽样方式就称为不等概率随机抽样,简称不等概率抽样。最常用且较为简单的不等概率抽取初级单元的方法是以各初级单位所包含的次级单元数在总体全部次级单元总数中所占的比重来确定的。不等概率抽取初级单元在不等概率抽样中,如果是放回抽样,且每个单元的入样概率与其大小或规模严格成比例,即当n固定时,记,则称抽样形式为PPS抽样。在不等概率抽样中,如果是不放回抽样,且每个单元入样概率与其大小或规模严格成比例,即当n固定时,记,则称抽样形式为严格的PS抽样。0iiMMiMiM0iiMM01NiiMM其中在不等概率抽样中,如果是放回抽样,且每个单元的入样概率与其大小或规模严格成比例,即当n固定时,记,则称抽样形式为PPS抽样。在不等概率抽样中,如果是不放回抽样,且每个单元入样概率与其大小或规模严格成比例,即当n固定时,记,则称抽样形式为严格的PS抽样。iM0iiMM2222221100(1)11()()NNiiiiiiiiiiiMYMfVyYSnMnMm2101()()(1)niiiiMyvyynnM估计量的方差为:y估计量方差的无偏估计量为:y对于二阶段抽样,若第一阶段抽样按放回的多项抽样抽取初级单元,第i个初级单元被抽中的概率为则全部次级单元的总体均值的无偏估计量为101niiiiMyynMi1(1)Nii若在第一阶段采用PPS抽样抽取初级单元,而在第二阶段采用简单随机抽样抽出次级单元,则总体均值的估计量为111nmijijyynm其方差的无偏估计量为:211()()(1)niivyyynn若在第一阶段采用PPS抽样抽取初级单元,而在第二阶段采用简单随机抽样抽出次级单元,则总体比例的估计量为11niippn其方差的无偏估计量为:211()()(1)niivyppnn11miijjpym其中最优样本量m和n的确定在设计二阶段抽样方案时,第一、第二阶段的抽样数目n、m应如何确定,才能使抽样误差最小,这就是二阶段抽样法的最佳分配问题。012TCCCnCmn利用拉格朗日求极值的方法可以求得:2122212//SmCCSSM设全部费用为,如初级单元之间的旅费忽略不计,已被证明较为合适的一种费用函数为:TC当m确定后,根据给定的总费用或估计量方差V可以求出n,从而确定了最优的和。TC1f2f【例1】欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个含有5家样本企业的简单随机样本,由于填报一个月的数据需要每月填写流水帐,为了减轻样本企业的负担,调查人员对这5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水帐。调查的结果如下表所示。对5家企业的调查结果样本企业第一日第二日第三日15759642384150351606344853495625554要求根据这些数据推算100家企业该指标的总量,并给出估计的95%置信区间。解:对这个问题,我们可以利用两阶段的思路解决。首先将企业作为初级单位,将每一天看作二级单位,每个企业在调查月内都拥有30天(即拥有30个二级单位)。在这个问题中,调查人员首先在初级单位中抽取了一个n=5的简单随机样本,然后对每个样本的二级单位分别独立抽取了一个m=3的简单随机样本,这就是初级单位大小相等的两阶段问题。由题意,N=100,M=30,n=5,m=3150.05100nfN230.1030mfM1153.6niiyyn2211149.31niisyyn22221123.4niissn12221121()9.34721fffvyssnnm1003053.6160800YNMy2222()()100309.437284934800VYNMvy()()849348009216.0078SEYVY在置信度95%的条件下,对应的z=1.96,因此,置信区间为:60800±9216.0078,或者说在142736.6~178863.4之间。
本文标题:多阶段抽样
链接地址:https://www.777doc.com/doc-5143104 .html