您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样调查-第4章比率、回归与差值估计
返回§4.1引言一、概念在实际工作中,如果除了调查的目标量以外,还有其他指标的信息,称这些指标为辅助变量,(auxiliaryariable)。人们总希望利用辅助变量与目标量之间的关系来提高估计的精度。这就是本章所要介绍的方法(不是抽样方法,而是估计方法)。返回通常使用的方法是:利用调查指标与辅助变量之间的关系构造比率估计量和回归估计量。例如,要调查家庭教育支出,则家庭的总支出就是辅助变量,家庭用于教育的支出占总支出的比重就构成了比率估计量。返回二、应用条件(1)比率估计、回归估计需要用到辅助变量的总体均值或总体总量;(2)如果辅助变量的总体均值或总体总量未知又要利用比率估计或回归估计,则可采用二重抽样的方法;(3)比率估计是有偏估计,因此需要有足够的样本量才能保证估计的有效。返回三、符号说明设调查指标为iY,辅助变量为iX总体总量:,1NiiYYNiiXX1总体均值:NiiYNY11NiiXNX11总体方差:NiiyYYNS122,)(11NiixXXNS122,)(11返回样本均值:NiiyNy11NiixNx11样本方差:niiyyyns122,)(11niixxxns122,)(11总体协方差:NiiixyXXYYNS1),)((11样本协方差:niiixyxxyyns1),)((11总体相关系数:yxxySSS样本相关系数:yxxysss返回§4.2比率估计一、简单随机抽样下的比率估计1.定义比率估计量(ratioestimator)又称比估计对于简单随机抽样,总体均值Y和总体总量Y的比率估计为:,XxyXxyyiiRRiiRyNXxyXxyY总体比率:,iiXYXYR总体比率估计量:.iixyxyR返回2.比估计的性质简单随机抽样比率估计是有偏的,其偏倚的阶为)1(no,当样本量n较大时,估计量的偏倚趋于零.因此,比率估计是渐近无偏的.性质1对于简单随机抽样比率估计,当样本量n较大时,RYyRR及,,是渐近无偏的.即,)(YyER,)(YYER.)(RRERYyRR及,,的方差为:返回NiiRRXYNnfyV12)(111)()2(1222xyxyRSSRSnfNiiRRXYNnfNYV122)(11)1()()2()1(2222xyxyRSSRSnfNNiiRXYNXnfRV122)(111)()2()1(22222xyxyRSSRSXnfN返回)(1Rv)2(12222xyxysRsRsXnf)(2Rv)2(12222xyxysRsRsxnf或式中yxxySSS,,22分别为Y,X的总体方差和总体协方差;yxxysss,,22分别为Y,X的样本方差和样本协方差.),()(2RVXyVR),()(2RVXYVR可通过)()(21RvRv或估计.返回【例4.1】对以下假设的总体(N=6),用简单随机抽样抽取n=2的样本,比较简单随机抽样比率估计及简单估计的性质。i123456均值XiYi011331151882910464.518解:对这个总体,我们列出所有可能的1526C个样本,以比较简单估计与比率估计的性质。返回i样本简单估计()比率估计()1234567891011121314151,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.5181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.75yRy返回由此,可以算出:18155.3762151)(151iiyyE86667.97))((151)(1512iiyEyyV68644.171575.181818151)(151iRiRyyE31356.01868644.17)()(YyEyBRR151282345.2))((151)(iRRiRyEyyV92177.2)31356.0(82345.2)()()(22RRRyByVyMSE返回由计算结果可以看出:简单估计是无偏的,而比率估计是有偏的。简单估计量的方差远远大于比例估计量的方差,比率估计的偏倚不大,其均方误差也比简单估计的方差小得多。因此,对这个总体,比率估计比简单估计的效率高。返回【例4.2】某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨。从2860艘船舶中抽取一个n=10的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如表(单位:吨),要推算该县船舶调查月完成的货运量。返回ii1234578015001005376600100505010206789102170182314501581370120150802050iyiyixix解:已知:N=2860,n=10,X=154626由表可得,2.1123101101iiyy65101101iixx1012207.421179)(1101iiyyys返回1012211.2161)(1101iixxxs101222.23382)()(1101iiiyxyyxxs因此,对该县船舶在调查月完成货运量的比率估计为:2671937154626652.1123XxyYR方差的估计为:)2()1()(2222yxxyRsRsRsnfNYv=2.10617×1110返回RY标准差的估计为:458930)()(RRYvYs如果用简单估计对货运量进行估计,则,3212352yNY11221043303.3)1()(ysnfNYv585921)()(YvYs由此,得到比率估计量设计效应为:6135.0)()(YvYvdeffR对于本问题,比率估计量比简单估计量的效率高!返回3.消除比率估计偏倚的方法由于比率估计是有偏估计,在小样本时,其偏倚不能忽略.则需要通过改善估计量或改变抽样方法使比率估计成为无偏估计.1.无偏的比率估计量第一种:Hartley--Ross估计量)()1()1(xryXnNnrRHRniiiniixynrnr1111式中返回第二种:Mickey估计量)()1()1(xryXnNnRRMiyixniiiniixynRnR1111其中,分别是在n个样本数据中去掉第i个样本数据后剩下的n-1个样本数据的平均值.返回二、分层随机抽样下的比率估计1.分别比率估计总体均值Y总体总量Y的分层比率估计(separateRatioestimator)为:hLhhhhLhRhhRsXxyWyWy11总体均值:总体总量:LhRhhLhhhRsRsYXxyyNY11:hW层权L:层数hy的简单估计为hY:hx的简单估计为hX:Rhy为hY的比率估计,RhY为hY比率估计返回比率估计量的方差:)2()1()(22212xhyhhhxhhyhLhhhRsSSRSRSnfWyV)2()1()(22212xhyhhhxhhyhLhhhRsSSRSRSnfNYV式中,hxhyhhhhSSNnf;;;22分别为第i层指标Y,X的方差及相关系数.分别比率估计量要求每一层的样本量都比较大,否则,偏倚可能比较大.返回2.联合比率估计(combinedratioestimator)总体均值:XRXxyycststRc总体总量:XRXxyYcststRc式中:sty表示Y的无偏估计;stx表示X的无偏估计.均方误差为:)2()1()()(22222yxhxhyhhhRcRcRSSRSnNfNyVyMSE)2()1()()(2222yxhxhyhhhRcRcRSSRSnfNYVYMSE返回3.分别比率估计量与联合比率估计量的比较一般而言,分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。实际使用时,如果各层的样本量都较大,且有理由认为各层的比率Rh差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率Rh差异很小,则联合比率估计更好些。返回【例4.4】某市1996年对950家港口生产单位完成的吞吐量进行了调查,1997年欲对全市港口生产单位完成的吞吐量进行调查。对港口生产单位按非国有(h=1)和国有(h=2)分为两层,单位数分别为800家和150家,分别在两层中调查了10家和15家港口生产单位,调查数据如下表,试计算1997年全市港口生产单位完成的吞吐量。1997年国有和非国有企业调查数据如下页返回ixiyiixiyi19580149553022202102210320335938433604964120117423040051771805600651625325861000880730234977005608332286811001230927221597208231013797103103901147846512817650139191160141160107015735698返回(将上述数据计算的中间结果列于P77的表中)1.按分别比率估计量估计68.91938925)2()1()(5.2725362221221yxhhxhhyhLhhhhRShhhRSsRsRsnfNYvXRY返回2.按联合比率估计量估计84.86293698)2()1()(1.271956274300279700277310222212yxhxhyhLhhhhRCststRCsRsRsnfNYvXXYY按联合比率估计量估计比按分别比率估计量估计要好一些!返回三、比率估计的效率1.与简单估计的比较简单估计量是无偏的,而比率估计量是渐近无偏的.因此,这里只比较当n比较大的情形.由以前的讨论可知:21)(hSnfyV)2(1)(222xyxyRSSRSRSnfyV由此看出,比率估计量优于简单估计量的条件是:0222xyxSSRSR)()(yVyVRyxCC2有当返回2.比率估计成为最优线性估计的条件⑴iy与ix的关系是过原点的直线;⑵iy对这条直线的方差与ix成比例。比率估计量优于简单估计量。特别当yxCC时,21,这里,.,YSCXSCyyxx返回§4.3回归估计一、回归估计的定义对于简单随机抽样,总体均值Y和总体总量的回归估计量(regressionestimatior)的定义为:Y)()(XxyxXyylrlryNY式中,xy,是样本均值;为事先设定的一个常数如果β=0,则回归估计量就是简单估计量;如果,xy则回归估计量就是比率估计量。返回二、为常数的情形当回归系数为事先给定的常数时,或以前为相同目的进行的调查所得到的iY对iX的样本回归系数稳定在某个数值上,取最近一次调查所得的作为设定值。性质2对于简单随机抽样回归估计量,作为Y及Y的回归估计,lrlrYy及都是无偏的。即,)(YyElr.)()(YyNEYElrlrlrlrYy和的方差分别为:返回)2(1)(02202yxxylrSSSnfyV)2()1()(022022yxxylrSSSnfNYV
本文标题:抽样调查-第4章比率、回归与差值估计
链接地址:https://www.777doc.com/doc-418869 .html