您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第五章比估计与回归估计(抽样调查理论与方法-北京商学
前面讨论的简单随机抽样和分层抽样,我们所关心的参数都是单指标的,给出的估计量也是线性形式。这一章我们将要讨论比较复杂的情况,我们关心的参数不再是单指标的而是两个或两个以上的指标。此时,遇到的统计量不再是线性形式,往往呈现出非线性形式,比如两个变量之比,或呈现变量之间的回归关系。第五章比估计与回归估计所谓回归关系就是变量之间的关系不是确定的,是带有随机影响的。比如身高和体重的关系,身高增加时,一般来说,体重也会增加,但又不能说一定如此。要确定身高和体重的关系,一般用回归的方法。这类问题首先是由英国统计学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发现儿子的身高有回到家族平均身高的趋势,因而把所得关系式称为回归方程,于是回归的名词就沿用下来了。§1比估计及其性质设有一个二元变量的总体:(,)XY1122(,),(,),,(,)NNXYXYXY有4个参数是我们所熟悉的:XY、————指标的平均数XY、2211()1NXiiSXXN2211()1NYiiSYYN——指标的方差XY、如果简单随机样本为,则及的估计为:(,)(1,2,,)iixyin(,)CovXY在研究比估计之前,再引进一个新的参数——变量之间的协方差:11(,)()()1NiiiCovXYXXYYN(5.1)XY、之间的相关系数定义为:(,)()()CovXYVarXVarY1112211()()()()NiiiNNiiiiXXYYXXYY(5.2)11()()1nxyiiiSxxyyn(5.3)1112211()()ˆ()()niiinniiiixxyyxxyy(5.4)在讨论比估计之前,先考察总体的两个平均数之比,即RYX由于分别是的无偏估计,的估计自然定义为,xyXY,RˆRyx假如或已知,总体平均数与总体总和的比估计量定义为:XXYYˆRyyyRXXXxx(5.5)ˆRyyyRXXXxx(5.6)通常的比估计是指(5.5)式与(5.6)式,而则称为比值的估计。ˆRR由(5.5)式与(5.6)式可知,与的习性主要依赖于估计量,因此在不少场合,我们常用来说明。ˆRˆRRyRy尽管分别是的无偏估计,由于的非线性形式,因此关于是有偏的,从而关于也是有偏的。,xyXY,ˆRˆRR,RRyy,YY一个合理的估计量,应该随着样本容量n的增加,估计量的期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”比估计是否渐近无偏呢?利用Taylor展开式,有将比估计表示为:ˆRyxˆ(1)yyRxXxXX2ˆ1yyxXxXRxXXX21yxXxXXXX(5.7)当n相当大时,与相当接近,而是常数,又是的无偏估计,因此,实质上,所以。xXXYyˆ()ERRˆRyX(5.7)式的好处不单单告诉我们这一事实,而且告诉了我们,当n相当大时,,表明可以表示成的平均数,因此的分布可近似正态分布ˆ()ERRˆRyXˆR(1,2,,)iyXinˆR因此,可利用近似标准正态分布获得的置信区间ˆˆ()RRVarRR而22221ˆ()(2)YXXYfVarRSRSRSnX(5.8)另外2221()(2)RYXXYfVarySRSRSn(5.9)2222(1)()(2)RYXXYNfVarySRSRSn(5.10)公式(5.8)、(5.9)、(5.10)为我们提供了的估计量的形式。具体计算时,只要将分别换为即可。我们将由此得到的估计量分别记为:ˆ(),(),()RRVarRVaryVary22,,,XYXYSSSR22ˆ,,,XYXYsssRˆ2)XYRsˆ()vR22221ˆ(YXfsRsnx2221ˆ(YXfsRsnˆ2)XYRs()Rvy2222(1)ˆ(YXNfsRsnˆ2)XYRs()Rvy那么,的置信水平为的置信区间分别为:,,RYY(1)21()RuvyRy(,)21()RuvyRy21ˆ()uvRˆR21ˆ()uvRˆR(,)(5.11)21()RuvyRy(,)21()RuvyRy下面说明比估计的优点。主要针对与来说明,因为它们仅相差一个常数因子,因此,只需讨论其中一个就可以。RyRy当n充分大时,2221()(2)RYXXYfVarySRSRSn21()YfVarySn而欲使,仅需()()RVaryVary2220XXYRSRS或2220XXYRSRSS即11222XXXYYYRSSXCSSYC(5.12)(5.12)表明,如果变量X与Y正相关,且相关程度非常密切的话,那么比估计的精度高于简单随机抽样的精度。如果相关程度不那么密切(),此时已知的X信息并没有较多地提供Y的信息,借助X来推断也许会“帮倒忙”假如X与Y是负相关,则更不能采用比估计方法,此时应采用所谓乘积估计,即:Y2XYCC当n充分大时,且满足:1122XXYYSXCSYC(5.14),ppxyxyyyNXX(5.13)成立()()RVaryVary例5.1某县小麦种植面积为218756亩,分布在N=576个村,为估计全县产量,随机无放回地抽取n=24个村,所得数据如下123456789101112131415161718192021222324112.0129.1208.2158.5110.2123.3157.7154.298.7112.7125.560.3302361608444298349416428258347351158105.780.5163.098.7137.8141.2152.5142.5136.7153.293.0179.8308217492280378386428390376432261483i村i村()iy产量吨()iy产量吨()ix面积亩()ix面积亩每个村有两个指标:面积和产量,即:ixiy(,)iixy经计算可得:364.625x130.625y21112.195xs29498.505ys3213.110xys218756X218756379.7847576X所以该县平均亩产小麦估计为:130.625ˆ0.358245()364.625yRx吨亩ˆ2187560.35824578368.2()RyXR吨采用比估计可得和分别为:Ry()Rvy2222(1)ˆ(yxNfsRsnˆ2)xyRs()Rvy385080仅利用数据估计该县小麦总产量与估计量方差分别为:yY576130.62575240()yNy吨22(1)()14734359yNfvysn显然,的方差远远小于的方差。理由很清楚!小麦亩产量与土地拥有量呈现正相关,且相关程度相当密切,因此,在抽样调查中对每个村了解有关产量和土地亩数,利用已知该县土地的固有已知数,能比较精确地推断总产量。事实上在实际操作中人们正是这样去做的!Ryy现在来求总产量的95%的置信区间,首先置信区间为:21()RuvyRy(,)21()RuvyRy()620.55()Rvy吨20.97511.96uu(77152,79584)§2分层抽样中的比估计1、分别比估计设总体分为k层,第h层的样本均值记为,在该层中与的比估计记为,又记和为第h层中指标的平均数与总和,与分别为该层中的方差和协方差,若换为,换为,则显然表示该层样本的方差和协方差。,hhyxhYhY,RhRhyyhXhXX22,YhXhSSYXhS,YXSs,YX,yx我们可以得到有关总体和的分别比估计为:YY分层抽样中的比估计有两种:一是分层之后,先在各层获得比估计,然后按层权平均得到总体参数估计;二是先对作分层估计,然后再采用比估计方法。前者称为分别比估计,后者称为联合比估计。,YX1111kkkhhRShRhhhhhhhhhyyyWyWXXxNx(5.15)11kkhRSRShRhhhhyyNyXyx(5.16)由上节可知,各层中的是的渐近无偏估计量,因此是的渐近无偏估计量:RhyhYYRSy各层的抽样又是独立进行的,由(5.10)式,可以近似得到的方差或均方误差,当各个都相当大时:RSyhn1()()kRSRhhEyEyY(5.17)()()RSRSMSEyVary22221(1)(2)khhYhhXhhYXhhhNfSRSRSn(5.18)hhhYRX(5.17),(5.18)告诉我们,即使每层相当大,但如果层数k比较大,由于误差的积累,产生的偏倚与误差可能相当大。hnRSy2、联合比估计而的相应(联合)比估计可以写成:,YY将分别进行分层估计,然后相比即得总体的两个指标平均数之比的估计:,XYˆststcststyyRxx(5.19)ˆstRccstyyRXXx(5.20)stRcRcstyyNyXx(5.21)为与分别比估计进行比较,我们讨论联合比估计的期望和方差。当n相当大时,有()()RcRcMSEyVary22221(1)(2)khhYhXhYXhhhNfSRSRSn(5.23)RYX其中为总体的比值。()RcEyY(5.22)(5.22)表明,是的渐近无偏估计,(5.23)与(5.18)非常相似,唯一不同的是在(5.18)中用的是各层的比值,而(5.23)中用的是总体的比值。RcyYhRR3、分别比估计与联合比估计的比较()()RcRsVaryVary22221(1)[()2()]khhhXhhYXhhhNfRRSRRSn(5.24)22221(1)[()2()()]khhhXhhhYhXhhXhhhNfRRSRRSSRSn仅就总体总和进行比较。如果各层的相当大,由(5.18)和(5.23)可得:hn当对一切h有时,这两种估计方差相同,也就是说当分层对比值并无多大意义情况下,谈论分别比估计与联合比估计孰优孰劣已经无多大意义。hRR然而,如果各层有自己的特色,不可能在每一层均等于,此时倘若对每一层来说,与之间的关系是比例关系,即,此时,于是(5.24)式内求和式内每一项中括号内第二部分等于零,这样显然有hRRhiYhiXhihiYkXhYhhXhSRS()()RcRsVaryVary即“分别比估计”比“联合比估计”精度高一些。其实,只要比估计非常有效,即对一切h,时,这一项值相对地就小,此时中括号中均以第一部分占主导地位,仍有()()RcRsVaryVary2hXYCC当然,有些层的不是相当大,这种场合分别比估计的偏倚可能很大而使总的均方误差增大,于是我们宁可采用联合比估计的方法。hn§3数值例子例5.2某地区有976个自然村,根据该地区的地貌将各村所属耕地划为三种类型,各村按类型上报了耕地面积(以亩计算)为核实这些上报数据,采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实,倘若以X表示上报数据,以Y表示实测数据,抽样结果如下表:1h2h3hiii1iy1ix2iy3iy2ix3ix1234567891012418589611132934838621647654848117494588411131031792586609599827123456710309311039110194156193088599680599583154580765262797414991200125452758574111301140952123456有关计算结果及其它数据如下表:hhNhWhXhnhyhxˆhhhyRx2yhS2xhSyxhS976N826800X23n933.6087y847.7826xˆ1.101236y
本文标题:第五章比估计与回归估计(抽样调查理论与方法-北京商学
链接地址:https://www.777doc.com/doc-419829 .html