您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 自举-bootstrap
第6章自举估计方法对于大多数计量经济模型的参数估计量和相关检验统计量,精确的有限样本分布是不容易获得的。于是,传统计量经济学往往基于它们的渐近理论进行统计推断,即借助渐近正态分布或2χ分布进行模型或参数的显著性检验。例如,模型约束条件的LR检验、LM检验和Wald检验。然而,多数统计量的有限样本精确分布与其渐近分布存在严重的区别,因此,基于渐近分布的假设检验增加了犯统计推断错误的风险。Efron(1979)提出的自举方法为计量模型的估计和检验提供了一种近似的替代方法。自举类似于蒙特卡罗模拟,从观测数据的经验分布或拟合分布中抽样以得到统计量的近似分布,并基于该近似分布进行统计推断。但是,与传统模拟方法一样,自举法也依赖于渐近理论,只有在充分大的自举样本下,自举法才具有较精准的统计推断效果。本章将从两个方面讨论自举推断方法,首先,在统计量的标准差难以计算时,如何运用自举方法对统计量的标准差进行统计推断;然后,研究较复杂的有限样本自举推断方法。实际上,对于独立同分布的自举样本,且统计量是光滑N一致统计量时,统计量标准差的自举估计量较容易实现。但是,对于样本不是独立同分布或者统计量是非光滑估计量和非参数估计量等其它情形,自举推断较复杂。一般来说,理论界和实务界对这两部分内容的偏好不同,应用研究者喜欢前者,而理论界更倾向于后者。自举法不仅常常用于模型参数的估计,而且自举法也被广泛应用于区间估计、估计偏倚分析和假设检验。有关自举方法的详细内容,请读者参考文献Chernick(2008)。Chernick,M.R.,2008,BootstrapMethods:AGuideforPractitionersandResearchers(2nded),JohnWiley&Sons,Inc.§6.1自举方法本节用{w1,...,wN}表示独立同分布的样本,iw=(iixy,),i=1,2,…,N;设ˆθ是参数θ的光滑渐近正态分布的一致(N一致)估计量,jˆθ表示ˆθ中的第j个元素。例如,回归参数估计量ˆθ、标准误差ˆθs、t统计量()0jˆjθˆtθθs=−,其中,0θ是零假设下回归参数的值。6.1.1.简单自举法设{1y,2y,…,Ny}是随机变量Y的独立同分布的样本,即设()2iy~iidμ,σ,i=1,2,…,N,若总体分布的均值μ和方差2σ未知时,则统计分析的首要任务就聚焦于对均值和方差的估计。显然,总体分布的均值μ具有光滑渐近正态分布的N一致估计量∑=−==NiiyNy11ˆμ于是,估计总体方差2σ或者估计样本均值的方差()2ˆVarμσN=便成为主要问题。显然,想得到()2ˆVarμσN=的良好估计,可通过从总体中随机抽取S个容量为N的样本,得到S个样本均值。即有S个估计值Ssyss,,1,ˆ==μ;然后人们可以通过S个样本的样本方差估计()ˆVarμ,即()n()()2111SssˆˆˆVarμSμμ−==−−∑其中,∑=−=SsSS11ˆˆμμ。但是,对于社会科学研究来说,社会活动是不可重复的(再现的),人们常常只能获得一个样本,这样上述估计样本均值方差的方法是不可行的。因此,必须寻求更适合的统计推断方法。Efron(1979)提出的自举推断方法就是其中之一,除此之外,还有“刀切法(Jackknife)”和“模拟估计方法”等。自举方法是通过把样本看成总体来实现上述估计的统计推断方法,自举方法的具体过程如下。首先将实际样本数据{Nyy,,1}视为具有有限成员的总体;然后,在这个模拟总体中重复B次自举,其中每次的自举样本就是从模拟总体{Nyy,,1}中进行样本容量为N的可放回地重复抽样,这样便得到了样本均值μˆ的B个估计值bbˆμy=,1b,,B=。昀后,利用{bˆμ,1b,,B=}的样本方差估计()ˆVarμ,即()n()()2111BbbˆˆˆVarμBμμ−==−−∑其中,∑=−=BbbB11ˆˆμμ。显然,这里的自举样本是来自实际样本数据{Nyy,,1}的经验分布的样本。尽管重复抽样似乎违背了一般的抽样方法,但是标准抽样理论是允许重复抽样的。另外,基于其他方法的一些额外信息来得到自举样本也是可以的。例如,如果已知()2iy~Νμ,σ,i=1,2,…,N,人们也可以通过从()2ˆΝμ,s分布中获得容量为N的B个自举样本。这种自举方法被称为参数自举法。事实上,对于更一般的统计量ˆθ也可以运用类似的自举方法进行估计。例如,当()ˆVarθ的解析表达式较复杂时,基于独立同分布的样本观测数据{w1,...,wN}自举估计()ˆVarθ通常是很有效的,并且与借助渐近理论得到的估计有相同的特性。6.1.2渐近精细(AsymptoticRefinements)在一些条件下,可以对前面所提的自举进行改进,得到的估计量等同于用更精细的渐近理论得到的估计量,这些估计量的渐近分布能更接近ˆθ的有限样本分布。通常的渐近理论使用的中心极限定理是()20ˆ()0,dNN−⎯⎯→θθσ,因此()()01ΦˆPrNθθ/σzzR⎡⎤−≤=+⎣⎦(6.1)其中()•Φ是标准正态分布函数。并且,在∞→N时,余项1R(remainderterm)趋于零。这个结论以中心极限定理为基础,而中心极限定理(CLT)是基于一个截断后的幂级数展开式(basedonatruncatedpower-seriesexpansion)。Edgeworth展开包括了一个增项,可表示如下:()()()102()ˆ/gzzPrNzzRNφ⎡⎤−≤=Φ++⎣⎦θθσ(6.2)其中,()•Φ是标准正态分布函数,()⋅φ是标准正态密度函数,()⋅1g是有界函数,在∞→N时,余项2R趋于零。当函数()⋅1g以某种较复杂的形式依赖于数据时,Edgeworth展开在理论上是很难实施的。渐近精细的自举(bootstrapwithasymptoticrefinement)为完成Edgeworth展开提供了简单的计算方法(Cameron&Trivedi,MicroeconometricsMethodsandApplications,2005)。因为()2/11−=NOR,()12RON−=,2R渐近地小于1R,即.21asyRR,所以,在∞→N时,Edgeworth展开更精细。然而,在有限样本中可能12RR。因此,渐近精细的自举能为有限样本提供更好的渐近近似。6.1.3渐近充分统计量为了保证渐近精细(asymptoticrefinement)存在,自举统计量必须是渐近充分统计量,即,统计量的极限分布不依赖于未知参数。例如,考虑从()2~iyμ,σ中抽样。那么就算给定了零假设(nullhypothesisvalue)0μμ=,统计量()2ˆ~,yN=μΝμσ也不是渐近充分统计量,因为它的分布依赖于未知参数2σ。但是,t统计量()()001Asyˆμˆtμμs~N,=−是渐近充分统计量。尽管估计量通常不是渐近充分的,然而,传统的渐近标准正态或2χ分布检验统计量都是渐近充分统计量,包括Wald、LM和LR检验的统计量、以及相关的置信区间。6.1.4自举算法自举的算法自举的一般计算法则如下:1.对于给定的一组数据,,,1Nww进行容量为N的自举抽样,并重新命名为∗∗Nww,,1。2.用自举样本计算统计量;包括:(a)θ的统计量∗θˆ,(b)标准误差ˆs∗θ,(c)t统计量ˆ0ˆ()**ts∗=θθ-θ,其中,∗θˆ和ˆs∗θ用自举抽样的数据计算。3.以上两步独立地重复B次,得到∗∗Bθθˆ,,ˆ1或∗∗Btt,,1,B是较大的数。4.用以上得到的B个自举估计量计算自举统计量。在应用时,自举样本如何得到、自举的次数、需要自举产生哪些统计量以及统计量是否是渐近枢轴1的问题可以根据具体情况而定。6.1.5自举抽样方法第一步中的自举数据生成过程(DGP)常用是对未知的真实DGP的近似。昀简单的自举是用数据的经验分布,把得到的样本当作总体。∗∗Nww,,1可以看1设法构造一个样本和θ的函数G=G(x1,x2,…,xn,θ)使得G的分布不依赖于未知参数。一般称具有这种性质的G为枢轴量。做是从Nww,,1中重复抽样出来的。在自举抽样中,有些数据会重复出现,而有些不会出现。这种方法可称之为经验分布函数(EDF,empiricaldistributionfunction)自举或非参数自举(nonparametricbootstrap),也可称为配对自举,因为在单方程回归模型中()iiixyw,=,ix和iy都是重复抽样的。假设数据的条件分布已被设定,可表示成y︱x~()0,Fxθ,依概率收敛于0θ的估计量ˆθ是可得到的,即0ˆp⎯⎯→θθ.那么,在第一步中,可以用原始数据ix代替自举样本,而从()ˆ,iFxθ中随机抽样以产生iy。同样,也可以先从Nxx,,1中抽样得到∗ix,并从()ˆ,iFx∗θ中随机抽样而得到iy,i=1,…,N。这两个都是参数自举(parametricbootstrap)的例子,可应用于所有参数模型中。对于具有独立同分布误差项的回归模型,如(),iiiygx=+βμ中,可以得到残差序列iμˆ,……,Nμˆ,其中()ˆˆ,iiiygx=−βμ。此时,按第一步的做法得到新的自举序列)ˆ,,ˆ(1∗∗Nuu,然后得到自举样本()()NNXyXy,,,,11∗∗,其中ˆ(,)iiiygxu∗∗=+β。这样的自举被称之为残差自举(residualbootstrap.)。它利用了非参数和参数自举之间的信息,通常在误差项分布独立于未知参数时使用。特别,由于使用简单和较弱的分布假设,这种配对自举可广泛应用于非线性模型。但是,如果模型必须满足较强的假设,应使用其他的自举抽样法会更好些。6.1.6自举的数量(TheNumberofBootstraps)尽管自举的渐近性依赖于∞→N,并且B值较小时自举估计量也是渐近有效。但是∞→B,自举估计会更精确。然而B值的大小取决于人们对自举模拟误差的允许程度和自举的目的。Andrews和Buchinsky(2000)提出了一种确定自举抽样次数B满足一定精度水平的方法。若λ是感兴趣的数量,例如,标准误或临界值。设∞=B时的理想自举估计量为∞λˆ,Bλˆ是B时的自举估计量。Andrews和Buchinsky(2000)指出()()ˆˆˆ0,dBBN∞∞−⎯⎯→λλλω,其中ω随着应用问题而变化,并且由Andrews和Buchinsky(2000)的表3定义。且按照{}2Pr1zB≤=−τδωτ,其中∞∞−=λλλδˆ/ˆˆB是因只有B次重复而产生的相对差异。于是,当222δωτzB≥时,相对差异小于δ的概率至少为τ−1.相反,已知B时,相对差异δ小于2zBτω.为了便于具体计算,Cameron和Trivedi(2005)给出了一种经验计算公式B=384ω并且,他们指出这样确定的B使得相对差异小于10%的概率至少是0.95,因为3841.0/22025.=z。显然,应用时的唯一困难是估计ω,因为它随着应用问题而变化。对于标准误差估计,4/)2(4γω+=,其中4γ是自举估计量∗θˆ的额外峰度(excesskurtosis)系数。凭直觉而言,有厚尾分布的估计量,偏离均值的异常值更多,更可能影响标准误差的估计。如果4γ=0,则B=192;4γ=8时,B=960.这些B值都大于Efron和Tibsharani所给出的200.对于显著性水平为α的对称双边检验或置信区间来说,()()[]222/21ααφααωzz−=.于是,α=0.05,B=348;α=0.01,B=685。因此,随着显著性水平减小,自举的次数就需要更大。对于显著性水平为α的单边检验、非对称双边检验或者置信区间来说,()()[]21ααφααωzz−=。此时,若α=0.05,B=634;α=0.01,B=989。这说明对于单尾检验,需要更多次的自举。对于自由度为h的2χ检验来说,()()()()[]2221hfhααχχααω−=,其中()⋅f是()h2χ的密度。对于检验p值,()pp−=1ω.例如,如果p=0.05,ω=
本文标题:自举-bootstrap
链接地址:https://www.777doc.com/doc-3663799 .html