您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第27章非参数与半参数估计
1©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。第27章非参数与半参数估计27.1为什么需要非参数与半参数估计“参数估计法”(parametricestimation)假设总体服从带未知参数的某个分布(比如正态),或具体的回归函数,然后估计这些参数。其缺点是,对模型设定所作的假定较强,可能导致较大的设定误差,不够稳健。2“非参数估计法”(nonparametricestimation)一般不对模型的具体分布或函数形式作任何假定,更为稳健。缺点是要求样本容量较大,且估计量收敛的速度较慢。作为折衷,同时包含参数部分与非参数部分的“半参数方法”(semiparametricestimation),降低对样本容量的要求,又有一定稳健性。非参及半参方法与传统的参数法互补;后者不太适用时,可考虑前者。327.2对密度函数的非参数估计考虑根据样本数据来推断总体的分布,即密度函数。如用参数估计法,则先对总体分布的具体形式进行假定。比如,假设总体服从正态分布2(,)N,然后估计参数2(,)。如果真实总体与正态分布相去甚远,则统计推断有较大偏差。如不假设总体分布的具体形式,则为非参数方法。昀原始的非参数方法是画直方图,即将数据的取值范围等分为若干组,计算数据落入每组的频率,以此画图,作为对密度函数的估计。4直方图的缺点是,即使随机变量连续,直方图始终是不连续的阶梯函数。为得到对密度函数的光滑估计,Rosenblatt(1956)提出“核密度估计法”(kerneldensityestimation)。首先考察直方图的数学本质。假设要估计连续型随机变量x在0x处的概率密度0()fx。概率密度0()fx是累积分布函数()Fx在0x处的导数:0000000()()()lim2P()lim2hhFxhFxhfxhxhxxhh5对于样本12,,,nxxx,用数据落入区间00(,)xhxh的频率来估计概率00P()xhxxh,得到直方图估计量:001HIST001()ˆ()21112niiniixhxxhnfxhxxnhh11HIST0ˆ()fx对于区间00(,)xhxh内的观测值给予相同权重,而区间外的观测值权重为0。区间半径h定义了“在0x附近邻域的大小”,称为“带宽”(bandwidth)。2h称为“窗宽”(windowwidth)。6直方图得不到光滑的密度估计,根本原因在于使用示性函数作为“权重函数”(weightingfunction),以及各组间不允许交叠。核密度估计法使用更一般的权重函数,并允许各组之间交叠。核密度估计量为0011ˆ()()niifxKxxhnh函数()K称为“核函数”(kernelfunction),本质上就是权重函数。带宽h越大,在0x附近邻域越大,则估计的密度函数ˆ()fx越光滑,故称带宽h为“光滑参数”(smoothingparameter)。7一般假设核函数()Kz满足以下性质:(i)()Kz连续且关于原点对称(偶函数);(ii)()d1Kzz,()d0zKzz,()dKzz;(iii)或者①存在00z,使得当0zz时,()0Kz;或者②当z时,()0zKz;(iv)2()dzKzz,其中为常数。条件(ii)要求核函数的曲线下面积为1,并满足一些有界条件。条件(iii)①比条件(iii)②更强,实践中常采用条件(iii)①。常将邻8域00,zz标准化为1,1。条件(iv)也是有界条件。常见核函数见表27.1。这些核函数的共同特点是,离原点越近,则核函数取值越大,并在原点达到昀大;即越近的点权重越大。其中,均匀核也用于直方图,只是在用均匀核进行核密度估计时并不固定分组,而在每个点上进行估计。昀流行的核函数为二次核(也称Epanechnikov核)与高斯核。9表27.1常用的核函数核函数名称核函数的数学形式均匀核(uniformorrectangular)12(1)z11.3510三角核(triangularorBartlett)(1)(1)zz1—伊番科尼可夫核(Epanechnikov)或二次核(quadratic)234(1)(1)zz11.7188四次核(quartic)221516(1)(1)zz12.036210或双权核(biweight)三权核(Triweight)233532(1)(1)zz12.3122三三核(Tricubic)337081(1)(1)zz1—高斯核(GaussianorNormal)21exp22z0.7764注:其中为用来计算“Silverman嵌入估计”的常数。给定核函数()K与带宽h,可估计核密度0ˆ()fx。在Stata中,默认设置为在等距离的50min(,)n个点来计算0ˆ()fx,然后连成光滑的密度函数。11图27.1二次核(Epanechnikov核)1227.3核密度估计的性质由于核密度估计使用了在0x附近的点x来估计0ˆ()fx,而一般地,如果0xx,则0()()fxfx,故核密度估计通常是有偏的:2200001ˆBias()E()()()()d2xfxfxhfxzKzz即偏差与2h成正比,为2h的同阶无穷小,记为2()Oh。带宽h越大,则将使用离0x更远的点在估计0()fx,导致偏差增大(以2h的速度迅速上升)。13当n时,让带宽0h,则偏差将在大样本中消失。密度函数的二阶导数0()fx越大,即在0x处的曲率越大,则0x附近的函数值波动越大,也会引起偏差增大。偏差还取决于核函数()Kz。核密度估计的方差为:2001ˆVar()()()d1fxfxKzzonhnh故0ˆVar()1fxOnh,是1nh的同阶无穷小。14样本容量n越大,则方差越小;带宽h越大,由于使用了更多观测点来估计0()fx,故方差越小。当n时,让nh(虽然0h,但h趋于0的速度比样本容量n的速度更慢),则此方差将在大样本中消失。核密度估计的一致性当n时,让带宽0h且nh,则偏差0Bias()x与方差0ˆVar()fx在大样本下都趋于0。根据均方收敛可知,0ˆ()fx是0()fx的一致估计量。15核密度估计的渐近正态性如果核函数()Kz的条件(iv)满足,则0ˆ()fx服从渐近正态分布:20000ˆ()()Bias()0,()()ddnhfxfxxNfxKzz据此可进行区间估计。核密度估计量的收敛速度为nh。由于昀优带宽*h与0.2n成正比(参见下节),故0.20.80.40.5nhnnnnnn16这意味着非参估计量的收敛速度0.4n慢于参数估计量的通常收敛速度0.5n。27.4最优带宽如果带宽h越大,则0x附近的邻域越大,故偏差也越大(偏差与2h成正比);而带宽h越大,则0ˆ()fx越光滑,即方差0ˆVar()fx越小。在选择“昀优带宽”(optimalbandwidth)*h时,希望昀小化均方误差(MSE),即方差与偏差平方之和:2000ˆˆminMSE()Bias()Var()hfxxfx17由于20Bias()()xOh,故240Bias()()xOh,而0ˆVar()1fxOnh,故此昀小化问题可大致写为4012ˆminMSE()hfxkhknh其中,12,kk为常数。对h求导,可得一阶条件为32121410khkhn0.20.2124hkkn18故昀优带宽为*0.2()hOn。随着n增大,0.251nn的下降速度远慢于11nn。0.2.4.6.810100200300400500n1/n1/(n^0.2)图27.2对比0.2n与1n的下降速度19当n时,*0h,而*0.20.8()()nhnOnOn。选择昀优带宽*h,就能保证核密度估计的一致性。均方误差0ˆMSE()fx仍取决于0x。为得到对于0x所有可能取值的整体度量,可昀小化“积分均方误差”(IntegratedMeanSquaredError,简记IMSE):00ˆminIMSEMSE()dhfxxSilverman(1986)证明昀优带宽为:200.2*20.200()dhfxxn其中,常数0.2222()d()dKzzzKzz仅依赖于核函数。昀优带宽*h还取决于密度函数的曲率(0()fx)。当密度函数波动较大时,将带来较大偏差,故昀优带宽*h较小。由于依赖于核函数,故昀优带宽*h也依赖于核函数。对于不同的核函数分别使用相应的昀优带宽,则积分均方误差*IMSE()h差别不大。21能使*IMSE()h昀小化的核函数为“伊番科尼可夫核”(Epanechnikov),是Stata默认的核函数,但只有微弱优势。对于昀优带宽的选择远比核函数的选择更重要。使用不同核函数得到的密度估计一般非常接近。昀优带宽*h仍依赖于0()fx。如果样本来自正态总体,则25500380.2116()d()fxx,故*0.21.3643hns其中,s为样本标准差。为了防止样本标准差受极端值的影响,常使用“Silverman嵌入估计”(Silverman’splug-inestimate):22*0.21.36431.349min,hnsiqr其中,“iqr”为样本四分位距(sampleinterquartilerange),即样本34分位数与14分位数之间的距离。为保险起见,可比较两倍嵌入估计与一半嵌入估计的效果。实践中也常使用“眼球法”(eyeballmethod):用肉眼对带宽进行判断,是否密度函数“过度光滑”(oversmoothed)或“不够光滑”(undersmoothed),再微调到合适的带宽。2327.5多元密度函数的核估计对于k维随机变量x,可进行“多元密度函数的核估计”:0011ˆ()()niifxKhnhxx其中,()K是k维核函数,即权重函数。()K通常为一维核函数的乘积,也可使用多维正态的密度函数。多元密度函数核估计的性质与一元情形相似。但昀优带宽为*1(4)khOn(大于一元情形下的昀优带宽),而0ˆ()fx的收敛速度也更慢。24在多维情况下,易出现“数据稀疏”问题(sparsenessofdata),即在0x附近的观测点很少。估计多维密度函数的用途之一是估计条件密度函数(conditionaldensityfunction)。由于条件密度(|)(,)()fyxfxyfx,故可用ˆˆˆ(|)(,)()fyxfxyfx作为条件密度的估计量,其中,ˆ(,)fxy与ˆ()fx分别为二维与一维的密度函数核估计。2527.6非参数核回归考虑以下非参数一元回归模型:2()~iid(0,)iiiiymx其中,()m是未知函数(连函数形式也未知)。对于每一个(1,,)iin,分别估计()imx,从而得到对回归函数()mx的估计。不寻求()mx的解析解,而是寻找其数值解。26假设对于x的某个特定取值,比如0x,都有若干个y的观测值,比如0n个。则可把这0n个y观测值的平均值作为0()mx的估计量。现实数据中,0n可能很小(对于连续变量,可能仅为1),导致估计量的方差过大。解决方法是,对0x附近邻域中的观测值也进行加权平均,即“局部加权平均估计量”(localweightedaverageestimator):00,1ˆ()nihiimxwy其中,权重0,ihw是0(,,)ixxh的函数
本文标题:第27章非参数与半参数估计
链接地址:https://www.777doc.com/doc-1370038 .html