您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第11章-非参数回归(非参数统计-西南财大)
非参数回归1第十二章非参数回归及其相关问题第一节参数回归问题的回顾在线性回归模型中,我们总是假定总体回归函数是线性的,即多元线性回归模型一般形式为:iKiKiiiXXXY33221总体回归函数(PRF)KiKiikiiiiXXXXXXYEXm3322132),,,()(但是,经验和理论都证明,当)(Xm不是线性函数时,基于最小二乘的回归效果不好,非参数回归就是在对)(Xm的形式不作任何假定的前提下研究估计)(X。例设二维随机变量,其密度函数为其它010,10),(yxyxyxf,求)/(xXYE.解:1021),()(10xxdyyxfxfx10)(),()/(dyxfyxfyxXYEx1021dyxyxy10)(211dyyxyx)()321(122xmxx从例可知,)/(xXYE仅与x有关,条件期望)/()(xXYExmy表明Y与X在条件期望的意义下相关。由样本均值估计总体均值的思想出发,假设样本),(11YX,),(22YX,…,),(nnYX中有相当iX恰好等于x,()(/)mxEYx,不妨记为1iX,2iX,…,kiX,自然可取相应的Y的样本1iY,2iY,…,kiY,用他们的平均数kjijYk11去估计)/()(XYEXm。可是在实际问题中,一般不会有很多iX的值恰好等于x。这个估计式,仿佛是一个加权平均数,非参数回归2对于所有的iX,如果等于x,则赋予k1的权,如果不等于x,则赋予零权。由此可启发我们在思路上产生了一个飞跃。即对于任一个x,用nYYY,,,21的加权和去估计()mx,即niiinYWxm1)(ˆ,其中niWi,,2,10,,1iW估计)/()(XYEX。问题是如何赋权,一种合乎逻辑的方法是,等于x或靠x非常近的那些iX,相应的权大一些,反之小权或零权。两种模式:设(,)kYRRx上的随机变量,(,)(1,2,,)iiYinx为的n次观测值。实际应用中,niix为非随机的,nYYY,,,21依条件独立,在理论上非参数回归中niix既可以是非随机的,也可以是随机的。而参数回归分析中,我们总是假定niix为非随机的。根据niix的不同非参数回归有两种模式。1、niix为随机时的非参数回归模型设(,)kYRRx,||YE,(,)(1,2,,)iiYinz为(,)Yx的随机样本。存在没个未知的实值函数(.)g,使得(/()iEYgix=xx)ni,,2,1一般记为(/YEYX=x)(/(/)EYyfydyX=xx)(,)()fyydyfxx(,)()()(,)xyfydyrffydyxxxx这里,0fx(x),如果0fx(x),则((/)0mEYx)Xx2、niix为非随机时的非参数回归模型由于在实际中,研究者或试验者一般可以控制X或预先指定X,这时X可能不再是随机变量,例如年龄与收入之间的关系中年龄为固定时,收入的分布是已知的,不存在X为随机变量时,估计)(xfx的问题。设(,)kYRRx,||YE,(,)(1,2,,)iiYinx为(,)Yx的随机样本设的随非参数回归3机变量,(,)(1,2,,)iiYinx为()Yx,的n次独立观测值,则()iiYgeix),,2,1(niiideeen,,,21,0)(ieE,2)(ieVar。第二节一元非参数回归核估计方法一、核估计(一)Nadaraya-Watson估计核权函数是最重要的一种权函数。为了说明核函数估计,我们回忆二维密度估计dyxfyxfdyxyyfxXYExmx)(),()/(/()()(1)而),(1),(12ninininhyYhxXKnhyxf)(1)(11),(1nininninhyYKhhxXKhnyxf(2)在这个密度函数估计中,核函数必须相等,光滑参数nh可以不等,光滑参数不等时,有)(1)(11),(1yiniyxixhyYKhhxXKhnyxf将(2)代入(1)的分子,得dyhyYKhyhxXKhndyyxfyyiniyxix)()(11),(1令iyYysh,则1ydsdyh111(,)()()()niyiixxXxyfxydyKshYKsdsnhh又由)(sk有对称性,则0)(dsssK,1)(dssK,得1式的分子为分子=ixinixYhxXKnh)(11非参数回归4分母=)(11xinixhxXKnh111111()()()11()()nniiiiiixxxxnnniiiixxxxXxXxKYKYnhhhhmxXxXxKKnhhhh可以看出对)xXYExm/()(的估计,是密度函数估计的一种自然推广,一般也称为权函数估计niininYxWxm1)()(其中11()()1()ixxniniixxXxKhhWxXxKhh可以看出权函数完全由)(xWni确定,其取值与X的分布有关,称为N-W估计。可以推得:ninininiinixmYxWYxW1212))(ˆ)(())((min0))((12niiniYxW0))((12niiniYxW0))((21niiniYxWniininYxWxm1)()(ˆ所以,核估计等价于局部加权最小二乘法。二、窗宽的选择令1()()ihixxXxKKXxhh非参数回归5根据非参数估计11ˆ()()/()nnnhiihiiimxKXxYKxX当0h,11ˆ()()/()nnnhiihiiimxKXxYKxX的分子和分母中除了当ixX的项不为零,其它均为零,故iiinYKYKXm)0(/)0()(ˆ这说明当窗宽趋于0时,ixX点的估计值趋于该点的观测值。当h,11ˆ()()/()nnnhiihiiimxKXxYKxX的分子和分母中每一项()(0)hiKxXK,则niininiinYnKnYKnxm111111)0(/)0()(ˆ。说明当窗宽趋于无穷时,则每一点的估计值均为Y的观测值的平均值。可见窗宽nh的控制是核估计精度的重要参数。太小估计线欠平滑,太大过于平滑。1、理论窗宽的最佳选择记22()()KuKudu,duuKKR2)()(当解释变量为随机的情形时,iiiuXmY)(),,2,1(ni的渐近偏差和渐近方差为:估计方法渐近偏差渐近方差N-W方法)())()()(2)((222kxfxfxmxmhn)()()(2KRxfnhxn其中)(xf为解释变量的密度函数,)/()(22iiixXuEx。估计的均方误差2))()(ˆ(xmxmEn2)()(ˆ)(ˆ)(ˆxmxmExmExmEnnn22)()(ˆ)(ˆ)(ˆxmxmExmExmEnnn非参数回归6回归函数m(x)估计的渐近方差随着窗宽见效而增大,渐近偏差随着减小而减小。所以非参数估计就是在估计的盘查和方差中寻求平衡,使均方误差达到最小。理论的最佳窗宽5/1cnhn。2、样本窗宽的交错鉴定哪一个窗宽是比较恰当的,必须通过样本的资料考察,但是我们的样本仅仅有一个。在某个局部观测点iXx,首先,在样本中剔除该观测值点),(iiYX,用剩余的n-1个点在iXx处进行核估计:nijjinjinYXWxm)()(ˆ,最后比较平方拟合误差12,1ˆ()(())()nniniiiiCVhnYmXwX,使)(nhCV最小的窗宽,则是最佳的。3、窗宽的经验选择方法当K(.)为【-1,1】上对称、单峰的概率密度时,njjinjnYXWxm1)()(ˆ是集中在x附近的加权平均,由于x为对称的,以nh为宽度,当nh太大时,参加的平均点多,会提高精度,但可能偏差会增大。反之nh小则相反。所以应该根据散点图来选择窗宽。三、核函数的选择因为估计方法渐近偏差渐近方差N-W方法)())()()(2)((222kxfxfxmxmhn)()()(2KRxfnhxn所以渐近均方误差为:422211)()(hKChnKRCMSEBv其中vC和2BC是与核函数无关的量,对MSE求h的导数,则最佳的窗宽为:5/151225120)()(4nKKRCChBv非参数回归7将5/151225120)()(4nKKRCChBv代入MSE,得)()()44()()(5/225/45/45/15/25/45/4KKRCChMSEBv最优的核函数是使duuKuduuKKKR)()()()(22222达到最小的核函数)1(75.0)(2uuK。四、核估计的性质(略)作为估计量,非参数回归函数核估计有一些优良性质。第三节一元非参数回归模型的局部估计一、局部多项式回归局部多项式估计(Loess)是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式,可以是零阶、一阶、二阶,零阶时与核估计相同。为了研究某经济变量Y的变化规律,一个常用的方法就是找出影响Y的相关经济变量X,回归表达式()Ymx未知,Y为被解释变量,x为解释变量。()Ymxu,其中u为随机误差项。假设有样本11(,),,(,)nnYXYX,()Ymx在0Xx处相应阶导数存在(0x可取(1,2,,)iXin),我们要估计0()fx。如果假定()mx在0Xx处p阶导数存在,则将()mx在0Xx的某领域按泰勒级数展开00000()()()()()()!ppmxmxmxmxxxxxp记kkkm!)(,1,2,,kp,00()mx原模型为()000()()()()()!ppiiiiimXYmxmxXxXxp0100()()()pipiimxXxXx上式为一个多项式回归模型,且对)(xm的估计依赖于其局部的点。从模型我们可以非参数回归8看出,()imX是()mx在ixX处的观测值;()imX是()mx在ixX处的斜率。根据加权最小二乘法可以估计核权局部回归。20010{()}()minpnjijihiijYXxKXx注:因为样本回归函数为eXYˆ两边同乘以X的转置,得eXXXYX'ˆ''即ˆ''XXYX得参数(向量)的最小二乘估计为:YXXX')'(ˆ1nYYY21YpnnppxXxXxXxXxXxX)()()(0002020101111Xn21n21)()()(21xXKxXKxXKdiagnhhhnnnxWXY)min(YXβ)W(YXβWWXWYWεXWXXWYXWYXWX)X(1ˆ局部多项式拟合从理论和实践上都很吸引人。第一,传统回归分析方法将经济变量局部上的变异掩盖了,因此无法反映经济现象的结构变化。而局部回归的结果能够动态地反映经济现象的结构变化。非参数回归9第二,局部回归分析的方法假定变量间的关系未知,所以更加符合实际情况。窗宽参数h在局部回归中起到了相当重要的作用。太大的窗宽将使与0Xx距离较远的观测点也参与局部回归分析,也就造成局部回归的偏差大;太小的窗宽将使与0Xx较近的点没能参加局部回归分析,造成估计的随机偏差大。因而寻求一个合适的窗宽是局部回归分析的最重要的任务之一。
本文标题:第11章-非参数回归(非参数统计-西南财大)
链接地址:https://www.777doc.com/doc-1893757 .html