您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 复旦大学-经济学院-谢识予-计量经济学-第二章--多元线性回归模型的有偏估计
1第二章多元线性回归模型的有偏估计模型的参数估计依赖于观测样本,样本是随机的(至少Y是随机的),因此估计量也是随机的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真值,即22)ˆ(,)ˆ(EE这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。第一节设计矩阵列复共线与岭回归一、设计矩阵列复共线的影响上一章最后一节讲的是设计矩阵列向量完全线性相关,|X′X|=0的情况。实际工作中常遇到的是,设计矩阵的列向量存在近似线性相关(称为复共线(multicollinearity)),|X′X|≈0。此时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差,严重时估计量可能变得面目全非。21XXY(2.1.1)有关资料在下面运算过程可以看到。看一看原始资料,它近似满足Yi=X1i+X2i,应该估计出1ˆ,1ˆ,0ˆ210。可是我们调用普通最小二乘回归程序,运算结果却是21566.14330.00033.0XXY(2.1.2)对现有数据拟合的还挺好,两条曲线几乎成了一条曲线(图2.1.1.1),F值为303744,但是代入X1=0,X2=10,预测值却为15.66,这与原模型应有的预测值10相距甚远。-------------------------------------------------------------------------------------------------------------------------岭回归与岭迹图计算程序,例2.1.4例214.D数据文件中,n=8,M=2要显示原始资料吗?0=不显示,1=显示2.0100.99001.010021.99001.0200.99004.01002.03001.99005.99002.97003.01008.01003.96004.01007.99004.01003.990010.01005.04004.990011.99006.05005.9900正规方程系数矩阵的行列式的值是2.12162请输入工作参数,0=普通回归,1=岭回归,2=计算岭迹(0)现在作线性回归显著性检验,计算t,F,R统计量请输入显著性水平a,通常取a=0.01,0.05,0.10,a=?(0.05)-----------------------------------------------------线性回归分析计算结果样本总数8自变量个数2-----------------------------------------------------回归方程Y=b0+b1*X1+...+b2*X2Y=.0033+.4330X1+1.5660X2回归系数b0,b1,b2,...,b2.0033.43301.5660-----------------------------------------------------残差平方和:.00回归平方和:93.92误差方差的估计:.0001标准差=.0098-----------------------------------------------------线性回归显着性检验显著性水平:.050-----------------------------------------------------回归方程整体显著性F检验,H0:b0=b1=...=b2=0F统计量:303744.5000F临界值F(2,5)5.786全相关系数R:1.0000-----------------------------------------------------回归系数逐一显著性t检验,H0:bi=0,i=1,...,2t临界值t(5)2.015回归系数b1-b2的t值:.0106.0382-----------------------------------------------------要作回归预测吗?键入0=不预测,1=要预测(1)现在作回归预测,请输入自变量,X1-X2X(1)=0X(2)=10-----------------------------------------------------线性回归预测:Y的预测值=15.6633给定X1-X2=.000010.0000-----------------------------------------------------3要作回归预测吗?键入0=不预测,1=要预测(0)要打印拟合数据吗?0=不打印,1=打印(1)Y的观测值Y的拟合值差值2.01002.0136-.00361.99001.9953-.00534.01003.9987.01135.99006.0030-.01308.01007.9977.01237.99007.9881.001910.010010.0001.009911.990012.0035-.0135计算结束。---------------------------------------------------------------------------------下面显示拟合图像。图2.1.1.10246810121412345678原始数据拟合数据对此我们可以作如下理论分析。ˆ作为β的估计是否优良,应该考察它与β的接近程度,这可以用ˆ的均方误差(MeanSquareError)来度量:)ˆ()ˆ()||ˆ(||)ˆ(2EEMSE(2.1.3)我们来计算线性模型nIVarEXY2)(,0)(,(2.1.4)的MSE(ˆ)。由于XXXXXXXYXXX111)()()()(ˆ(2.1.5)4故由公式)]([)()()(yAVartrEyAEyAyyE得1222222)())(())((])([)]ˆ()ˆ[()ˆ(XXtrXXXXtrXXXXtrXXXXEEMSE(2.1.6)进一步,若ε~N(0,σ2In),则因对于对称矩阵A有pjipvuvitjiuvijaaA1,1,2)((2.1.7)注意到ujiuiujiujiEitji或,0,,3)(44(2.1.8)故2241,22141,2412422)(2)(3)(trAtrAaaaaaaaaAEpjiijpiiipjijijiijijjjiipiii(2.1.9)因此24222)]([)()(trAAEAEAVar(2.1.10)于是2422422)(2])()([2)()||ˆ(||XXtrXXXXXXXXtrXXXXVarVar(2.1.11)由于X′X为正定阵,其特征根皆为正数,设为λ1≥λ2≥…≥λp0,则piiXXtr111)((2.1.12)代入(2.1.6)与(2.1.11)得)||ˆ(||)ˆ(2EMSE(2.1.13)piiVar124212)||ˆ(||(2.1.14)5当设计矩阵X的列向量存在复共线关系时,λp≈0,p1很大,就使)||ˆ(||2E与)||ˆ(||2Var都很大。尽管这时按平均来说,是ˆ的无偏估计,但具体在每一次计算,由于均方误差太大,使得ˆ估计值偏差很大,以致前面的数值例子变得面目全非。二、岭回归统计学界由A.E.Hoerl在1962年提出并和R.W.Kennard在1970年系统发展的岭回归(RidgeRegression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。岭回归方法主要就是在病态的(X′X)中沿主对角线人为地加进正数,从而使λp稍大一些。我们知道模型(2.1.4)中β的最小二乘估计为YXXX1)(ˆ(2.1.15)则β的岭估计定义为kYXkIXXkp0,)()(ˆ1(2.1.16)从式子直觉看出,当k=0时,它就是最小二乘估计;当k→+∞,0)(ˆk。于是就要问k究竟取多大值为好?同时我们也要知道)(ˆk的统计性质究竟如何。性质1.岭估计不再是无偏估计,即))(ˆ(kE。因为1111111])([]))(()[()(])[())(ˆ(XXkIXXkIXXXXkIXXYXkIXXEkEpppp无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场合,我们只好牺牲无偏性,以改善估计的稳定性。性质2.岭估计是线性函数。记S=X′X,Zk=(I+kS-1)-1,则因LkLZkSIYXSSkISYXkISkˆˆ)()()()(ˆ11111(2.1.17)可见)(ˆk不仅是Y的线性函数,而且是原来最小二乘估计Lˆ的线性函数。性质3.Zk的特征根都在(0,1)内。设有正交阵P与P′使6),,(11ppdiagPPS(2.1.18)则)(11][])([)(111111111kkkkkkIPkSIPPkSIPPPZpppK故知Zk的特征根分别为kii,都在(0,1)内。性质4.岭估计是压缩估计,即||ˆ||||)(ˆ||k。这是因为由性质2、性质3,有222222||ˆ||||ˆ||||ˆ)(||||ˆ)(||||ˆ||||)(ˆ||PPkPkPZkk当然,由于pikii,,1,并不一定互相相等,这种压缩一般不是各方向上的均匀压缩。性质5.岭估计的均方误差较小,即22||ˆ||||)(ˆ||EkE(2.1.19)这个性质我们放到下一章与方差分量线性模型的广义岭估计一起证明。三、岭迹分析与岭参数选择因为岭估计YXkIXXk1)()(ˆ(2.1.20)是k的函数,所以在二维坐标平面上若以横轴为k,纵轴为)(ˆk,它将画出一条曲线。这条曲线我们称之为岭迹。前已指出,当k→0时,岭迹反映了最小二乘估计2ˆ的不稳定性。当k→+∞时,岭迹将趋于0。在k从0到+∞的变化过程中,)(ˆk的变化可能比较复杂。关于岭参数选择的问题,已有许多文献讨论。讨论来讨论去,并没有一个公认最优的准则。7许多办法含有未知参数,又要对其进行估计。下一章我们将仔细介绍在方差分量模型的广义岭估计中岭参数的选择办法。这里我们只简要介绍几种较有影响的方法和原则。1.岭迹稳定观察岭迹曲线,原则上应该选取使)(ˆk稳定的最小k值,同时残差平方和也不增加太多。2.均方误差小岭估计的均方误差2||)ˆ)(ˆ(||))(ˆ(kEkMSE还是k的函数,可以证明它能在某处取得最小值。计算并观察))(ˆ(kMSE,开始它将下降,到达最小值后开始上升。取它最小处的k作为岭参数。3.22ˆmax/ˆik假设回归模型Y=Xβ+ε的设计阵X已中心化,即0121pXXXX并设P为正交方阵,使),,,()(21pdiagPXXP(2.1.21)记α=Pβ,α称为典则参数,Z=XP′,则原模型变为ZY(2.1.22)这个形
本文标题:复旦大学-经济学院-谢识予-计量经济学-第二章--多元线性回归模型的有偏估计
链接地址:https://www.777doc.com/doc-6105012 .html