您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 经济回归模型及计算 童恒庆 第02章
1第二章多元线性回归模型的有偏估计模型的参数估计依赖于观测样本,样本是随机的(至少Y是随机的),因此估计量也是随机的,不一定恰好等于被估计参数的真值。但是我们希望多次估计的结果的期望值接近或等于真值,即22)ˆ(,)ˆ(σσββ==EE这就叫无偏估计。无偏估计被认为是一个估计量应有的优良性质。但是在一些场合,满足无偏性的估计量却不具备其它应有的优良性,比如说稳定性、容许性。统计学家提出了一些新的估计方法,它们往往不具备无偏性,但在特定场合综合起来考虑还是解决问题较好的。本章就分别介绍这些特定场合下的有偏估计。第一节设计矩阵列复共线与岭回归一、设计矩阵列复共线的影响上一章最后一节讲的是设计矩阵列向量完全线性相关,|X′X|=0的情况。实际工作中常遇到的是,设计矩阵的列向量存在近似线性相关(称为复共线(multicollinearity)),|X′X|≈0。此时一般最小二乘方法尽管可以进行,但估计的性质变坏,主要是对观测误差的稳定性变差,严重时估计量可能变得面目全非。例如我们建立二元线性回归模型 (2.1.1)ε++=21XXY有关资料在下面运算过程可以看到。看一看原始资料,它近似满足Yi=X1i+X2i,应该估计出。可是我们调用普通最小二乘回归程序,运算结果却是1ˆ,1ˆ,0ˆ210===βββ(2.1.2)ε+++=21566.14330.00033.0XXY对现有数据拟合的还挺好,两条曲线几乎成了一条曲线(图2.1.1.1),F值为303744,但是代入X1=0,X2=10,预测值却为15.66,这与原模型应有的预测值10相距甚远。-------------------------------------------------------------------------------------------------------------------------岭回归与岭迹图计算程序,例2.1.4例214.D数据文件中,n=8,M=2要显示原始资料吗?0=不显示,1=显示2.0100.99001.010021.99001.0200.99004.01002.03001.99005.99002.97003.01008.01003.96004.01007.99004.01003.990010.01005.04004.990011.99006.05005.9900正规方程系数矩阵的行列式的值是2.12162请输入工作参数,0=普通回归,1=岭回归,2=计算岭迹(0)现在作线性回归显著性检验,计算t,F,R统计量请输入显著性水平a,通常取a=0.01,0.05,0.10,a=?(0.05)-----------------------------------------------------线性回归分析计算结果样本总数8自变量个数2-----------------------------------------------------回归方程Y=b0+b1*X1+...+b2*X2Y=.0033+.4330X1+1.5660X2回归系数b0,b1,b2,...,b2.0033.43301.5660-----------------------------------------------------残差平方和:.00回归平方和:93.92误差方差的估计:.0001标准差=.0098-----------------------------------------------------线性回归显着性检验显著性水平:.050-----------------------------------------------------回归方程整体显著性F检验,H0:b0=b1=...=b2=0F统计量:303744.5000F临界值F(2,5)5.786全相关系数R:1.0000-----------------------------------------------------回归系数逐一显著性t检验,H0:bi=0,i=1,...,2t临界值t(5)2.015回归系数b1-b2的t值:.0106.0382-----------------------------------------------------要作回归预测吗?键入0=不预测,1=要预测(1)现在作回归预测,请输入自变量,X1-X2X(1)=0X(2)=10-----------------------------------------------------线性回归预测:Y的预测值=15.6633给定X1-X2=.000010.0000-----------------------------------------------------3要作回归预测吗?键入0=不预测,1=要预测(0)要打印拟合数据吗?0=不打印,1=打印(1)Y的观测值Y的拟合值差值2.01002.0136-.00361.99001.9953-.00534.01003.9987.01135.99006.0030-.01308.01007.9977.01237.99007.9881.001910.010010.0001.009911.990012.0035-.0135计算结束。---------------------------------------------------------------------------------下面显示拟合图像。图2.1.1.10246810121412345678原始数据拟合数据对此我们可以作如下理论分析。作为β的估计是否优良,应该考察它与β的接近程度,βˆ这可以用的均方误差(MeanSquareError)来度量:βˆ(2.1.3)[])ˆ()ˆ()||ˆ(||)ˆ(2βββββββ−′−=−=EEMSE我们来计算线性模型(2.1.4)nIVarEXY2)(,0)(,σεεεβ==+=的MSE()。βˆ由于(2.1.5)εβεββββXXXXXXXYXXX′′=−+′′=−′′=−−−−111)()()()(ˆ4故由公式得)]([)()()(yAVartrEyAEyAyyE+′=′(2.1.6)1222222)())(())((])([)]ˆ()ˆ[()ˆ(−−−−′=′′′′=′′′=−′−=XXtrXXXXtrXXXXtrXXXXEEMSEσσσεεβββββ进一步,若ε~N(0,σ2In),则因对于对称矩阵A有(2.1.7)∑∑===′pjipvuvitjiuvijaaA1,1,2)(εεεεεε注意到(2.1.8)⎪⎩⎪⎨⎧≠≠≠======υυσυσεεεευujiuiujiujiEitji或,0,,3)(44故(2.1.9)[]2241,22141,2412422)(2)(3)(trAtrAaaaaaaaaAEpjiijpiiipjijijiijijjjiipiii+=⎥⎥⎦⎤⎢⎢⎣⎡+⎟⎟⎠⎞⎜⎜⎝⎛=+++=′∑∑∑∑==≠==σσσσεε因此(2.1.10)24222)]([)()(trAAEAEAVarσεεεεεε=′−′=′于是(2.1.11)[]2422422)(2])()([2)()||ˆ(||−−−−′=′′′′=′′′=−XXtrXXXXXXXXtrXXXXVarVarσσεεββ由于X′X为正定阵,其特征根皆为正数,设为λ1≥λ2≥…≥λp0,则(2.1.12)∑=−=′piiXXtr111)(λ代入(2.1.6)与(2.1.11)得(2.1.13))||ˆ(||)ˆ(2βββ−=EMSE(2.1.14)∑==−piiVar124212)||ˆ(||λσββ5当设计矩阵X的列向量存在复共线关系时,λp≈0,很大,就使与pλ1)||ˆ(||2ββ−E都很大。尽管这时按平均来说,的无偏估计,但具体在每一次计算,)||ˆ(||2ββ−Varββ是ˆ由于均方误差太大,使得估计值偏差很大,以致前面的数值例子变得面目全非。βˆ二、岭回归统计学界由A.E.Hoerl在1962年提出并和R.W.Kennard在1970年系统发展的岭回归(RidgeRegression)方法,可以显著改善设计矩阵列复共线时最小二乘估计的均方误差,增强估计的稳定性。这个方法在计算数学称为阻尼最小二乘,出现得较早一些。岭回归方法主要就是在病态的(X′X)中沿主对角线人为地加进正数,从而使λp稍大一些。我们知道模型(2.1.4)中β的最小二乘估计为(2.1.15)YXXX′′=−1)(ˆβ则β的岭估计定义为(2.1.16)+∞′+′=−kYXkIXXkp0,)()(ˆ1β从式子直觉看出,当k=0时,它就是最小二乘估计;当k→+∞,。于是就要0)(ˆ→kβ问k究竟取多大值为好?同时我们也要知道的统计性质究竟如何。)(ˆkβ性质1.1.1.1.岭估计不再是无偏估计,即。ββ≠))(ˆ(kE因为ββββ1111111])([]))(()[()(])[())(ˆ(−−−−−−−′+=′+′=′+′=′+′=XXkIXXkIXXXXkIXXYXkIXXEkEpppp无偏性一直被认为是一个好的统计量所必须具有的基本性质,但是在现在所讨论的问题场合,我们只好牺牲无偏性,以改善估计的稳定性。性质2222.岭估计是线性函数。记S=X′X,Zk=(I+kS-1)-1,则因(2.1.17)LkLZkSIYXSSkISYXkISkβββˆˆ)()()()(ˆ11111=+=′+=′+=−−−−−可见不仅是Y的线性函数,而且是原来最小二乘估计的线性函数。)(ˆkβLβˆ性质3333.Zk的特征根都在(0,1)内。设有正交阵P与P′使6(2.1.18)),,(11ppdiagPPSλλλλLO=Λ=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=′则)(11][])([)(111111111kkkkkkIPkSIPPkSIPPPZpppKΛ∆⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡++=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡++=Λ+=′+=′+=′−−−−−−λλλλλλOO故知Zk的特征根分别为,都在(0,1)内。kii+λλ性质4.4.4.4.岭估计是压缩估计,即。||ˆ||||)(ˆ||ββ≤k这是因为由性质2、性质3,有222222||ˆ||||ˆ||||ˆ)(||||ˆ)(||||ˆ||||)(ˆ||ββββββ=Λ=Λ′==PPkPkPZkk当然,由于并不一定互相相等,这种压缩一般不是各方向上的均匀压缩。pikii,,1,L=+λλ性质5.5.5.5.岭估计的均方误差较小,即(2.1.19)22||ˆ||||)(ˆ||ββββ−≤−EkE这个性质我们放到下一章与方差分量线性模型的广义岭估计一起证明。三、岭迹分析与岭参数选择因为岭估计(2.1.20)YXkIXXk′+′=−1)()(ˆβ是k的函数,所以在二维坐标平面上若以横轴为k,纵轴为,它将画出一条曲线。这条)(ˆkβ曲线我们称之为岭迹。前已指出,当k→0时,岭迹反映了最小二乘估计的不稳定性。当k→+∞时,岭迹将2ˆβ趋于0。在k从0到+∞的变化过程中,的变化可能比较复杂。)(ˆkβ关于岭参数选择的问题,已有许多文献讨论。讨论来讨论去,并没有一个公认最优的准则。7许多办法含有未知参数,又要对其进行估计。下一章我们将仔细介绍在方差分量模型的广义岭估计中岭参数的选择办法。这里我们只简要介绍几种较有影响的方法和原则。1.岭迹稳定观察岭迹曲线,原则上应该选取使稳定的最小k值,同时残差平方和也不增加太多。)(ˆkβ2.均方误差小岭估计的均方误差还是k的函数,可以证明它能在某处2||)ˆ)(ˆ(||))(ˆ(βββ−=kEkMSE取得最小值。计算并观察,开始它将下降,到达最小值后开始上升。取它最小处))(ˆ(kMSEβ的k作为岭参数。3.22ˆmax/ˆikσσ=假设回归模型Y=Xβ+ε的设计阵X已中心化,即0121=+++=′pXXXXL并设P为正交方阵,使(2.1.21)),,,()(21pdiagPXXPλλλL=Λ=′′记α=P
本文标题:经济回归模型及计算 童恒庆 第02章
链接地址:https://www.777doc.com/doc-1162554 .html