第6章-多元线性回归模型

第6章多元线性回归模型张晓峒（2009-7-23）南开大学数量经济研究所所长、博士生导师中国数量经济学会常务理事、天津市数量经济学会理事长nkeviews@yahoo.com.cn（南开大学经济学院数量经济研究所）6.1多元线性回归模型及其假定条件6.1.1模型的建立第5章介绍了一元线性回归模型的建立、估计、检验与预测。在实际经济问题中，有时研究对象（被解释变量）不是只受一个而是受多个解释变量影响。这时就需要建立多元回归模型进行研究。假定变量yt与k-1个解释变量xtj,j=1,…,k–1，存在线性关系。多元线性回归模型表示为；yt=0+1xt1+2xt2+…+k-1xtk-1+ut(6-1)其中yt是被解释变量（因变量），xtj,j=1,…,k–1，是解释变量（自变量），ut是随机误差项，i,i=0,1,…,k-1是回归参数（通常未知）。这说明xtj是yt的重要解释变量。ut代表众多影响yt变化的微小因素。当给定一个样本（yt,xt1,xt2,…,xtk-1），t=1,2,…,T时，上述模型表示为，y1=0+1x11+2x12+…+k-1x1k-1+u1y2=0+1x21+2x22+…+k-1x2k-1+u2…yT=0+1xT1+2xT2+…+k-1xTk-1+uT,(6-2)此时yt与xtj,（t=1,2,…,T,j=1,…,k-1）已知，j，（j=0,1,…,k-1）与ut，（t=1,2,…,T）未知。用矩阵形式表达方程组(6-2)如下。6.1多元线性回归模型及其假定条件y1=0+1x11+2x12+…+k-1x1k-1+u1y2=0+1x21+2x22+…+k-1x2k-1+u2…yT=0+1xT1+2xT2+…+k-1xTk-1+uT,(6-2))1(21TTyyy=)(111222111111111kTkTTjTkjkjxxxxxxxxx)1(110kk+)1(21TTuuu(6-3)令Y=)1(21TTyyy，X=)(111222111111111kTkTTjTkjkjxxxxxxxxx,=)1(110kk，u=)1(21TTuuu则式(6-3)可以写为，Y=X+u6.1.2模型的假定条件假定⑴随机误差项向量u是非自相关的，同方差的。其中每一项都满足均值为零，方差为2，相同且为有限值，即E(u)=0=)1(000T，Var(u)=2I=2)(10000001TT假定⑵解释变量与误差项相互独立，即E(X'u)=0假定⑶解释变量之间线性无关。rk(X'X)=rk(X)=k.其中rk()表示矩阵的秩。假定⑷解释变量是非随机的，且当T→∞时T–1X'X→Q其中Q是一个有限值的非退化矩阵。6.2最小二乘法最小二乘(OLS)法的原理是通过求残差（误差项的估计值）平方和最小确定回归参数估计值。这是求极值问题。minS=uˆ'uˆ=(Y-Yˆ)'(Y-Yˆ)=(Y-Xˆ)'(Y-Xˆ)=Y'Y-ˆ'X'Y-Y'Xˆ+ˆ'X'Xˆ=Y'Y-2ˆ'X'Y+ˆ'X'Xˆ因为Y'Xˆ是一个标量，所以有Y'Xˆ=ˆ'X'Y。求S对ˆ'的一阶偏导数，并令其为零，ˆS=-2X'Y+2X'Xˆ=0(6-6)化简得，X'Y=X'Xˆ，因为(X'X)是一个非退化矩阵（见假定⑶），所以必有(X'X)-1存在。用(X'X)-1左乘上式，得ˆ=(X'X)-1X'Y(6-7)6.3.1线性特性(X'X)-1X是一个常数矩阵，由式（6-7）知ˆ是Y的线性组合，为线性估计量。ˆ具有线性特性。6.3.2无偏特性利用假定(1)，E(u)=0，由式ˆ=(X'X)-1X'Y，E(ˆ)=+(X'X)-1X'E(u)=(6-12)ˆ是的线性无偏估计量，具有无偏性。6.3.3最小方差性下面求ˆ的方差协方差矩阵。当假定(1)、(3)、(4)成立时，利用上式得Var(ˆ)=E[(ˆ–)(ˆ–)']=E[(X'X)-1X'uu'X(X'X)-1]=E[(X'X)-1X'2IX(X'X)-1]=2(X'X)-1(6-13)ˆ具有最小方差特性。6.3.4渐近无偏性TplimE(ˆ)=TplimE[(X'X)-1X'Y]=TplimE[(X'X)-1X'(X+u)]=+Tplim(-X'X)-1Tplim-X'E(u)=(6-18)6.3.5一致性下面证明OLS估计量的一致性。由式（6-13）有Var(ˆ)=2(X'X)-1=-2(-X'X)-1(6-19)取极限，则有TplimVar(ˆ)=TplimT-1Tplim(-X'X)-1利用假定(4)，T–1X'X→Q，得TplimVar(ˆ)=TplimT-1Q-1=0.OLS估计量ˆ具有渐近无偏性且渐近方差为零，因此有Tplimˆ=这说明ˆ是的一致估计量。6.4残差的方差定义残差的方差为s2=uˆ'uˆ/(T-k)s2是随机误差项方差的无偏估计量，E(s2)=。6.5Y与最小二乘估计量ˆ的分布若假定uN(0,I),则每个ut都服从正态分布。于是有YN(X,I)ˆN(,(X'X)-1)(6-34)通常未知。可用的无偏估计量s构造Var(ˆ)的估计式，Var(ˆ)=2)ˆ(βs=s(X'X)-1(6-35)Var(ˆ)也用2sˆ表示。因为s是的无偏估计量，所以2sˆ=s(X'X)-1也是Var(ˆ)=(X'X)-1的无偏估计量。6.6.2多重确定系数R2R2=22ˆˆyTyTTSSESS-YYY'Y(6-41)多重可决系数R2的取值范围在[0,1]之间。R2越接近1，估计的回归函数对样本点的拟合优度越好，即解释变量对被解释变量的解释作用越强。6.6.3调整的多重确定系数2R对于给定的样本值yt，TSS是不变的。随着模型中解释变量个数的增加，RSS趋向于变小，即确定系数R2变大。为考虑模型中解释变量个数的变化对R2的影响，调整的多重可决系数2R定义如下，2R=1-)1/()/(TTSSkTRSS(6-42)用式(6-41)可以推导出TSSRSSTSSRSSTSSTSSESSR12。通常2R的值比R2小。2R和R2的关系是2R=1-)1/()/(TTSSkTRSS=1-)1(kTT)(TSSESSTSS=1-kTT1(1-R2)(6-43)6.7F检验对于多元线性回归模型，在对每个回归系数进行显著性检验之前，应该对回归模型的整体做显著性检验。这个检验要用到F统计量。当检验被解释变量yt与一组解释变量x1,x2,...,xk-1是否存在回归关系时，给出的零假设与备择假设分别是H0：1=2=...=k-1=0,H1：i,i=1,...,k-1，不全为零。注意，H1定义的是“i不全为零”，而不是“i全不为零”。而且i中不包括0。定义F统计量为F=)/()1/(kTRSSkESS(6-45)在H0成立条件下，有F=)/()1/(kTRSSkESSF(k-1,T-k)给定检验水平为，则检验规则是若用样本计算的FF(k-1,T-k)，则接受H0，若用样本计算的FF(k-1,T-k)，则拒绝H0。12340.10.20.30.40.50.6图6-1F检验示意图F(k-1,T-k)-4-2240.10.20.30.4图6-2t检验示意图/2/2-t/2(T-k)t/2(T-k)6.8t检验和回归系数的置信区间H0：j=0,(j=1,2,…,k-1),H1：j0,(j=1,2,…,k–1).在H0成立条件下，t=)ˆ(ˆjsj=1)ˆ(ˆjjVar=112)'(ˆjjsXXt(T-k)(6-46)其中)ˆ(js表示jˆ的估计的标准差，即jˆ的方差协方差矩阵s2(X'X)-1主对角线上第j+1个元素的算术平方根。s按式（6-23）计算，是对的估计。设检验水平为，则检验规则是，若用样本计算的tt/2(T-k)，则接受H0，若用样本计算的tt/2(T-k)，则拒绝H0。其中表示检验水平，t/2(T-k)表示临界值。t检验示意图见图6-2。注意：对于模型(6-1)，上述t检验应做k-1次。t检验是双侧（双端、双边）检验。6.9预测6.9.1点预测设T+1期解释变量向量用C表示，C=(1xT+1,1xT+1,2…xT+1,k-1)(6-48)ˆ已知。则T+1期被解释变量yT+1的点预测式是，1ˆTy=Cˆ=ˆ0+ˆ1xT+11+…+ˆk-1xT+1k-1(6-49)yT+1的95%置信度的置信区间是[Cˆ-t/2(T-k))(1Tes，Cˆ+t/2(T-k))(1Tes](6-53)其中)(1Tes=s1')'(1CXXC6.9.3E(yT+1)的置信区间预测E(yT+1)的置信区间[1ˆTy-t/2(T-k))ˆ(1Tys，1ˆTy+t/2(T-k))ˆ(1Tys](6-57)其中)ˆ(1Tys=s')'(1CXXC6.9.4预测的评价指标(1)预测误差预测误差定义为（注意：这里的et表示的是预测误差，不是残差）。et=tyˆ-yt,t=1,2,…,T(6-58)et属于单期（单点）评价。et有测量单位，测量的是预测误差的绝对量。(2)相对误差PE(PercentageError)PE=tttyyyˆ,t=1,2,…,T(6-59)PE属于单期（单点）评价。PE没有测量单位，测量的是预测误差的相对值。(3)误差均方根rmserror(RootMeanSquaredError)rmserror=TtttyyT12)ˆ(1,t=1,2,…,T(6-60)误差均方根属于多期（多点）预测的综合评价。误差均方根有测量单位，与yt的测量单位相同。6.9.4预测的评价指标(4)绝对误差平均MAE(MeanAbsoluteError)MAE=TtttyyT1ˆ1,t=1,2,…,T(6-61)绝对误差平均属于多期（多点）预测的综合评价。绝对误差平均有测量单位，与yt的测量单位相同。之所以取绝对值运算是防止正、负预测误差值的相互抵消。(5)相对误差绝对值平均MAPE(MeanAbsolutePercentageError)MAPE=TttttyyyT1ˆ1,t=1,2,…,T(6-62)相对误差绝对值平均属于多期（多点）预测的综合评价。相对误差绝对值平均没有测量单位，考查的是相对误差。之所以取绝对值运算是防止正、负预测相对误差值的相互抵消。(6)泽尔系数(TheilCoefficent)Theil=TttTttTtttyTyTyyT121212)(1)ˆ(1)ˆ(1,t=1,2,…,T(6-63)Theil的取值范围是[0,1]。显然在预测区间内，当tyˆ与yt完全相等时，Theil=0；当预测结果最差时，Theil=1。以上6个式子中，tyˆ表示预测值，yt表示实际值。公式中的累加范围是用1至T表示的，当然也可以指样本外的预测评价。第6章多元线性回归模型6.10多元线性回归计算举例例6-1被解释变量是年销售量yt(万瓶)，解释变量分别是地区人口数(xt1，万人)和人均年收入(xt2，千元)。试建立二元线性回归销售模型。0.40.81.21.62.02.42.84812162024

第6章-多元线性回归模型

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

龙湖地产楼盘英文名简析

保险初步接触客户的技巧

第九章-存款货币银行-习题与答案

汽车结构图解明细

数据通信技术课件-第2章

读者协会活动策划

经典流程--系统分析方法

工程招投标与合同管理修改的

讲师技能培训

关于印发《永春县民爆物品安全管理规定》的通知

相关文档

相关搜索