您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第6章-多元线性回归模型
第6章多元线性回归模型张晓峒(2009-7-23)南开大学数量经济研究所所长、博士生导师中国数量经济学会常务理事、天津市数量经济学会理事长nkeviews@yahoo.com.cn(南开大学经济学院数量经济研究所)6.1多元线性回归模型及其假定条件6.1.1模型的建立第5章介绍了一元线性回归模型的建立、估计、检验与预测。在实际经济问题中,有时研究对象(被解释变量)不是只受一个而是受多个解释变量影响。这时就需要建立多元回归模型进行研究。假定变量yt与k-1个解释变量xtj,j=1,…,k–1,存在线性关系。多元线性回归模型表示为;yt=0+1xt1+2xt2+…+k-1xtk-1+ut(6-1)其中yt是被解释变量(因变量),xtj,j=1,…,k–1,是解释变量(自变量),ut是随机误差项,i,i=0,1,…,k-1是回归参数(通常未知)。这说明xtj是yt的重要解释变量。ut代表众多影响yt变化的微小因素。当给定一个样本(yt,xt1,xt2,…,xtk-1),t=1,2,…,T时,上述模型表示为,y1=0+1x11+2x12+…+k-1x1k-1+u1y2=0+1x21+2x22+…+k-1x2k-1+u2…yT=0+1xT1+2xT2+…+k-1xTk-1+uT,(6-2)此时yt与xtj,(t=1,2,…,T,j=1,…,k-1)已知,j,(j=0,1,…,k-1)与ut,(t=1,2,…,T)未知。用矩阵形式表达方程组(6-2)如下。6.1多元线性回归模型及其假定条件y1=0+1x11+2x12+…+k-1x1k-1+u1y2=0+1x21+2x22+…+k-1x2k-1+u2…yT=0+1xT1+2xT2+…+k-1xTk-1+uT,(6-2))1(21TTyyy=)(111222111111111kTkTTjTkjkjxxxxxxxxx)1(110kk+)1(21TTuuu(6-3)令Y=)1(21TTyyy,X=)(111222111111111kTkTTjTkjkjxxxxxxxxx,=)1(110kk,u=)1(21TTuuu则式(6-3)可以写为,Y=X+u6.1.2模型的假定条件假定⑴随机误差项向量u是非自相关的,同方差的。其中每一项都满足均值为零,方差为2,相同且为有限值,即E(u)=0=)1(000T,Var(u)=2I=2)(10000001TT假定⑵解释变量与误差项相互独立,即E(X'u)=0假定⑶解释变量之间线性无关。rk(X'X)=rk(X)=k.其中rk()表示矩阵的秩。假定⑷解释变量是非随机的,且当T→∞时T–1X'X→Q其中Q是一个有限值的非退化矩阵。6.2最小二乘法最小二乘(OLS)法的原理是通过求残差(误差项的估计值)平方和最小确定回归参数估计值。这是求极值问题。minS=uˆ'uˆ=(Y-Yˆ)'(Y-Yˆ)=(Y-Xˆ)'(Y-Xˆ)=Y'Y-ˆ'X'Y-Y'Xˆ+ˆ'X'Xˆ=Y'Y-2ˆ'X'Y+ˆ'X'Xˆ因为Y'Xˆ是一个标量,所以有Y'Xˆ=ˆ'X'Y。求S对ˆ'的一阶偏导数,并令其为零,ˆS=-2X'Y+2X'Xˆ=0(6-6)化简得,X'Y=X'Xˆ,因为(X'X)是一个非退化矩阵(见假定⑶),所以必有(X'X)-1存在。用(X'X)-1左乘上式,得ˆ=(X'X)-1X'Y(6-7)6.3.1线性特性(X'X)-1X是一个常数矩阵,由式(6-7)知ˆ是Y的线性组合,为线性估计量。ˆ具有线性特性。6.3.2无偏特性利用假定(1),E(u)=0,由式ˆ=(X'X)-1X'Y,E(ˆ)=+(X'X)-1X'E(u)=(6-12)ˆ是的线性无偏估计量,具有无偏性。6.3.3最小方差性下面求ˆ的方差协方差矩阵。当假定(1)、(3)、(4)成立时,利用上式得Var(ˆ)=E[(ˆ–)(ˆ–)']=E[(X'X)-1X'uu'X(X'X)-1]=E[(X'X)-1X'2IX(X'X)-1]=2(X'X)-1(6-13)ˆ具有最小方差特性。6.3.4渐近无偏性TplimE(ˆ)=TplimE[(X'X)-1X'Y]=TplimE[(X'X)-1X'(X+u)]=+Tplim(-X'X)-1Tplim-X'E(u)=(6-18)6.3.5一致性下面证明OLS估计量的一致性。由式(6-13)有Var(ˆ)=2(X'X)-1=-2(-X'X)-1(6-19)取极限,则有TplimVar(ˆ)=TplimT-1Tplim(-X'X)-1利用假定(4),T–1X'X→Q,得TplimVar(ˆ)=TplimT-1Q-1=0.OLS估计量ˆ具有渐近无偏性且渐近方差为零,因此有Tplimˆ=这说明ˆ是的一致估计量。6.4残差的方差定义残差的方差为s2=uˆ'uˆ/(T-k)s2是随机误差项方差的无偏估计量,E(s2)=。6.5Y与最小二乘估计量ˆ的分布若假定uN(0,I),则每个ut都服从正态分布。于是有YN(X,I)ˆN(,(X'X)-1)(6-34)通常未知。可用的无偏估计量s构造Var(ˆ)的估计式,Var(ˆ)=2)ˆ(βs=s(X'X)-1(6-35)Var(ˆ)也用2sˆ表示。因为s是的无偏估计量,所以2sˆ=s(X'X)-1也是Var(ˆ)=(X'X)-1的无偏估计量。6.6.2多重确定系数R2R2=22ˆˆyTyTTSSESS-YYY'Y(6-41)多重可决系数R2的取值范围在[0,1]之间。R2越接近1,估计的回归函数对样本点的拟合优度越好,即解释变量对被解释变量的解释作用越强。6.6.3调整的多重确定系数2R对于给定的样本值yt,TSS是不变的。随着模型中解释变量个数的增加,RSS趋向于变小,即确定系数R2变大。为考虑模型中解释变量个数的变化对R2的影响,调整的多重可决系数2R定义如下,2R=1-)1/()/(TTSSkTRSS(6-42)用式(6-41)可以推导出TSSRSSTSSRSSTSSTSSESSR12。通常2R的值比R2小。2R和R2的关系是2R=1-)1/()/(TTSSkTRSS=1-)1(kTT)(TSSESSTSS=1-kTT1(1-R2)(6-43)6.7F检验对于多元线性回归模型,在对每个回归系数进行显著性检验之前,应该对回归模型的整体做显著性检验。这个检验要用到F统计量。当检验被解释变量yt与一组解释变量x1,x2,...,xk-1是否存在回归关系时,给出的零假设与备择假设分别是H0:1=2=...=k-1=0,H1:i,i=1,...,k-1,不全为零。注意,H1定义的是“i不全为零”,而不是“i全不为零”。而且i中不包括0。定义F统计量为F=)/()1/(kTRSSkESS(6-45)在H0成立条件下,有F=)/()1/(kTRSSkESSF(k-1,T-k)给定检验水平为,则检验规则是若用样本计算的FF(k-1,T-k),则接受H0,若用样本计算的FF(k-1,T-k),则拒绝H0。12340.10.20.30.40.50.6图6-1F检验示意图F(k-1,T-k)-4-2240.10.20.30.4图6-2t检验示意图/2/2-t/2(T-k)t/2(T-k)6.8t检验和回归系数的置信区间H0:j=0,(j=1,2,…,k-1),H1:j0,(j=1,2,…,k–1).在H0成立条件下,t=)ˆ(ˆjsj=1)ˆ(ˆjjVar=112)'(ˆjjsXXt(T-k)(6-46)其中)ˆ(js表示jˆ的估计的标准差,即jˆ的方差协方差矩阵s2(X'X)-1主对角线上第j+1个元素的算术平方根。s按式(6-23)计算,是对的估计。设检验水平为,则检验规则是,若用样本计算的tt/2(T-k),则接受H0,若用样本计算的tt/2(T-k),则拒绝H0。其中表示检验水平,t/2(T-k)表示临界值。t检验示意图见图6-2。注意:对于模型(6-1),上述t检验应做k-1次。t检验是双侧(双端、双边)检验。6.9预测6.9.1点预测设T+1期解释变量向量用C表示,C=(1xT+1,1xT+1,2…xT+1,k-1)(6-48)ˆ已知。则T+1期被解释变量yT+1的点预测式是,1ˆTy=Cˆ=ˆ0+ˆ1xT+11+…+ˆk-1xT+1k-1(6-49)yT+1的95%置信度的置信区间是[Cˆ-t/2(T-k))(1Tes,Cˆ+t/2(T-k))(1Tes](6-53)其中)(1Tes=s1')'(1CXXC6.9.3E(yT+1)的置信区间预测E(yT+1)的置信区间[1ˆTy-t/2(T-k))ˆ(1Tys,1ˆTy+t/2(T-k))ˆ(1Tys](6-57)其中)ˆ(1Tys=s')'(1CXXC6.9.4预测的评价指标(1)预测误差预测误差定义为(注意:这里的et表示的是预测误差,不是残差)。et=tyˆ-yt,t=1,2,…,T(6-58)et属于单期(单点)评价。et有测量单位,测量的是预测误差的绝对量。(2)相对误差PE(PercentageError)PE=tttyyyˆ,t=1,2,…,T(6-59)PE属于单期(单点)评价。PE没有测量单位,测量的是预测误差的相对值。(3)误差均方根rmserror(RootMeanSquaredError)rmserror=TtttyyT12)ˆ(1,t=1,2,…,T(6-60)误差均方根属于多期(多点)预测的综合评价。误差均方根有测量单位,与yt的测量单位相同。6.9.4预测的评价指标(4)绝对误差平均MAE(MeanAbsoluteError)MAE=TtttyyT1ˆ1,t=1,2,…,T(6-61)绝对误差平均属于多期(多点)预测的综合评价。绝对误差平均有测量单位,与yt的测量单位相同。之所以取绝对值运算是防止正、负预测误差值的相互抵消。(5)相对误差绝对值平均MAPE(MeanAbsolutePercentageError)MAPE=TttttyyyT1ˆ1,t=1,2,…,T(6-62)相对误差绝对值平均属于多期(多点)预测的综合评价。相对误差绝对值平均没有测量单位,考查的是相对误差。之所以取绝对值运算是防止正、负预测相对误差值的相互抵消。(6)泽尔系数(TheilCoefficent)Theil=TttTttTtttyTyTyyT121212)(1)ˆ(1)ˆ(1,t=1,2,…,T(6-63)Theil的取值范围是[0,1]。显然在预测区间内,当tyˆ与yt完全相等时,Theil=0;当预测结果最差时,Theil=1。以上6个式子中,tyˆ表示预测值,yt表示实际值。公式中的累加范围是用1至T表示的,当然也可以指样本外的预测评价。第6章多元线性回归模型6.10多元线性回归计算举例例6-1被解释变量是年销售量yt(万瓶),解释变量分别是地区人口数(xt1,万人)和人均年收入(xt2,千元)。试建立二元线性回归销售模型。0.40.81.21.62.02.42.84812162024
本文标题:第6章-多元线性回归模型
链接地址:https://www.777doc.com/doc-6493018 .html