您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 计量经济学第七章多重共线性
1第七章多重共线性“多重共线性”一词由R.Frisch1934年提出,它原指模型的解释变量间存在线性关系。7.1多重共线性及产生的原因7.1.1.非多重共线性假定111211212221121111kkTTTkxxxxxxXxxx如果rk(X'X)=rk(X)<k或`0XX称解释变量是完全共线性相关。在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110kkxxxu7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E+001.E+112.E+113.E+114.E+110.0E+005.0E+101.0E+111.5E+112.0E+112.5E+11CONSGDPofHongKong(2)解释变量与其滞后变量同作解释变量。滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。(见下图)(3)解释变量之间往往存在密切的关联度。2对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1)当`0XX,X为降秩矩阵,则(X'X)-1不存在,ˆ=(X'X)-1X'Y不可计算。(2)若`0XX,ˆ=(X'X)-1X'Y,可以计算,ˆ仍具有线性、无偏性和最小方差性。如:E(ˆ)=E[(X'X)-1X'Y]=E[(X'X)-1X'(X+u)]=+(X'X)-1X'E(u)=.但21ˆcov()(`)XX中的对角元素值将很大。即各共线变量的参数的OLS估计值的方差很大,即估计值的精度很低。可以证明,参数的方差为:221ˆvar()()1iitiixxR其中,2iR是第i个解释变量对其他解释变量辅助回归模型的决定系数,211iR称为方差膨胀因子,记为VIFi,当xi与其他解释变量存在严重多重共线性时,即2iR→1,VIF将趋近于无穷。反之,相反。(3)可能导致在假设检验中舍去重要的解释变量,检验的可靠性降低。当X'X0,Var(ˆ)=2(X'X)-1变得很大。ˆ()ts统计很小,有可能发生弃真误差。3(4)回归模型缺乏稳定性从同一总体中抽不同样本估计模型,得到的参数估计值如相差不大,说明模型稳定。当存在多重线性时,估计值极不稳定,样本的轻微变化,就有可能靠成参数估计值很大变化,因而建立的回归模型的可靠性降低。7.3.多重共线性的检验7.3.1初步观察。(1)当模型的拟合优度(R2)很高,F值很高,而每个回归参数估计值的方差Var(j)又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。(2)Klein判别法。计算多重可决系数R2及解释变量间的简单相关系数rxixj。若有某个rxixjR2,则xi,xj间的多重共线性是有害的。(3)回归参数估计值的符号如果不符合经济理论,模型有可能存在多重共线性。(4)增加或减少解释变量个数时,回归参数估计值变化很大,说明模型有可能存在多重共线性。7.3.2辅助回归模型检验将每个解释变量对其它解释变量进行回归:12111(,,,,)iiikxfxxxxx检验拟合优度与F统计量是否显著。7.3.3方差膨胀因子检验一般地211iR大于5或大于10(此时,2iR大于0.8或0.9)可以认为存在较严重的多重共线性。7.3.4特征值检验样本数据阵为:111211212221121111kkTTTkxxxxxxXxxx,当存在多重共线性时,rk(X'X)=rk(X)<k或`0XX,当`0XX,若12,,,k为矩阵的特征值,则有:12`0kXX,这表明至少有一个特征值近似地等于0.构造检验指标:条件指标(病态指标)CN和病态指标CI,定义CN=最大特征值/4最小特征值:CI=CN。一般检验法则是:CI大于10认为存在多重共线性,大于30认为存在严重多重共线线。此外还有其他一些检验方法,如主成分分析法等,很复杂。例:P233略:7.4.多重共线性的克服方法7.4.1直接合并解释变量当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。7.4.2利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型yt=0+1xt1+2xt2+ut(7.20)x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系数1与2的某种关系,例如2=1(7.21)其中为常数。把上式代入模型(7.20),得yt=0+1xt1+1xt2+ut=0+1(xt1+xt2)+ut(7.22)令xt=xt1+xt2得yt=0+1xt+ut(7.23)模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估计模型(7.23),得到1ˆ,然后再利用(7.21)式求出2ˆ。下面以道格拉斯(Douglass)生产函数为例,做进一步说明。Yt=KLtCteut(7.24)5其中Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后,LnYt=LnKt+LnLt+LnCt+ut(7.25)因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出,的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条件+=1利用这一关系把模型(7.25)变为LnYt=LnKt+LnLt+(1-)LnCt+ut整理后,Ln(ttCY)=LnKt+Ln(ttCL)+ut(7.26)变成了Ln(Yt/Ct)对Ln(Lt/Ct)的一元线性回归模型,自然消除了多重共线性。估计出后,再利用关系式+=1,估计。7.4.3增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。7.4.4合并截面数据与时间序列数据这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量Yt模型如下,LnYt=0+1LnPt+2LnIt+ut(7.29)其中Yt表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。首先利用截面数据估计收入弹性系数2。因为在截面数据中,平均价格是一个常量,所以不存在对1的估计问题。6把用截面数据得到的收入弹性系数估计值2ˆ代入原模型(7.29)。得LnYt=0+1LnPt+2ˆLnIt+ut移项整理LnYt-2ˆLnIt=0+1LnPt+ut变换后的因变量(LnYt-2ˆLnIt)用Zt表示,则Zt=0+1LnPt+ut(7.30)这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出0ˆ,1ˆ。这样便求到相对于模型(7.29)的估计式,tLnY=0ˆ+1ˆLnPt+2ˆLnIt其中2ˆ是用截面数据估计的,0ˆ,1ˆ是由时间序列数据估计的。由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的2ˆ相同。当这种假设不成立时,这种估计方法会带来估计误差。7.4..5逐步回归法(1)用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。①若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。②若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。③若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。舍弃该变量。7.4.6主成分回归:略例:P240略7案例1:关于中国电信业务总量的计量经济模型(file:coline2)经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下,Lny=24.94+2.16x1–3.03x2+33.7x3+1.29x4-2.03x5(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)R2=0.9944,F=106.3,DW=3.4,T=9,(1991-1999),t0.05(3)=3.18,R2=0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。0102030400.51.01.52.0X1Y012340.51.01.52.0X1LOG(Y)801020304011.411.611.812.012.212.412.6X2Y0123411.411.611.812.012.212.412.6X2LOG(Y)0102030400.260.270.280.290.300.31X3Y012340.260.270.280.290.300.31X3LOG(Y)0102030401234567X4Y012341234567X4LOG(Y)0102030400.51.01.52.02.53.03.5X5Y012340.51.01.52.02.53.03.5X5LOG(Y)下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R2=0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。Ln(y)X1X2X3X4X5Ln(y)1.0000x10.98331.0000x20.99380.98951.0000x30.98750.97000.98821.0000x40.98200.96280.98720.96781.0000x50.98150.97030.98880.96540.99861.0000用逐步回归法筛选解释变量。9(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的
本文标题:计量经济学第七章多重共线性
链接地址:https://www.777doc.com/doc-2061897 .html