您好,欢迎访问三七文档
第七章多重共线性Multi-Collinearity•一、多重共线性的概念•二、实际经济问题中的多重共线性•三、多重共线性的后果•四、多重共线性的检验•五、克服多重共线性的方法•六、案例§4.3多重共线性一、多重共线性的概念对于模型Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。如果存在c1X1i+c2X2i+…+ckXki=0i=1,2,…,n其中:ci不全为0,则称为解释变量间存在完全共线性(perfectmulticollinearity)。如果存在c1X1i+c2X2i+…+ckXki+vi=0i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为近似共线性(approximatemulticollinearity)或交互相关(intercorrelated)。注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。二、实际经济问题中的多重共线性一般地,产生多重共线性的主要原因有以下三个方面:(1)经济变量相关的共同趋势时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。(2)滞后变量的引入在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。(3)样本资料的限制由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。一般经验:时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据样本:问题不那么严重,但多重共线性仍然是存在的。二、多重共线性的后果1、完全共线性下参数估计量不存在如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。μXβY的OLS估计量为:YXXXβ1)(ˆ2、近似共线性下OLS估计量非有效近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为由于|X’X|0,引起(X’X)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。12)()ˆ(XXβCov多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(VarianceInflationFactor,VIF)当完全不共线时,r2=02121/)ˆvar(ix当近似共线时,0r212122212111)ˆvar(iixrx表4.3.1方差膨胀因子表相关系数平方00.50.80.90.950.960.970.980.990.999方差膨胀因子12510202533501001000当完全共线时,r2=1,)ˆvar(13、参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性,例如X2=X1,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。4、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大容易使通过样本计算的t值小于临界值,误导作出参数为0的推断可能将重要的解释变量排除在模型之外5、模型的预测功能失效变大的方差容易使区间预测的“区间”变大,使预测失去意义。注意:除非是完全共线性,多重共线性并不意味着任何基本假设的违背;因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。三、检验多重共线性(1)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。也可以建立两解释变量的回归模型,若拟合优度高(R2)接近1.(2)对多个解释变量的模型,采用综合统计检验法若在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。(3)判定系数检验法(辅助回归模型检验)使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归Xji=1X1i+2X2i+LXLi的判定系数较大,说明Xj与其他X间存在共线性。在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。•也可以计算两两变量的相关系数,其值接近1或-1的,说明相应的解释变量之间线性关系显著.另一等价的检验是:•4参数估计值的经济检验•考察参数估计值的符号和大小,如果不符合经济理论或实际情况,说明模型中可能存在多重共线性•5参数估计值的稳定性•如果对模型增加一个解释变量之后,发现模型的参数估计值变化明显,则表明在解释变量之间(包括新添解释变量在内)可能存在多重共线性。1、增加样本容量•如果多重共线性是由样本特性所引起,如果理论上解释变量之间不存在多重共线性,则可以通过收集更多的观测值增加样本容量,来避免或减弱多重共线性。如将时间序列和截面数据合并成平行数据。但当解释变量的总体存在多重共线性时,理论上说增加再多的样本容量也不能降低解释变量之间的线性关系。四、克服多重共线性的方法•2、剔除引起共线性的变量•根据经济理论和实际经验设定计量经济模型时,容易考虑过多的解释变量,其中,有些可能是无显著影响的次要变量,还有一些变量的影响可以用模型中的其他变量来代替。所以在估计模型之前,找出引起多重共线性的变量,将它剔除出去,是最有效的克服多重共线性问题的方法。3、变换模型的形式•对原模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有两种变换方式:•一是变换模型的函数形式,如著名的柯布-道格拉斯生产函数模型中,劳动投入量和资本投入量是高度相关的,如果已知规模报酬不变,则可以利用进行参数估计。•二是变换模型的变量形式,例如,如果将需求函数取成:,商品的自价格和互价格之间往往是高度相关的,此时可以用相对价格综合价格的影响,将需求函数设成:1012031QYPPu01201()QYPPu四、逐步回归法•该方法不仅可以对多重共线性进行判别,同时也是处理多重共线性问题的一种有效方法。其步骤为:•(1)用被解释变量分别对每个解释变量进行线性回归,根据经济理论和统计检验从中选择一个最合适的回归模型作为基本回归模型,通常选取决定系数最大的回归模型。•(2)在基本回归模型中逐个增加其他解释变量,重新进行线性回归,如果新增加的这个解释变量提高了回归模型的决定系数,并且回归模型中的其他参数统计上仍然显著,就在模型中保留该解释变量;如果新增加的解释变量没有显著提高回归模型的拟合优度,则不在模型中保留该解释变量;如果新增加的解释变量提高了回归模型的决定系数,并且回归模型中某些参数的数值或符号等受到显著的影响,说明模型中存在多重共线性,对该解释变量同与之相关的其他解释变量进行比较,在模型中保留对被解释变量影响较大的,剔除影响较小的。五数据的中心化处理1011221...njjiijijijiiiikkiiXXnXXXYXXX六、案例——中国粮食生产函数根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1X1+2X2+3X3+4X4+4X5+表4.3.3中国粮食生产与相关投入资料年份粮食产量Y(万吨)农业化肥施用量1X(万公斤)粮食播种面积2X(千公顷)受灾面积3X(公顷)农业机械总动力4X(万千瓦)农业劳动力5X(万人)1983387281659.811404716209.31802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.02295030467.01987402081999.311126820392.72483630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.111231427814.02938934186.31992442642930.211056025894.73030834037.01993456493151.911050923133.03181733258.21994445103317.910954431383.03380232690.31995466623593.711006022267.03611832334.51996504543827.911254821233.03854732260.41997494173980.711291230309.04201632434.91998512304083.711378725181.04520832626.41999508394124.311316126731.04899632911.82000462184146.410846334374.05257432797.51、用OLS法估计上述模型:R2接近于1;给定=5%,得F临界值F0.05(5,12)=3.11F=638.415.19,故认上述粮食生产的总体线性关系显著成立。但X4、X5的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。54321028.0098.0166.0421.0213.644.12816ˆXXXXXY(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)2、检验简单相关系数•发现:X1与X4间存在高度相关性。列出X1,X2,X3,X4,X5的相关系数矩阵:X1X2X3X4X5X11.000.010.640.960.55X20.011.00-0.45-0.040.18X30.64-0.451.000.690.36X40.96-0.040.691.000.45X50.550.180.360.451.003、找出最简单的回归形式•可见,应选第1个式子为初始的回归模型。分别作Y与X1,X2,X4,X5间的回归:1576.464.30867ˆXY(25.58)(11.49)R2=0.8919F=132.1DW=1.562699.018.33821ˆXY(-0.49)(1.14)R2=0.075F=1.30DW=0.124380.00.31919ˆXY(17.45)(6.68)R2=0.7527F=48.7DW=1.115240.219.28259ˆXY(-1.04)(2.66)R2=0.3064F=7.07DW=0.364、逐步回归将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。CX1X2X3X4X52RDWY=f(X1)308684.230.88521.56t值25.5811.49Y=f(X1,X2)-438714.650.670.95582.01t值-3.0218.475.16Y=f(X1,X2,X3)-119785.260.41-0.190.97521.53t值0.8519.63.35-3.57Y=f
本文标题:计量经济学教案7
链接地址:https://www.777doc.com/doc-2061791 .html