计量经济学43-多重共线性.

§4.3多重共线性Multi-Collinearity•一、多重共线性的概念•二、实际经济问题中的多重共线性•三、多重共线性的后果•四、多重共线性的检验•五、克服多重共线性的方法•六、案例•*七、分部回归与多重共线性§4.3多重共线性一、多重共线性的概念对于模型Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性，则称为多重共线性(Multicollinearity)。如果存在c1X1i+c2X2i+…+ckXki=0i=1,2,…,n其中:ci不全为0，则称为解释变量间存在完全共线性（perfectmulticollinearity）。如果存在c1X1i+c2X2i+…+ckXki+vi=0i=1,2,…,n其中ci不全为0，vi为随机误差项，则称为近似共线性（approximatemulticollinearity）或交互相关(intercorrelated)。在矩阵表示的线性回归模型Y=X+中，完全共线性指：秩(X)k+1，即knnnkkXXXXXXXXXX212221212111111中，至少有一列向量可由其他列向量（不包括第一列）线性表出。如：X2=X1，则X2对Y的作用可由X1代替。注意：完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。二、实际经济问题中的多重共线性一般地，产生多重共线性的主要原因有以下三个方面：（1）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。（2）滞后变量的引入在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入,前期收入）显然，两期收入间有较强的线性相关性。（3）样本资料的限制由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。一般经验：时间序列数据样本：简单线性模型，往往存在多重共线性。截面数据样本：问题不那么严重，但多重共线性仍然是存在的。二、多重共线性的后果1、完全共线性下参数估计量不存在如果存在完全共线性，则(X’X)-1不存在，无法得到参数的估计量。μXβY的OLS估计量为：YXXXβ1)(ˆ例：对离差形式的二元回归模型2211xxy如果两个解释变量完全相关，如x2=x1，则121)(xy这时，只能确定综合参数1+2的估计值：2、近似共线性下OLS估计量非有效近似共线性下，可以得到OLS参数估计量，但参数估计量方差的表达式为由于|X’X|0，引起(X’X)-1主对角线元素较大，使参数估计值的方差增大，OLS参数估计量非有效。12)()ˆ(XXβCov仍以二元线性模型y=1x1+2x2+为例:2221221212221222122211121)(1/)()()ˆvar(iiiiiiiiiixxxxxxxxxxXX221211rxi2221221)(iiiixxxx恰为X1与X2的线性相关系数的平方r2由于r21，故1/(1-r2)1多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(VarianceInflationFactor,VIF)当完全不共线时,r2=02121/)ˆvar(ix当近似共线时,0r212122212111)ˆvar(iixrx表4.3.1方差膨胀因子表相关系数平方00.50.80.90.950.960.970.980.990.999方差膨胀因子12510202533501001000当完全共线时，r2=1，)ˆvar(13、参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性，例如X2=X1，这时，X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义，于是经常表现出似乎反常的现象：例如1本来应该是正的，结果恰是负的。4、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大容易使通过样本计算的t值小于临界值，误导作出参数为0的推断可能将重要的解释变量排除在模型之外5、模型的预测功能失效变大的方差容易使区间预测的“区间”变大，使预测失去意义。注意：除非是完全共线性，多重共线性并不意味着任何基本假设的违背；因此，即使出现较高程度的多重共线性，OLS估计量仍具有线性性等良好的统计性质。问题在于，即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。多重共线性检验的任务是：（1）检验多重共线性是否存在；（2）估计多重共线性的范围，即判断哪些变量之间存在共线性。多重共线性表现为解释变量之间具有相关关系，所以用于多重共线性的检验方法主要是统计方法：如判定系数检验法、逐步回归检验法等。三、多重共线性的检验1、检验多重共线性是否存在(1)对两个解释变量的模型，采用简单相关系数法求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。(2)对多个解释变量的模型，采用综合统计检验法若在OLS法下：R2与F值较大，但t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。2、判明存在多重共线性的范围如果存在多重共线性，需进一步确定究竟由哪些变量引起。(1)判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。如果某一种回归Xji=1X1i+2X2i+LXLi的判定系数较大，说明Xj与其他X间存在共线性。具体可进一步对上述回归方程作F检验：式中：Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数，若存在较强的共线性，则Rj•2较大且接近于1，这时（1-Rj•2）较小，从而Fj的值较大。因此，给定显著性水平，计算F值，并与相应的临界值比较，来判定是否存在相关性。构造如下F统计量)1,2(~)1/()1()2/(2.2.knkFknRkRFjjj在模型中排除某一个解释变量Xj，估计模型；如果拟合优度与包含Xj时十分接近，则说明Xj与其它解释变量之间存在共线性。另一等价的检验是:(2)逐步回归法以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；如果拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系。找出引起多重共线性的解释变量，将它排除出去。以逐步回归法得到最广泛的应用。•注意：这时，剩余解释变量参数的经济含义和数值都发生了变化。如果模型被检验证明存在多重共线性，则需要发展新的方法估计模型，最常用的方法有三类。四、克服多重共线性的方法1、第一类方法：排除引起共线性的变量2、第二类方法：差分法时间序列数据、线性模型：将原模型变换为差分模型:Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共线性。一般讲，增量之间的线性关系远比总量之间的线性关系弱得多。例如：表4.3.2中国GDP与居民消费C的总量与增量数据（亿元）年份CYC/Y△C△Y△C/△Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.40.531287.0350.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.518890.41762.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.530199734854.674894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40.556由表中的比值可以直观地看到，增量的线性关系弱于总量之间的线性关系。进一步分析：Y与C(-1)之间的判定系数为0.9988，△Y与△C(-1)之间的判定系数为0.95673、第三类方法：减小参数估计量的方差多重共线性的主要后果是参数估计量具有较大的方差，所以采取适当方法减小参数估计量的方差，虽然没有消除模型中的多重共线性，但确能消除多重共线性造成的后果。例如：①增加样本容量，可使参数估计量的方差减小。*②岭回归法（RidgeRegression）70年代发展的岭回归法，以引入偏误为代价减小参数估计量的方差，受到人们的重视。具体方法是：引入矩阵D，使参数估计量为其中矩阵D一般选择为主对角阵，即D=aIa为大于0的常数。YXDXXβ1)(ˆ（*）显然，与未含D的参数B的估计量相比，(*)式的估计量有较小的方差。六、案例——中国粮食生产函数根据理论和经验分析，影响粮食生产（Y）的主要因素有：农业化肥施用量（X1）；粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5)已知中国粮食生产的相关数据，建立中国粮食生产函数：Y=0+1X1+2X2+3X3+4X4+4X5+表4.3.3中国粮食生产与相关投入资料年份粮食产量Y(万吨)农业化肥施用量1X（万公斤）粮食播种面积2X（千公顷）受灾面积3X（公顷）农业机械总动力4X（万千瓦）农业劳动力5X（万人）1983387281659.811404716209.31802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.02295030467.01987402081999.311126820392.72483630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.41991435292806.1112314278

计量经济学43-多重共线性.

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

山西省建筑工程施工安全资料规程分类表

XX银行企业年金(设计方案)

最新《煤矿安全质量标准化基本要求及评分方法(试行)》(

流程管理咨询

城市物流

14000培训资料附录二

农业银行云南分行XXXX校园招聘求职大礼包

人教版初中语文常见文言文虚词用法整理

小学语文教研活动计划

WHF型大型生产磁力搅拌反应釜使用说明书

相关文档

相关搜索