您好,欢迎访问三七文档
第八章多重共线性多重共线性多重共线性及其影响多重共线性的发现和检验多重共线性的克服和处理引子:发展农业和建筑业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收入模型:其中:CS财政收入(亿元);NZ农业增加值(亿元);GZ工业增加值(亿元);JZZ建筑业增加值(亿元);TPOP总人口(万人);CUM最终消费(亿元);SZM受灾面积(万公顷)数据样本时期1978年-2003年(资料来源:《中国统计年鉴2004》,中国统计出版社2004年版)iiiiiiiiuSZMCUMTPOPJZZGZNZCS6543210VariableCoefficientStd.Errort-StatisticProb.农业增加值NZ-1.5350900.129778-11.828610.0000工业增加值GZ0.8987880.2454663.6615580.0017建筑业增加值JZZ-1.5270891.206242-1.2659890.2208总人口TPOP0.1511600.0337594.4776460.0003最终消费CUM0.1015140.1053290.9637830.3473受灾面积SZM-0.0368360.018460-1.9953820.0605截距项-11793.343191.096-3.6957040.0015R-squared0.995015Meandependentvar5897.824AdjustedR-squared0.993441S.D.dependentvar5945.854S.E.ofregression481.5380Akaikeinfocriterion15.41665Sumsquaredresid4405699.Schwarzcriterion15.75537Loglikelihood-193.4165F-statistic632.0999Durbin-Watsonstat1.873809Prob(F-statistic)0.000000财政收入模型的EViews估计结果●可决系数为0.995,校正的可决系数为0.993,模型拟合很好。模型对财政收入的解释程度高达99.5%。●F统计量为632.10,说明0.05水平下回归方程整体上显著。●t检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。●农业增加值和建筑业增加值的回归系数是负数。农业和建筑业的发展反而会使财政收入减少吗?!这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题,问题出在哪里呢?模型估计与检验结果分析一、多重共线性及其分类多重共线性及其分类完全多重共线性近似多重共线性多重共线性的概念对于模型Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。如果存在c1X1i+c2X2i+…+ckXki=0i=1,2,…,n其中:ci不全为0,则称为解释变量间存在完全共线性(perfectmulticollinearity)。•如果存在c1X1i+c2X2i+…+ckXki+vi=0i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为近似共线性(approximatemulticollinearity)或交互相关(intercorrelated)。注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。但无论是解释变量之间严格的线性关系还是较严重的近似线性关系,都会给多元线性回归分析造成严重的不利影响,甚至导致回归模型完全失效。(一)多重共线性的理论后果OLS估计量仍保持BLUE性质(高斯-马尔科夫定理仍然成立)完全多重共线性导致参数的OLS估计量无法求出(也可以理解为方差无穷大)。近似多重共线性导致参数的OLS估计量的方差大幅提高二、多重共线性的后果1.虽是线性无偏且最小方差,但其方差是一个非常大的数值,故其估计的精度下降;2.回归系数的置信区间加宽,导致接受零假设的可能性增大,从而t检验失效3.R2可能很大,F统计值也很高;4.最小二乘估计量及其标准差都对数据的微小变化非常敏感;5、模型预测置信区间加宽,预测方差加大,以至失去预测的意义(二)多重共线性的实际后果(理论后果的具体表现)二、多重共线性的后果完全多重共线性及其危害严格多重共线性不是由于数据原因引起,通常是由于模型把有严格联系的变量引进同一个模型,或者由于虚拟变量设置不当(如陷入虚拟变量陷阱的情况)而引起的。对模型的最小二乘估计量为如果存在完全共线性,则不存在,无法得到参数的估计量。1)(XXYXXX1)(ˆXY以三变量回归模型为例:回归方程为:22110XXY22110ˆXbXbbY2221102)(miniiiiXbXbbYe则求参数最小二乘估计量的正规方程组为:22221120221221110122110XbXXbXbYXXXbXbXbYXXbXbnbY22221122121111XxbXxbYxXxbXxbYx22221122122111xbxxbyxxxbxbyx设和两个变量之间有严格的线性关系则也成立,把该关系式代入上述正规方程组中的第二个式子,可得1X2X122XX122xx)2()2()2(1122111xyxxbxxb1122211yxxxbxb很显然,这个方程和原正规方程组中的第一个式子相同,这时方程组不再只有一组解而有无穷组解,这就意味着,被解释变量究竟受哪些变量的影响无法识别。完全多重共线性使多元线性回归模型的参数估计失败,回归分析无法进行。完全多重共线性是由于在模型设定时把严格联系的变量引进同一个模型,或者是由于虚拟变量设置不当引起的。因此对完全共线性的处理比较简单,只需要针对性的修改模型,放弃和调整引起完全共线性的部分变量即可。注意,不能放弃形成线性关系的所有解释变量,否则造成解释变量缺落,使模型失去研究意义。近似多重共线性的原因近似多重共线性既与变量选择有关,也与数据有关。虽然由于解释变量的选择不当,把内在相关性较强的变量引进同一个模型,是导致近似多重共线性的重要原因,但近似多重共线性更经常的原因是经济数据的共同趋势。如:时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。近似多重共线性的影响近似多重共线性不会导致参数估计失效,最小二乘参数估计能够得到唯一解。在模型存在多重共线性的情况下,参数的最小二乘估计仍然是最小方差线性无偏估计。但参数估计量的方差的绝对水平会随着多重共线性程度的提高急剧上升。因此,强的近似多重共线性会对多元回归的有效性产生严重的不利影响。如果用记为变量的离差平方和,记为变量对其余K-1个解释变量的回归平方和,表示原模型第k个解释变量对其余K-1个解释变量回归的决定系数,那么的方差可以写成22211kkkkkkRSSTσSSTSSESSTσbVarkSSTkSSEkX2kRkbkX近似多重共线性的影响如果第k个解释变量与其余K-1个解释变量完全没有相关性,那么。当第k个解释变量与其他解释变量之间有相关性时,,。当第k个解释变量与其他解释变量之间有很强的相关性时,接近于1,此时102kRkkkSSTbVarR22)(,0kkkkSSTσRSSTσbVar22211)(kbVar2kR(一)多重共线性问题的诊断原则:多重共线性是一个样本问题,即使在总体中诸X变量没有逻辑和理论上的线性关系,但在具体的样本仍可能有线性关系。多重共线性的根源是解释变量之间的样本相关性,因此分析解释变量之间的样本相关性,进行单相关或多元相关性的分析检验,是发现和判断多重共线性问题的基本方法多重共线性的发现和判断是克服和处理多重共线性问题的基础。三、多重共线性的诊断(二)多重共线性问题的诊断方法1、初步诊断:R2值高而显著的t比率少2、单相关检验:检验回归元两两之间的相关系数3、多元相关检验:检查偏相关它只是充分条件而不是必要条件偏相关系数不能保证对多重共线性提供一个准确的指南。4、辅助回归:做每个解释变量对其他剩余变量的回归并计算相应的R2值。其中的每一个回归都被称为是从属或者辅助回归。(二)多重共线性问题的诊断方法5、容许度与方差膨胀因子jjjjjxRxVIF1ˆvar22222ikikiiiuXXXY33221jjjRVIF/1)1(TOL2(二)多重共线性问题的诊断方法6、其他一些方法:比如主成分分析法等多重共线性表现形式和原因很多,并且由于数据问题导致的多重共线性具有隐蔽性,使多重共线性的发现和判断比较困难。多重共线性的发现和判断是克服和处理多重共线性问题的基础。多重共线性的根源是解释变量之间的相关性,因此分析解释变量之间的相关性,进行单相关或多元相关性的分析检验,是发现和判断多重共线性问题的基本方法。由于解释变量之间的相关性程度不一样,所以要确定模型确实存在比较严重的共线性问题就必须结合参数符号的估计、参数大小和显著性是否异常,或者参数估计是否表现出很大的不稳定性等来判断。四、多重共线性的克服和处理(一)增加样本容量(二)差分方程(三)模型修正(四)分步估计参数(一)增加样本容量由于近似多重共线性意味着对任意i都必须成立,因此若样本容量较小,近似多重共线性的可能性就较大;若样本容量大,近似多重共线性的可能性就小。但增加样本容量并不必然降低多重共线性,若增加的数据和原来的数据有基本相同的性质这时增加样本容量没有帮助。很多情况下无法增加新的样本,常见的替代方法是横截面与时间序列数据并用。(混合数据和面板数据)KkkkikX00(0是一组特定参数),,其中(二)差分方程线性回归模型为且已知和之间存在多重共线性问题。作如下变换:改用差分方程进行回归,受多重共线性的影响比较小。iiiiXXY221101X2X1iiiYYY1111iiiXXX1222iiiXXXiiiiXXY2211注意:用差分方程解决多重共线性问题可能会导致误差项出现序列相关。运用差分模型往往会使参数估计的方差变大,样本容量减小。如果原模型既有多重共线性问题,又有较强的一阶正自相关,那么差分方法可以同时消除多重共线性和序列相关的影响。(二)差分方程(三)模型修正1、删减解释变量2、逐步回归法3、先验信息参数约束1、删减或合并解释变量引起多重共线性的原因中其一是在模型中引入过多的、有内在联系的解释变量,在这种情况下,如果删掉一些与其它解释变量意义相近的变量,可以起到降低多重共线性的作用。如资产和流动资产,收入和财富之间就常有很强的相关性,在他们都对被解释变量有显著影响时,可只选择其中一个。2、逐步回归法以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。3、先验信息参数约束例:生产函数,经对数变换为:如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足就可以克服多重共线性。KLAYlog1logloglogKLAKYKLAKYloglogloglogloglogloglog1
本文标题:第八章多重共线性
链接地址:https://www.777doc.com/doc-4170343 .html