您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 计量经济学-庞皓-第二版-第四章-多重共线性(公式详细)
第四章多重共线性计量经济学引子:发展农业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收入模型:其中:CS财政收入(亿元);NZ农业增加值(亿元);GZ工业增加值(亿元);JZZ建筑业增加值(亿元);TPOP总人口(万人);CUM最终消费(亿元);SZM受灾面积(万公顷)数据样本时期1978年-2007年(资料来源:《中国统计年鉴2008》,中国统计出版社2008年版)采用普通最小二乘法得到以下估计结果iiiiiiiiuSZMCUMTPOPJZZGZNZCS6543210财政收入模型的EViews估计结果VariableCoefficientStd.Errort-StatisticProb.农业增加值工业增加值建筑业增加值总人口最终消费受灾面积截距-1.9075480.0459476.4583740.0960220.003108-0.027627-5432.5070.3420450.0427460.7657670.0916600.0428070.0489048607.753-5.5768881.0748928.4338671.0475910.072609-0.564916-0.6311180.00000.29360.00000.30570.94270.57760.5342R-squared0.989654AdjustedR-squared0.986955S.E.ofregression1437.448Sumsquaredresid47523916Loglikelihood-256.7013Durbin-Watsonstat1.654140Meandependentvar10049.04S.D.dependentvar12585.51Akaikeinfocriterion17.58009Schwarzcriterion17.90704F-statistic366.6801Prob(F-statistic)0.000000●可决系数为0.9897,校正的可决系数为0.9870,模型拟合很好。模型对财政收入的解释程度高达98.9%。●F统计量为366.68,说明0.05水平下回归方程整体上显著。●t检验结果表明,除了农业增加值、建筑业增加值以外,其他因素对财政收入的影响均不显著。●农业增加值的回归系数是负数。农业的发展反而会使财政收入减少吗?!这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题,问题出在哪里呢?模型估计与检验结果分析第四章多重共线性本章讨论四个问题:●什么是多重共线性●多重共线性产生的后果●多重共线性的检验●多重共线性的补救措施第一节什么是多重共线性本节基本内容:●多重共线性的含义●产生多重共线性的背景在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括完全的多重共线性,还包括不完全的多重共线性。在有截距项的模型中,截距项可以视为其对应的解释变量总是为1。对于解释变量,如果存在不全为0的数,使得则称解释变量之间存在着完全的多重共线性。231,,,,kXXX一、多重共线性的含义122330(i1,2,,n)iikkiXXX231,,,,kXXX12kλ,λ,...λ2131122322231111kknnknXXXXXXXXXX或者说,当时,表明在数据矩阵中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。()RankkXX用矩阵表示,解释变量的数据矩阵为:不完全的多重共线性实际中,常见的情形是解释变量之间存在不完全的多重共线性。常见的是解释变量之间存在不完全的多重共线性。即对于解释变量,存在不全为0的数,使得为随机变量。这表明解释变量只是一种近似的线性关系。其中,231,,,kXXX12,,k12233...01,2,...,iikkiiXXXuiniu231,,,kXXX注意这里增加了一个随机变量如果X矩阵中Rank(X)=k,则认为k-1个解释变量之间不存在多重共线性。需要强调的是:解释变量之间不存在线性关系,并非不存在非线性关系,当解释变量存在非线性关系时,并不违反多重共线性假定。,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归(这个说法是不太准确的),每个参数j都可以通过Y对Xj的一元回归来估计。回归模型中解释变量的关系相关系数来解释上述问题可以表述如下:1.,解释变量间完全共线性。此时模型参数将无法确定。,解释变量间存在一定程度的线性关系。实际中常遇到的情形。2.3.0ijxxr1ijxxr01ijxxr<<二、产生多重共线性的背景多重共线性产生的经济背景主要有几种情形:1.经济变量之间具有共同变化趋势。例如,对于时间序列数据,收入、消费、就业率等,在经济上升时期均呈现出增长趋势,当经济下滑时,又都呈现出下降趋势。此时变量之间的相关性就比较强。2.模型中包含滞后变量。当建模过程中引入滞后变量,由于变量的时间序列之间往往呈现出较强的线性关系,所以也会导致多重共线性比较严重。3.利用截面数据建立模型也可能出现多重共线性。利用截面数据建模,不同截面的变量变化与发展规模有关,会出现共同增长的趋势,例如,资本、劳动力,科技、能源投入等要素的投入都呈现出规模经济的特征。4.样本数据自身的原因。抽样仅仅局限于总体中解释变量取值的一个有限范围,使得变量变异不够大;或由于总体受限,多个解释变量的样本数据之间存在,这是都会引起多重共线性(事实这种情况几乎不可避免)。第二节多重共线性产生的后果本节基本内容:●完全多重共线性产生的后果●不完全多重共线性产生的后果一、完全多重共线性产生的后果1参数的估计值不确定当解释变量完全线性相关时X矩阵的秩小于k,此时OLS估计式不确定。这里以两个解释变量的回归模型为例,说明完全共线性的影响。原式:,采用其离差形式由最小二乘估计得两个偏回归系数表达式如下:假定,这里是非零常数,将其分别带入上式可得:0XX,12233iiYXXu^^^2233iiyxx2^23323222223232^3222332222323()()()()()()()()()()()()()()iiiiiiiiiiiiiiiiiiiiiiyxxyxxxxxxxyxxyxxxxxxx23iiXX2^33333222222333322^333333222223333()()()()0()()()0()()()()0()()()0iiiiiiiiiiiiiiiiiiiiiiyxxyxxxxxxxyxxyxxxxxxx很明显上式是未定式,无法用OLS方法进行估计。从回归模型的建模思想看,完全的多重共线性使得解释变量前面的偏回归系数的失去了原有的经济学含义,无法区两个解释变量对被解释变量的各自的影响。一、完全多重共线性产生的后果2参数估计量的方差无限大仍以两个变量的多元回归为例,由OLS方法得出偏回归系数的方差如下式:在完全共线性情况下带入上式得:这表明,在解释变量之间存在完全共线性时,参数估计量的方差将变成无限大。2^32222223232^2222232323()()()()()()()()xVarxxxxxVarxxxx23iiXX22^3322222233332222^332222233333()()()()0()()()()0xxVarxxxxxxVarxxxx二、不完全多重共线性产生的后果完全多重共线性只不过是一种极端情形。通常,解释变量之间会存在不同程度的线性关系,此时可以得到关于偏回归系数的估计值,但是会由于线性关系的强弱会影响参数估计的结果。1.参数估计值的方差增大仍以只有两个解释变量的回归模型为例,X2与X3不完全的共线性关系表示为:其中,23iiiXXvi300iixv并且v是具有性质的随机误差项。23233,OLS这种情况下,可以用法估计回归系数和将和的上述关系式带到对的估计式中得:2222^333332222222333()()()()()()()iiiiiiiiiiiiiyxxvyxyvxxvxx233230iXXXXv32因此在与近似共线性时,还是可以估计的。但是如果与共线程度越高,会非常小,以至于非常接近于,此时会趋于不确定。对于同样可以得出类似的结论。2323XXXX在与为不完全共线性时,与的相关系数的平方用离差形式可以表示为:2232232223()xxrxx23将上式带入到和方差估计式中可以得到两个偏回归系数方差估计的相关系数表达式如下:2^322222232322223222232222232^322323()()()()1()1(1)()(1)iixVarxxxxxxxxxxrVarxr123从上式中可以更清楚的看出,随着共线性增加,r趋于,两个参数估计量的方差也将增大。22322^2222223222^32223233223r()=(1)()=(1)r1iiiiVarVIFxrxVarVIFxrxVIF1此外如果定义VIF=,(Varianceinflationfactor)那么上述两式(1-)可以写成更为简单的表达式:表明,参数估计量的方差是由于多重共线性的出现而膨胀起来的。随着共线性的增加趋于,那么方差的估计量将趋于无穷大。2.对参数区间估计时,置信区间变大0.000.500.990.99923r3%r=0.991023存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之增大。假设方差已知,正态分布下95置信度下临界值为1.96,当时,的置信区间约比相关系数为零时大倍。395%的置信区间2233/1.96ix^2233/1.961.33ix^2233/1.96100ix^2233/1.96500ix^^3395%SE表4.2增加共线性对的置信区间的影响3.当存在严重的多重共线性时,假设检验容易做出错误判断存在严重多重共线性时,首先是参数估计的置信区间扩大,会使得接受一个本应拒绝的假设的概率增大。此外,在对回归系数的原假设(如β3=0)的检验中,由于,在存在共线性的情况下会使得参数估计值的方差增大,t的统计量减少,增加了接受偏回归系数为0的假设。4.可能造成可决系数较高,但对各个参·数单独的t检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。^^33/()tVar第三节多重共线性的检验本节基本内容:●简单相关系数检验法●方差扩大(膨胀)因子法●直观判断法●逐步回归法一、简单相关系数检验法含义:简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。判断规则:一般而言,如果每两个解释变量的简单相关系数比较高,大于0.8(经验值),则可认为存在着较严重的多重共线性。注意:较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。(换句话说就是如果解释变量之间相关系数很高那么模型存在多重共线性问题,但如果模型存在多重共线性问题不能得出变量相关系数非常高这个结论。)二、方差扩大(膨胀)因子法统计上可以证明,解释变量的参数估计式的方差可表示为:其中的是变量的方差扩大因子,其中其中是多个解释变量辅助回归的可决系数。21VIF=1-jjR222221ˆVar()=
本文标题:计量经济学-庞皓-第二版-第四章-多重共线性(公式详细)
链接地址:https://www.777doc.com/doc-5078423 .html