您好,欢迎访问三七文档
第五章多重共线性(Multicollinearity)学习要点一、多重共线性的含义二、多重共线性来源及对OLSE性质的影响三、多重共线检验:可决系数法、方差膨胀因子四、多重共线的解决办法:逐步回归法五、遗漏重要解释变量的后果六、理解案例一、多重共线性的含义),...,2,1(22110niuXXY),...,2,1(2211niuuyxyiiii1.以二元线性回归模型解释多重共线含义),...,2,1(22110niuXXYiiii22i211i1,,XXxXXxYYyiiii令,212122211211xxxxxxxxxnn(1)(2)(1)减(2):uuXXXXYYiiii)()(222111得:◆简化模型:22212121221221112121)1xxxxxxxxxxxxxxxxxxxx222121)4xxxxr简单相关系数2121212211)()5xxxxxxDxx2)()2xRD)()32212221xxxxxx◆多重共线性分析涉及到的相关计算:(1)完全共线的情形12axx,212222121xaxxaxx221212212121222121211)1aaaxxaxaxaxxxxxxxxx1)()2xxR0)3xx1)421212121221222121xaxaxxaxaxxxxr不存在)()51xx2.多重共线的三种情况(2)正交的情形:0,02121xxxx即22212221212100)1xxxxxxxxxx2)()2xxR2221)3xxxx0)4222121xxxxr2221111)()5xxxx(3)多重共线的情形。越大,多重共线性越弱;越小,多重共线性越强假设。满足关于残差项的基本设v,12vvvaxx22122122211121)(,)(vxavaxxxavaxxxx2122212212212121222121211)1xvaaaxvxaxaxaxxxxxxxxx22122122212212)()()32R)2vxxavxxaxxx)x(21222212212122212111)()4xavvxaxxaxxxxr2222221111)5vvavavaxx)x(-!多重共线性很强时,对角线元素变得很大.二、举例xx1001情形秩R(x)行列式简单相关系数r21020.990.120.960.1920.96040.199对于矩阵,在三种情况下:1、正交及其引申:xx1)(xx100111.01.01119.019.011199.0199.0101.110.010.001.1037.119.019.0037.1041.1219.0219.0041.1xx2、完全共线1111情形秩R(x)行列式简单相关系数r101不存在xx1)(xxxx3、多重共线及其引申情形秩R(x)行列式简单相关系数r20.190.920.01990.9920.0019990.999xx1)(xx199.099.0126.574.474.426.519.09.011999.0999.015075.4975.495025.50075.49975.49925.500xx4.解释变量间可能存在相关性举例◆农业生产函数◆总成本函数◆商品需求函数◆商品供给函数◆宏观消费模型-在假定当前消费受过去形成的习惯影响时,方程可写为:◆宏观储蓄模型-储蓄行为受收入水平和利率影响,用方程表示为◆生产与投资(多项式分布滞后)iiiiiuYYYC332210iisoduYPPQ3210iscoduTPPPQ43210ttttuCDIC1210tttturDIS210tltltjtjtuIXQ0ttWTKLAuWTtttteKLAQ0三、来源、性质、后果和对OLSE性质的影响1、多重共线的来源1)模型设定带来的多重共线问题:包含解释变量当期和滞后期数据。例如:Y=0+1Xt+2Xt-1+e在模型中包括同一变量的不同变形(X变异较小时通常更严重),例:Y=0+1X+2X2+3X3+e(生产函数)2)数据收集方法不当,导致信息变异小:◆抽样集中在一个非常类似的子群体;例1:对同一地点贫困人口的调查,多数指标相近。例2:对同一地点农户农业生产的调查,很多投入与土地成比例(技术、市场和制度环境相近)。◆总体存在经济指标相关,抽样时未采取对策;例:高收入户通常家庭资产也多(但可能通过适当的抽样方法(分层/配额抽样)取得变异大的样本)。3)变量有共同的时间趋势◆多数时间序列数据呈现增长趋势;例:人口、GDP、进出口、城市化率、…◆以价值计量的经济指标都会受通货膨胀(紧缩)的影响。例:GDP、消费、投资、净出口。不同类型数据出现多重共线的原因不同,程度也不同:对于时间序列数据,变量之间经常存在共同的运动趋势(收入增长与财富积累),或由于共同受第三个变量的影响而出现相类似的变动(通货膨胀)。截面数据可能出现接近等比例的变化(农业生产中劳动投入和物质投入与面积大小成正比)。4)模型包括过多的解释变量【多重共线的程度趋于加强】2、多重共线的性质对于多重共线可以从性质上做如下划分:◆总体现象:变量通过内在的机制共同运动,此时不管用什么样的抽样方法,得到的样本总会表现出较强的多重共线问题。例:收入和财富之间的关系。◆样本现象:即使总体不存在变量之间的共同运动趋势,抽取的样本仍可能出现多重共线,即样本含有的信息不够丰富,未能充分反映总体的变异情况,导致无法分离每个X单独对Y产生的影响。3、多重共线的影响(后果)1)估计值b极为敏感,不稳定、失真(符号错;经济含义不合理;字长不一、样本容量不一结果不一。)2)的行列式值下降,b的方差、协方差变大;3)R2非常高,t值很小,统计推断失效;4)模型的分析功能下降。4、OLSE的性质:此时所有古典假定仍有效,OLS方法仍满足BLUE性质。XX1、观察法.(a)系数正负号错;(b)t的绝对值小,F值高;(c)X重要,但不显著。(d)添加新变量判断,(即)应变小,却变大。(e)的行列式值下降(有用的警告)。(f)观察相关系数矩阵中变量之间的相关系数。2、调整可决系数法(1)两变量的情形:x1OLSX2,调整可决系数高,多重共线。(2)多变量的情形:找出引起共线的X。X1OLSX2,X3,…,XkX2OLSX1,X3,…,Xk………XkOLSX1,X2,…,Xk-12bS)var(b四、多重共线性检验(识别)XX3、方差扩大因子法借助于解释变量的方差扩大因子(VarianceInflationFactor,VIF)来衡量多重共线的严重程度。设为解释变量对其余个解释变量的可决系数,则的方差扩大因子定义为:◆一般情况下0≦﹤1,可知VIFj≥1;◆越大,VIFj越大,多重共线越严重;◆经验表明,当VIFj≥10时,就说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计量。2jR211VIFjjR2jRjX1kjX2jR4、利用不包含某一X的R2检验Y=f(X1,X2,…,Xk),得R2,全部X参加;Y=f(X2,X3,…,Xk),得,不含X1Y=f(X1,X3,…,Xk),得,不含X2………Y=f(X1,X2,…,Xk-1),得Rk2,不含Xk选出最大的Ri2,与R2对比,去掉与Ri2对应的X,不会影响模型的R221R22R1、样本方面:增大容量、加长数据位数、用混合资料作交叉估计。2、逐步回归法:删去引起共线性的解释变量1)将Y分别对每一个X作回归模型(K个),选一可决系数R2最大者,作为基础方程。2)将R2由大小排队。将X按R2由大小依次加入基础方程。3)判断:a.加入某个X后,R2提高,t检验显著,保留该X;b.加入某个X后,R2没改善,剔除;c.加入某个X后,R2变化,t绝对值下降,b的符号、数值变异,存在多重共线。五、多重共线的解决办法4、变换解释变量的数学形式(差分/比值/倒数)这种方法依赖研究者的判断,需要不断积累经验。(1)差分法:ttttuXXY2211012,121,1101ttttuXXY12211tttttuuXXY(a)(b)(a)-(b)得:(2)指数法:如商品需求函数中价格表示为变动率。对于以时间序列为样本、以直接线性关系为模型关系形式的计量模型,差分法可以有效地消除多重共线问题。因为增量之间的线性关系远弱于总量之间的线性关系。ioduYPQ4103、利用已知信息如,对于C-D生产函数:利用规模报酬不变的假设:变换,得LAKQ1)(LKALQ六、解释变量的设定误差1、删去(或遗漏)了重要的解释变量设:正确模型:错误模型:rsrXXXXXksr),(即:正确模型:uXXuXXuXYssrrsr)(错误模型:vXYrr)(1YXXXbrrrr)()(1uXXXXXssrrrrruXXXXXXXrrrssrrrr11)()(知:rrbE)((有偏估计量)222)(,1ueeSErneeS◆估计:2u对于错误模型:ebXYrrrrrrrrXXXXIMYMe1)(,0rrrXMM对称幂等,1)(rnMtrr,◆估计:以二元回归为例。若丢失解释变量之一,则模型为一元模型),有偏。)var(b,)1()(21222121xrxbVaruu22222222)1()(xrxbVaruu)1()1()()(22rnXMXrnXMXuMuEeeEussrssussrssr2)1(urneeE得:2eS2u高估了总结:(1)遗漏必要的解释变量是一种严重错误,须避免。若出现这种情况,回归分析结果便值得怀疑。对是否遗漏问题的判断基于扎实的理论基础。(2)如果遇到较严重的多重共线问题时,不要轻易地剔除变量,特别是重要的解释变量。ssrssrssrssrrrssrrrXMXuMXuMuuXXMuXXYMYee2)()(2、列入了无关变量SkXXXkXs*)(错误变量正确变量***XY0)(错误模型:)(正确模型:ssXXuXXuXβYuXXXuXXXXXYXXXbs1**1***1**)(0]0)[()()((线性性满足)0)(bE则:(无偏性满足)◆模型参数OLS法估计量的方差(
本文标题:多重共线性问题
链接地址:https://www.777doc.com/doc-3752233 .html