您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 多重量共线性及产生原因
第六章多重共线性(Multi-Collinearity)•第一节多重共线性的定义•第二节多重共线性的检验•第三节多重共线性的消除海淘第一节多重共线性的定义多重量共线性及产生原因多重共线性的后果一、多重共线性的概念及其产生原因解释变量之间存在较强的线性相关关系,使得的行列式值近似于0(等于0是完全共线性),逆阵可求得,但不稳定。出现于多元线性模型。例:生产函数、需求函数.XXT1、多重共线性定义对于模型i=1,2,…,n(6.1)其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了近似相关性,则称为多重共线性。iktktiuxxy110如果存在i=1,2,…,n(6.2)其中:不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在完全共线性。02211kikiixcxcxc如果存在i=1,2,…,n(6.3)其中不全为0,为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)。ic02211ikikiivxcxcxcic在矩阵表示的线性回归模型Y=XB+N中,完全共线性指:秩(X)k+1,即矩阵knnnkkXXXXXXXXXX212221212111111中,至少有一列向量可由其他列向量(不包括第一列)线性表出。例如,X2=X1,这时X1与X2的相关系数为1,解释变量X2对因变量的作用完全可由X1代替。注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。这种近似共线性即为多重共线性。2、实际经济问题中的多重共线性现象•经济变量的共同变化趋势时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。•滞后变量的引入在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。•一般经验对于采用时间序列数据作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。以截面数据作样本时,问题不那么严重,但多重共线性仍然是存在的。3.多重共线性产生的原因:综上所述,多重共线性产生的原因大概有以下三点:(1)经济变量之间的内在联系(2)经济发展的“共向性”(3)模型中含有滞后变量二、多重共线性的后果二、多重共线性的影响1.难以区分解释变量的单独影响(估计值可得,但误差增大);例:有多个因素的农业生产函数、方差扩大因子2.T检验可靠性降低,通常会出现较小的T值和较大的F值,R2亦大。从理论上讲,估计值仍是BLUE。(容易剔除重要的解释变量)3.参数估计值不稳定,模型缺乏稳定性;4、完全共线性下参数估计量不存在(过程可略)多元线性模型YX的普通最小二乘参数估计量为:()XXXY1(2.6.4)如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。例如:对一个离差形式的二元回归模型2211xxy如果两个解释变量完全相关,如12xx,则有221212212121221221211iiiiiiiiiiixxxxxxxxxxxXX1121iiiiiiyxyxyxYX该回归模型的正规方程为YXBX)Xˆ(或iiiiiyxxxx1212211ˆˆiiiiiyxxxx2222121ˆˆ解该线性方程组得:00ˆ2122121212121211221221212222111iiiiiiiiiiiiiiiiiiiiiiixxxxxyxxyxxxxxxxxyxxxyx1ˆ为不定式;同理,2ˆ也为不定式,其值无法确定。事实上,当12xx时,原二元回归模型退化为一元回归模型:121)(xy只能确定综合参数21的估计值:21121ˆˆiiixyx5、近似共线性下普通最小二乘法参数估计量非有效在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为12)()ˆ(XXCov可见,由于此时|X’X|0,引起(X’X)-1主对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量非有效。仍以一元模型中1ˆ为例,1ˆ的方差为2221221212221222122211121)(1/)()()ˆvar(iiiiiiiiiixxxxxxxxxxXX2221221)(iiiixxxx恰为1x与2x的线性相关系数的平方2r,由于2r1,故1112r。即:多重共线性使参数估计值的方差增大,方差扩大因子(VarianceInflationFactor)为1/(1-r2),其增大趋势见下表:当完全不共线时,2r=0,2121/)ˆvar(ix当不完全共线(近似共线)时,102r,2122212111)ˆvar(iixrx相关系数平方00.50.80.90.950.960.970.980.990.999方差扩大因子12510202533501001000当完全共线时,2r=1,)ˆvar(16、参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。这时,X1和X2前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。所以各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。7、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大使t统计量的拒绝域变小(临界值增大)容易使通过样本计算的t值小于临界值,误导作出参数为0的推断可能将重要的解释变量排除在模型之外8、模型的预测功能失效•变大的方差容易使区间预测的“区间”变大,使预测失去意义。•能否说:如果存在完全共线性,预测值的置信区间为(-∞,+∞)?第二节、多重共线性的检验•由于多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等,在多重共线性十分明显时,经验检验法,即综合统计检验法亦可。•多重共线性检验的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。1、检验多重共线性是否存在(1)对两个解释变量的模型,采用简单相关系数法求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(2)对多个解释变量的模型,采用综合统计检验法若在OLS法下,模型的R2与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。这是一种经验检验。2、判明存在多重共线性的范围,寻找多余变量(1)判定系数检验法•使模型中每一个解释变量分别以其余解释变量为解释变量进行回归计算,并计算相应的拟合优度,也称为判定系数。如果在某一种形式Xji=1X1i+2X2i+LXLi中判定系数较大,则说明在该形式中作为被解释变量的Xj可以用其他X的线性组合代替,即Xj与其他X之间存在共线性。•等价的检验是对上述回归方程作F检验式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数,若存在较强的共线性,则Rj•2较大且接近于1,这时(1-Rj•2)较小,从而Fj的值较大。因此,可以在给定的显著性水平下,通过计算F值的方法进行检验。构造如下F统计量:)1,2(~)1/()1()2/(2.2.knkFknRkRFjjj•另一等价的检验:在模型中排除某一个解释变量Xj,估计模型,如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。(2)逐步回归法•以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。•根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释变量。•如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;•如果拟合优度变化很不显著,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。与之等价的另一种逐步回归法•在原模型中轮流减去一个解释变量作OLS,若结果中的R2与原模型的R2较接近,T值有明显改进,则该变量为多余变量,有多重共线性。•(3)、方差膨胀因子:设计辅助函数•作OLS回归后得判定系数Ri2,定义方差膨胀因子为下式,因子越大,多重共线性越明显:•可以证明:ikkiiiiixxxxx1111110121iiRVIFinjiijuiVIFxx122ˆˆ方差膨胀因子检验•判定系数Ri2=0.9,VIF=10•判定系数Ri2=0.8,VIF=5•几种观点,认为VIF8或10时,多重共线性显著,且Xi为多余变量.•如果多个变量的方差膨胀因子都比较大,选最大的方差膨胀因子的变量为多余的.利用Eviews实现检验•1、相关系数检验:编辑解释变量的Group后,Quick\GroupStatistics\Correlation得相关系数矩阵,有较高相关系数有多重共线性。•2、判定系数法:用原模型中某个解释变量作被解释变量,用其余解释变量作因变量,OLS后有较高的R2和T值,则有多重共线性,该变量即为多余变量。利用Eviews实现检验(续)•3、逐步回归法•(1)以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,新引进的解释变量可能引起多重量共线性。•(2)在原模型中轮流减去一个解释变量作OLS,若结果中的R2与原模型的R2较接近,T值有明显改进,则该变量为多余变量,有多重共线性。第三节、多重共线性的消除•思路:尽可能减少解释变量个数。传统方法有下面几条:•1、直接剔除可替代或有重复的解释变量;•2、可能的话,增加观察值个数;•3、利用关于参数的先验信息;•4、采用时间序列数据和横截面数据结合的方法,如J托宾的汽车销售模型。•5、变量代换,一般将线性模型变为差分模型。•6、采用其它回归方法降低方差;如主成份回归、岭回归等。•7、具可操作性的方法:利用专用软件找出多余变量,如逐步回归法与判定系数法。1、直接剔除可替代或有重复的解释变量;•找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。以逐步回归法得到最广泛的应用。•注意:剩余解释变量参数的经济含义和数值都发生了变化。另,在实际应用中,若检验表明应被剔除的变量有重要的经济意义,此时应慎重。2、可能的话,增加观察值个数;•一般情况下,观察值(样本)个数增加后,解释变量间的相关性将被削弱,多重共线性情况有所好转。3、利用关于参数的先验信息(压缩解释变量数量);•例1:最早的C-D生产函数中假设+=1(或假设规模报酬不变),这样使得原先的二元模型变为一元模型,多重共线性自然消失;•例2:设工业能源需求函数为:••其中x1、x2分别为轻、重工业的产值,y为能源消耗值,多重共线性明显,但两产业间有能源消耗比例:b1=b2,将此比例用入,原模型为iiiiuxbxbay2211iiiiuxxbay)(2124、采用时间序列数据和横截面数据结合的方法•如J托宾的汽车销售
本文标题:多重量共线性及产生原因
链接地址:https://www.777doc.com/doc-3856946 .html