您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 第六章多重共线性及其处理
112222111211,,1,2,,(),(),1,2,,1,2,,,,,1,2,,(,,,,),1,2,,nnijijiinnYijijjiiijjiiijYjiiiipYYXXjpnnSYYSXXjpinXXYYYXjpSSYXXXin关于标准化线性回归模型的思想:令对每一个标准化变量的观测值由下式计算:基于上述标准化数据2,()0,var()YXEI建立回归模型:11112112212222121112121222,,(,),(1,1,,1),.(1,1,,1)pppnnnpnppXXXYXXXYYXXXXYYXXXXXXXX其中模型可表示为是截距项且1211112(,,,)nnniiipiiinnnpXXXXXX11111111()0,1,,0,0ˆ[(,)(,)](,)[(,)]ˆ00nnnijjijijjiiijjnniiiiYXXXXnXjpSSYYXYYSYXXXXYXYXXnXX而故同理故回归模型的最小二乘估计为111110000()0ˆˆ,0,()()nXYXYXXXXXYXXXY可见2121112111112112222212212,()0,var(),ˆˆ(),var()()npnppnpYXEIXXXYXXXXXXXXXXXXXXXXXXX因此在标准化数据下可直接建立过原点的回归模型:称为标准化线性回归模型,由上可知的最小二乘估计为且21211()()(),1pikppnnnpnnliilkkiklilkjjllikrXXXXXXXrXXrSS可见1212,,,ˆˆˆ,,.ppXXXXXXX易知刚好是原始自变量的观测值的相关系数矩阵.因此建立标准化线性回归模型的优点在于可通过矩阵分析原始自变量两两之间的相关性.另外在许多实际问题中,各自变量的量纲不尽相同,取值范围也可能有很大差异,经过数据的标准化就可以消除这些问题,使得回归系数具有可比性,从而更有利于模型的解释ˆˆ()()ˆˆ(())(())ˆˆ0,(())().MSEMSEMSEMSEcMSEccMSEcMSE自变量复共线性的诊断:(第六章)自变量存在共线性的表现形式;共线性对参数估计的影响;共线性的评判标准.改进措施——岭估计的引进(第七章)考虑均方误差;引进标准化回归模型的典则形式存在使结论:改进是有意义的第六章多重共线性的情形及其处理在线性回归模型XY中对回归设计矩阵X的基本假定是1)(pXrank即要求X的列向量之间线性无关。如果此假定不成立,则称解释变量pxxx,,,21之间存在多重共线性。多重共线性分为二类:1、完全多重共线性存在不全为零的p+1个数pCCCC,,,,210使得022110ippiixCxCxCC,ni,,2,12、不完全多重共线性(复共线性)存在不全为零的p+1个数pCCCC,,,,210使得022110ippiixCxCxCC,ni,,2,1例如在二元情况下,112xx,为随机误差项。1x与2x的相关系数接近于1,则1x与2x之间存在不完全的多重共线性。在实际问题中,常见的是ix之间存在不完全多重共线性的情况。§6.1多重共线性产生的背景和原因产生多重共线性的原因主要有以下几个方面1、经济变量相关的共同趋势在时间序列样本中发生多重共线性的主要原因在于许多基本经济变量之间存在相关的共同趋势。在一定条件下,某些变量的行为方式相同,变量的增量近似等比,出现同步增长或同步下降的趋势。如在经济繁荣时期,各项基本经济变量,如收入、消费、投资、价格、就业人数等趋于增长,而在经济衰退时期,又几乎一致地放慢增长速度,这些样本数据就会存在某些近似的比例关系,如果把这些有相关共同趋势的变量作为解释变量,就会产生多重共线性。横截面数据也有可能产生多重共线性。例如以企业的截面数据为样本估计企业的生产函数eLAKy时,较大企业的资本投入(K)、劳动力投入(L)等都会较多。较小企业的资本投入和劳动力投入都会较小,资本投入(K)与劳动力投入(L)几乎是高度线性相关的。2、滞后变量的引入在经济计量的模型中,往往需要用滞后变量来反映真实的经济关系。例如,消费变动的影响因素不仅有本期可支配收入,还应考虑以往各期的可支配收入。固定资产存量变动的影响因素不仅有本期投资,还应考虑以往若干期的投资。同一变量的前后期之值很可能是高度线性相关的。若在模型中引入了滞后变量,那么多重共线性便难以避免。3、样本资料原因完全符合理论模型所需要的样本数据是很难搜集的。我们往往对现有的数据资料只能被动接受。当特定样本存在某种程度的多重共线性时,由于样本信息的匮乏,往往也只有采用。§6.2多重共线性对回归模型的影响多重共线性对回归模型的影响,主要为二个方面一、无法估计模型参数当X的列向量线性相关时,1)(pXrank,此时0XX,因此1)(XX不存在。由此正规方程组YXXXˆ)(的解ˆ不确定,最小二乘估计YXXX1)(ˆ不成立。我们以二元中心化回归为例来说明这一点。设1x与2x完全相关,即112xx设2122211211nnXXXXXXX=1121211111nnXXXXXX1121211111nnXXXXXXXX1121211111nnXXXXXX=niiniiniiniiXXXX1212121121121=21211niiX1121211111nnXXXXXXYXnyyy21=111niiiyX模型的正规方程组YXXXˆ)(可表示为21211niiX21ˆˆ=111niiiyX我们只能得到niiniiiXyX1211121ˆˆ而不能分辨21XX、对y的作用。122111112,,1,2,,,0,()0,0,0ˆˆ,,iiiinniiiiiixxxxinEx当与之间不完全共线性时有关系式其中为随机项并且满足此时虽然我们能解出但样本数据比较小的变化均会导致参数估计值的较大的变化甚至会改变参数原有正确的符号.二.参数估计的方差增大仍以二元中心化回归为例来说明这一点。设中心化回归方程2211ˆˆˆXXy,记niiniiiniiXLXXLXL122221211212111,,1X与2X的样本相关系数22111212LLLr22212112112221211211nnnnXXXXXXXXXXXXXX2212121122212121LLLLXXXXXXiiiiii11121222122221111LLLLLLLXX111212221222211)1(1LLLLrLL由12)()ˆ(XXCov,得22122221112221)1()ˆ(,)1()ˆ(LrVarLrVar从上式可看出,当1X与2X的相关性增大时,即112r时,有)ˆ(),ˆ(21VarVar。下边给出了12r变大时,)ˆ(1Var的变化情况。(为方便起见,这里设1112L)12r0.20.50.70.80.90.950.991.00)ˆ(1Var1.041.331.962.785.2610.2650.255.261.3310.261.33295%,670%1.331.33不难算得,当12r从0.5变到0.90时,)ˆ(1Var增加了295%,12r从0.5变到0.95时,)ˆ(1Var增加了670%。由此可知,回归自变量相关程度越高,那么回归系数估计值的方差越大,因而,估计的精确性会大幅度降低,估计的稳定性会变得很差。在实际建模中,我们应注意以下二点:(1)当数据存在多重共线性时,可能会出现2R,F值较大,而各个回归系数的t检验值偏小或回归系数的符号与实际不符的情况,此时回归方程得不到合理的解释。因此利用模型去做经济结构分析时,应尽量避免多重共线性。(2)当回归模型用于预测时,只要保证自变量之间的相关特征在未来时期中保持不变,即使回归模型中包含严重的多重共线性,也可以得到比较好的预测结果。§6.3多重共线性的诊断二种主要方法方差扩大因子法特征根判定法一方差扩大因子法对自变量做标准化变换pjniLxxxjjjijij,,2,1,,,2,1,*令)(**ijxX,则111)(21221112**ppppijrrrrrrrXX为自变量的样本相关阵。令1**][)(XXCCijC的对角线上元素jjC的作用),,2,1(pj(1)在二元中,11)()(1212**rrXX,11111212122rrrC由此得,122221111rCC由1112221)1()ˆ(LrVar,2212222)1()ˆ(LrVar得.2,1,)ˆ(2jLCVarjjjjj(2)在p元线性回归中记jR2为自变量jx对其余1p个自变量作回归拟合的复决定系数。这里jR2度量了jx与其余1p个变量的线性相关程度。可以证明:pjRCjjj,,2,1,112且pjLCVarjjjjj,,2,1,)ˆ(210101210002111111,(:),,1,1,,()0,cov(),(1)11,(())ˆˆ(niijXXXXXXpxpnXXEIpXXSSTYYSSRXXSSR证明的情形:假设模型已经标准化将设计矩阵分块为其中是设计矩阵的第一列而是后列分别是自变量以及其余个自变量的次观测考虑线性回归模型为阶回归系数向量,对此模型,总离差平方和为回归平方和为21ˆˆˆˆˆ()()())niiyyYYXX211111000000010000011100001211100001111121112222122ˆˆˆˆˆˆˆ(()()())ˆˆ[()][()]()()(niiSSRXXSSRyyYYXXXXXXXXXXXXXXXXXXXXSSRRXXXXXXSSTAAAAAAA另一方面,由分块矩阵求逆矩阵公式有1121)***A1111011101001110000121111*()**(1())***(1).XXXXCCXXXXXXXXXXXXCR记故由以上二部分可以看出,jjC的大小反映了)ˆ(jVar的大
本文标题:第六章多重共线性及其处理
链接地址:https://www.777doc.com/doc-8542002 .html