您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 复旦大学-经济学院-谢识予-计量经济学-第五章-线性回归的定式偏差
1第五章线性回归的定式偏差2前面介绍的线性回归分析建立在模型假设成立的基础上,但这些假设并不必然成立。本章讨论变量关系非线性、存在异常值、规律性扰动和解释变量缺落等,导致线性回归模型前两条假设不成立的定式偏差,包括它们对线性回归分析的影响,判断和处理的方法等。3本章结构第一节变量关系非线性第二节异常值第三节规律性扰动第四节解释变量缺落第五节参数变化4第一节变量关系非线性一、问题二、发现与判断三、问题处理和非线性回归5一、问题线性回归模型都假设变量关系是线性随机函数关系,或者经过特定数学变换以后是线性随机函数关系。但实际变量关系可能会存在偏差,存在用线性模型分析非线性关系的可能性。把非线性变量关系当作线性关系处理,也可以说是违反误差项均值为0的假设,对线性回归分析的有效性有根本性的破坏作用。6例如若两个变量之间的真实关系为:其中满足=0和线性回归模型的其他假设,但如果我们直接用:进行回归分析,那么因为:因此:显然不可能始终为0。210XY)(EXY10XX12100XXE12100)(E7把非线性变量关系作为线性关系进行分析是变量关系的误识别。不仅会使得回归分析的拟合程度降低,还会对经济规律作出错误判断,以及导致较大的预测偏差,属于计量经济分析比较严重的问题。8二、发现与判断由于有随机扰动因素的影响,线性回归模型的错误设定并不是很容易发现的。发现和判断变量关系非线性,首先是用数理经济分析的方法,对模型的函数关系进行更深入的分析。其次是根据数据和及其分布图形、散点图进行直接判断。9更重要的方法是根据回归残差序列,从技术角度发现和判断异常值问题。回归残差序列根据被解释变量的实际值和回归理论值之差计算。在EViews软件进行回归分析时,可以在得到回归结果后在回归结果窗口点击View/Actual,Fitted,Residual/Actual,fitted,residualtable,直接得到回归残差序列和残差序列图。如果模型存在变量关系非线性问题,回归残差序列会表现出有规律的变化。10例如当发现模型的回归残差序列有图5.1所示的规律性变化,就应该考虑存在把非线性关系(二次函数等)当作线性关系进行回归的问题,必须进行处理。图5.1非线性变量关系的残差序列ei11用回归残差序列判断变量关系非线性的最大问题是,线性回归模型的其他某些一些问题,如参数(结构)改变等,与变量关系非线性的表现形式常常很相似,不容易正确区分。因此必须结合问题背景分析、相关理论和经验进行综合判断,然后再通过处理和结果的反复比较加以确定。12三、问题处理和非线性回归解决错误的第一步,是恢复变量之间的真实函数关系。然后再设法通过幂函数、对数化等数学变换等,把非线性关系转化为正确的线性回归模型。如果变量关系可以用初等数学变化转化为线性模型,那么只要在转化后再进行线性回归分析就可以了。13但也有不少非线性变量关系无法通过初等数学变换转化为线性模型。例如Y和X之间有两变量关系如下:其中、、是未知参数,这个函数就无法通过初等数学变换转化为线性模型。这时候就需要直接处理非线性回归模型。非线性回归分析是线性回归分析的自然扩展。XeY14我们假设非线性函数关系为:其中是K个解释变量,是模型的P个参数,为多元非线性函数,且对是连续可微的。对于这种非线性回归模型,解决的方法之一是利用级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。PKXXfY,,;,,11KXX,,1P,,1fP,,115泰勒级数展开先要取一组参数的初始值:然后将上述非线性函数在该点处对作泰勒级数展开,并只取其中的线性项而忽略所有高次项,得到:010,,PbbP,,11001001100110,,10,,,,;PPKPbbPPbbPfYfXXbbbfb16其中为原变量关系中的误差项与泰勒级数展开的高阶项之和。整理上述展开式,移项合并可化为:10010011000,,,,11,,;PPKPPPiibbbbiiiiYfXXbbffb17若令:我们得到:这是一个对的线性回归模型,可以用最小二乘法估计其中参数的估计值,我们记为PiibbiPKbfbbXXfYMP10,,0101010;,,010,,PbbiifZPPZZZM2211MPZZ,,1P,,1111,,Pbb18经过泰勒级数展开得到的线性模型只是原变量关系的近似,虽然可以把作为原模型参数的估计,但效果可能没有保证。由于和参数真实值的近似程度越高,级数展开忽略的高阶项越不重要,因此提高级数展开初始值与参数真实值的近似程度有利于提高上述间接估计的精度。提高近似程度的方法是,把前一次回归得到的估计值作为新的级数展开初始值,再进行新的级数展开。然后再作变换和线性回归,得到另一组参数估计值。111,,Pbb010,,Pbb19这个程序可以反复进行,直到参数估计值收敛或不再有大的变化。最后得到的就是非线性回归模型的参数估计值。除了上述泰勒级数展开线性化近似的迭代方法以外,还可以直接进行非线性回归分析。不过由计量软件进行非线性回归的迭代优化分析就不存在这方面的困难,只要直接输入相关命令即可。Pjjbb,,120例5-1某地消费函数表5.1某地消费函数相关数据年度YC年度YC年度YC1950791.8733.219621170.21069.019741896.61674.01951819.0748.719631207.31108.419751931.71711.91952844.3771.419641291.01170.619762001.01803.91953880.0802.519651365.71236.419772066.61883.81954894.0822.719661431.31298.919782167.41961.01955944.5873.819671493.21337.719792212.62004.41956989.4899.819681551.31405.919802214.32000.419571012.1919.719691599.81456.719812248.62024.219581028.8932.919701688.11492.019822261.52050.719591067.2979.419711728.41538.819832334.62145.919601091.11005.119721797.41621.919842468.42239.919611123.21025.219731916.31689.619852509.02312.621为了选择进行回归分析的模型,可以用EViews软件作两个变量的散点图。建立工作文件和输入收据后,用Graph命令或菜单操作可得到两个变量的如下散点图:22图5.2某地收入对消费的散点图500100015002000250030005001000150020002500CCYYvs.CC23根据对上述散点图的直观判断,对消费和收入进行线性回归分析基本上是合理的。但是,如果我们进一步通过该回归结果窗口的菜单操作得到下列残差序列图,如图5.3,可以发现该回归残差序列显示出明显的规律性变化,包含了明显的趋势性。24图5.3某地消费函数回归残差序列图-60-40-2002040605055606570758085CCResiduals25根据该残差序列图,可以考虑变量之间存在非线性关系的可能,因此可考虑采用泰勒级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。26第二节异常值一、问题二、异常值的发现判断三、问题的处理27一、问题现实经济中常常存在这样的情况,一些突发事件或变化对经济活动、经济关系造成短暂的,但却是很显著的冲击影响。这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系,或者说经济规律。这种情况在经济数据上反映出来,就会表现为一个脱离基本趋势的异常值。28如果所研究的经济问题或相关数据中存在这种情况,建立线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型误差项在相应时点存在均值非0的问题。例如变量Y和X在长期中的关系基本满足线性回归模型的各个假设,但在时刻有一个突发情况,使得Y出现一个C单位的暂时性波动。那么如果用线性回归模型:分析这两个变量的关系,其误差项的均值是:0iXY29显然不是对任意i都成立,也就是模型的假设(2)是不成立的。这种情况如果不作处理,线性回归分析的有效性也会受到不利影响。异常值会使回归分析结果出现较大偏差,参数估计量的性质和相关统计推断都会失效。000)(iiCiiEi当当0)(iE30二、异常值的发现判断发现和判断异常值的方法之一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件以及数据序列的直接分析等。残差序列分析也是从技术角度发现和判断异常值问题的基本方法。因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回归残差中会包含由于异常值所导致模型误差项均值非0的信息。31回归残差序列分析发现和判断异常值问题的方法在模型假设成立的前提下,回归残差是服从正态分布的随机变量,其取值95%左右的概率应分布在均值加减2倍标准差的范围内。如果发现某个残差出现:其中是残差的标准差,模型在时点i处就很可能存在异常值问题。ie2Sei122KneSSii32上述回归残差序列分析等价于下列残差序列图分析。把根据回归残差序列和残差标准差计算出的/S数据序列,描绘到以i为横轴,以/S为纵轴的坐标平面上,再在纵轴的处画上两条水平的临界线。以误差序列中是否有点落在两条临界线范围之外作为判断异常值的初步标准。iee233图5.4异常值的残差序列图检验i2234用EViews软件进行回归分析可以直接输出残差序列图,并且在图形中包括有两倍标准差的临界值,因此可以直接根据EViews输出的残差序列图判断是否有异常值的可能性。如果有个别/S坐标落在两条临界线的范围以外,就意味着在i时点上有异常值。当然,如果落在临界线以外的点有多个,那么一方面可以考虑存在多个异常值的可能性,另外也应该怀疑存在其他系统性偏差。ie35存在多个较大残差不能简单地认为是多个异常值,而是应该作进一步的深入分析,结合对其他问题的分析进行判断。此外,上述残差序列判断异常值的临界值标准是95%置信度的,当/S的绝对值落在2到3之间时,用95%的置信度判断有异常值,而用99%的置信度判断则可能没有异常值,因此仍然存在模糊的地方。这时候必须与问题背景分析结合起来考虑,并考虑各点残差相对情况等。ie36三、问题的处理如果判断模型存在异常值问题,必须作针对性的处理。例如一个两变量线性回归模型,在处存在异常值问题:解决的方法是引进一个针对性的虚拟变量D,其定义式为:XY0ii000)(iiCiiEi当当37把这个虚拟变量引进原来的模型,得到一个新的回归模型,因此在引进虚拟变量D的新模型中,异常值就不会造成模型误差项出现均值非0的问题了,从而可以保证回归分析的有效性。0010iiiiDi当当CDXYCD0001000)()'(iiCCiiCDEEii38[例5-2]消费函数模型的异常值问题-600-400-20002004006008284868890929496980002YResiduals图5.5消费函数残
本文标题:复旦大学-经济学院-谢识予-计量经济学-第五章-线性回归的定式偏差
链接地址:https://www.777doc.com/doc-4842651 .html