您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 自变量选择与逐步回归
自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型mmxxxy22110称为全模型。如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型ppppppppxxxy22110称为选模型。二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。1、全模型正确而误用选模型的情况性质1,在jx与mpxx,,1的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即jjpjpE)ˆ((pj,,2,1)性质2,选模型的预测是有偏的。性质3,选模型的参数估计有较小的方差。性质4,选模型的预测残差有较小的方差。性质5,选模型的均方误差比全模型预测的方差更小。性质1和性质2表明,当全模型正确时,而舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。这是误用选模型产生的弊端。性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。2、选模型正确而误用全模型的情况全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此,在建立实际问题的回归模型时,应尽可能剔除那些可有可无的自变量。三、所有子集回归1、所有子集的数目设在一个实际问题的回归建模中,有m个可供选择的变量mxxx,,,21,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有m2-1个,这里-1是要求回归模型中至少包含一个自变量,即减去模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内,那么所有可能的回归方程就有m2个。从另一个角度看,选模型包含的自变量数目p有从0到m共有m+1种不同的情况,而对选模型中恰包含p个自变量的情况,从全部m个自变量中选p个的方法共有线性组合pmC个,因而所有选模型的数目为:mmmmmCCC210。2、关于自变量选择的几个准则把选模型的残差平方和记为pSSE,当再增加一个新的自变量1px时,相应的残差平方和记为1pSSE。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加。因此有ppSSESSE1,它们的负决定系数分别为:SSTSSERpp1211,SSTSSERpp12,由于SST是因变量的离差平方和,与自变量无关,因而有221ppRR,即当自变量子集在扩大时,残差平方和随之减少,而复决定系数2R随之增大。因此,如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复决定系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。因此,从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的,还曾用负相关系数R来衡量回归拟合好坏都不能作为选择变量的准则。准则一:自由度调整复决定系数达到最大。当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设)1(11122RpnnRa为自由度调整后的复决定系数,其中,n为样本容量,p为自变量的个数。在实际问题的回归建模中,自由度调整复决定系数2aR越大,所对应的回归方程越好。则所有回归子集中2aR最大者对应的回归方程就是最优方程。从另外一个角度考虑回归的拟合效果,回归误差项2的无偏估计为:SSEpn11ˆ2,此无偏估计式中也加入了惩罚因子n-p-1,2ˆ实际上就是用自由度n-p-1作平均的平均残差平方和。当自变量个数从0开始增加时,SSE逐渐减小,作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时,2ˆ先是开始下降然后稳定下来,当自变量个数增加到一定数量后,2ˆ又开始增加。这是因为刚开始时,随着自变量个数增加,SSE能够快速减小,虽然作为除数的惩罚因子n-p-1也随之减小,但由于SSE减小的速度更快,因而2ˆ是趋于减小的。当自变量数目增加到一定程度,应该说重要的自变量基本上都已经选上了,这时在增加自变量,SSE减少不多,以至于抵消不了除数n-p-1的减小,最终又导致了2ˆ的增加。用平均残差平方和2ˆ和调整的复决定系数作为自变量选元准则实际上是等价的。因为有22ˆ11SSTnRa,由于SST是与回归无关的固定值,因而2aR与2ˆ是等价的。2ˆ小说明模型好,而2ˆ小2aR就会大也说明模型好。准则二:赤池信息量AIC达到最小。设模型的似然函数为),(xL,的维数为p,x为随即样本,则AIC定义为:AIC=-2),ˆ(lnxLL+2p,其中Lˆ为的极大似然估计;p为未知参数的个数,式中右边的第一项是似然函数的对数乘以-2,第二项惩罚因子是未知参数个数的2倍。似然函数越大估计量越好,现在AIC是死然数的对数乘以-2再加上惩罚因子2p,因而选择使AIC达到最小的模型是最优模型。在回归分析的建模过程中,对每一个回归子集计算AIC,其中AIC最小者所对应的模型是最优回归模型。准则三:pC统计量达到最小即使全模型正确,仍有可能选模型有更小的预测误差,pC正是根据这一原理提出来的。pC=pnSSESSEmnmp2)1(,其中mSSEmn11ˆ2为全模型中2的无偏估计。选择使pC最小的自变量子集,这个自变量子集对应的回归方程就是最优回归方程。四、前进法前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。具体做法是首先将去全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为11211,,,mFFF,选其最大者记为112111,,,maxmjFFFF,给定显著性水平,若)2,1(1nFFj,则首先将jx引入回归方程,为了方便,设jx就是1x。接下来因变量y分别与(21,xx),(31,xx),…,(mxx,1)建立m-1个二元线性回归方程,对m-1个回归方程中mxxx,,,32的回归系数进行F检验,计算F值,记为22322,,,mFFF,选其最大者记为223222,,,maxmjFFFF,若)3,1(2nFFj,则接着将jx引入回归方程。依照上述方法接着做下去,直至所有未被引入方程的自变量的F值均小于F(1,n-p-1)时为止,这时,得到的回归方程就是最终确定的方程。每步检验中的临界值F(1,n-p-1)与自变量数目p有关,实际使用当中,通常使用显著性p值作检验。五、后退法后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除,即把回归系数检验的F值最小者对应的自变量剔除。设对m个回归系数进行F检验(偏F统计量),记求得的F值为mmmmFFF,,,21,选其最小者记为mmmmmjFFFF,,,min21,给定显著性水平,若)1,1(mnFFmj,则首先将jx从回归方程中剔除,为了方便,设jx就是mx。接着对剩下的m-1个自变量重新建立回归方程,进行回归系数的显著性检验,项上面那样计算出1mjF,如果又有)1)1(,1(1mnFFmj,则剔除jx,重新建立y关于m-2个自变量的回归方程,依次下去,直至回归方程中所剩余的p个自变量的F检验值均大于临界值F(1,n-p-1),没有可剔除的自变量为止。这时,得到的回归方程就是最终确定的方程。六、前进法和后退法的比较前进法和后退法显然都有明显的不足。前进法可能存在这样的问题,即不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的,但当引入其他自变量后它变得并不显著了,但是也没有机会将其剔除,即一旦引入,就是“终身制”的,这种只考虑引入,而没有考虑剔除的做法显然是不全面的。后退法的明显不足是,一开始把全部自变量引入回归方程,这样计算量很大。如果有些自变量不太重要,一开始就不引入,就可减少一些计算量;再就是一旦某个自变量被剔除,“一棍子就把它打死了”,再也没有机会重新进入回归方程。如果问题涉及的自变量mxxx,,,21是完全独立的(或不相关),那么在取进=出时,前进法与后退法所建立的回归方程是相同的。然而在实际中很难碰到自变量间真正无关的情况,尤其是经济问题中,所研究的绝大部分问题,自变量间都有一定的相关性。这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的影响也会发生变化。这是因为自变量间的不同组合,由于它们相关的原因,对因变量y的影响可能大不一样。如果几个自变量的联合效应对y有重要作用,但是单个自变量对y的作用都不显著,那么前进法就不能引入这几个变量,而后退法却可以保留这几个自变量,这是后退法的一个优点。七、逐步回归法逐步回归法的基本思想是有进有出。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其删除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中包含显著的变量,这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。在逐步回归法中需要注意的一个问题是引入自变量和剔除自变量的显著性水平值是不相同的,要求引入自变量的显著性水平进小于剔除自变量的显著性水平出,否则可能产生“死循环”。也就是当进出时,如果某个自变量的显著性p值在进和出之间,那么这个自变量将被引入、剔除,再引入、再剔除,循环往复,以至无穷。实际当中是以p值为参照的,假设进=0.1,出=0.05,即进出,引入变量2x时,其显著性p值为0.07,即在进和出之间,因为0.07小于进,所以可以将变量引入方程,进入程序完毕,在进行检验删除,0.07大于出,所以应该将刚引入的2x剔除。在进行显著性水平检验。再次引入2x,又剔除2x,如此循环。如果是进=0.05,出=0.1就不会出现这种情况了。八、选择回归子集选择哪一个回归子集,用哪一个衡量准则要根据研究问题的目的来决定,回归模型常用的三个方面是:结构分析,预测,控制。如果想通过回归模型去研究经济变量之间的相关联系,即做结构分析,则在选元时可以考虑适当放宽选元标准,给回归方程中保留较多的自变量,但这时需要注意回归系数的正负号,看它们是否符合经济意义。如果希望回归方程简单明了,易于理解,则应该采用较严的选元标准。比如在逐步回归选元中,给显著性水平进赋一个较小的值,就可使得回归方程中保留较少最重要最能说明问题的自变量。如果建立回归方程的目的是为了用于控制,那么就应采取能使回归
本文标题:自变量选择与逐步回归
链接地址:https://www.777doc.com/doc-5711441 .html