您好,欢迎访问三七文档
§4.6逐步回归分析4.6.1最优选择的标准最优回归方程的含义:(1)方程中包含所有对因变量影响显著的变量;(2)方程中所包含的自变量要尽可能地少。设n为观测样本数,},,,{21mxxxX为所有自变量构成的集合,liiixxxA,,,21为X的子集。(1)均方误差s2最小1)(2lnASAsE达到最小(2)预测均方误差最小ASlnlnAJE11)(达到最小(3)pC统计量最小准则nlmnSASACEEp21达到最小(4)AIC或BIC准则nlASAAICE2ln)(nnlASABICElnln)(或达到最小(5)修正2R准则)1(122RlninR达到最大4.6.2选择最优回归子集的方法(1)选择最优子集的简便方法:逐步筛选法(STEPWISE)向前引入法或前进法(FORWARD)向后剔除法或后退法(BACKWARD)(2)计算量最大的全子集法:R2选择法(RSQUARE)Cp选择法(CP)修正R2选择法(ADJRSQ)。最小R2增量法(MINR)最大R2增量法(MAXR)(3)计算量适中的选择法:4.6.3逐步回归的基本思想与步骤基本思想:逐个引入自变量,每次引入对y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变得不显著的变量逐个从方程中剔除,最终的回归方程中既不漏掉对y影响显著的变量,又不包含对y影响不显著的变量。4.6.3.1前进法(FORWARD)原理:事先给定挑选自变量进入方程的显著性水平,按自变量对因变量y的贡献由大到小依次挑选自变量进入方程,直到方程外没有显著的自变量可引入为止。该方法的特点是:自变量一旦被选入,就永远保留在模型中。图4.1逐步回归的基本步骤步骤(1)将全部m个自变量,分别与因变量y建立一元回归方程;(2)分别计算这m个一元回归方程中回归系数的检验统计量F,记为:,取最大值,若,停止筛选;若,选入,不妨设是,进入步骤(3);11211,,,mFFF112111,,,max1mkFFFF2111nFFFk,进2111nFFFk,进1kx1kx1x(3)分别将自变量组,,…,与因变量y建立二元回归方程,计算回归方程中x2,x3,…,xm的回归系数检验统计量F,记为:,取其最大值,若则停止筛选,y与x1之间的回归方程就是最优的回归方程;若,选进xk2,不妨设xk2是x2,进入步骤(4)。21,xx31,xxmxx,122322,,,mFFF223222,,,max2mkFFFF12122nFFFk,进12122nFFFk,进(4)对已经选入模型的变量,x1,x2,如同前面的方法做下去,直到所有未被选入模型的自变量的F值都小于相应的临界值为止,这时的回归方程就是最优回归方程。前进法的一般步骤:假设已进行了l步筛选,并选入自变量x1,x2,…xl,现进行第l+1步筛选:分别将自变量组,,…,与y建立l+1元回归方程;回归121,,,,llxxxx221,,,,llxxxxmlxxxx,,,,21方程中的回归系数检验统计量记为:,记若,停止筛选,上一步得到的回归方程,即为最优的回归方程;若,将选进模型,进行下一步筛选。前进法的缺点:不能反映自变量选进模型后的变化情况。mllxxx,,,2111211,,,lmllllFFF112111,,,max1lmlllllkFFFFl)1)1(,1(11lnFFlkl)1)1(,1(11lnFFlkl1lkx4.6.3.2后退法(BACKWARD)原理:事先给定从方程中剔除自变量的显著性水平,开始全部自变量都在模型中,然后按自变量对y的贡献由小到大依次剔除,直至方程中没有不显著的变量可剔除为止。该方法的特点是:自变量一旦被剔除,就不再进入模型,(1)建立全部自变量x1,x2,…,xm对因变量y的回归方程,对方程中m个自变量的回归系数b1,b2,…,bm进行F检验,相应的F值记为:,取最小值若,没有自变量可剔除,此时的回归方程就是最优的回归方程;若,剔除xk1,不妨设xk1是xm,进入步骤(2)。11211,,,mFFF112111,,,min1mkFFFF1111mnFFFk,出1111mnFFFk,出(2)建立x1,x2,…,xm-1与因变量y的回归方程,对方程中自变量的回归系数进行F检验,相应的F值记为:,取最小值,若则无自变量可剔除,此时的回归方程即最优的回归方程;若,将xk2从模型中剔除,不妨设xk2就是xm-1,进入步骤(3);212221,,,mFFF2122212,,,min2mkFFFF1)1(122mnFFFk,出1)1(122mnFFFk,出(3)重复前面的做法,直至回归方程中各变量回归系数的F值均大于临界值,即方程中没有变量可剔除为止,此时的回归方程就是最优的回归方程。后退法的一般步骤:假设已经进行了l步剔除,模型中的自变量为x1,x2,…,xm-l,现进行第l+1步剔除:建立x1,x2,…,xm-l对y的回归方程,对方程中x1,x2,…,xm-l的回归系数进行F检验,相应的F统计量记为:,取最小值11211,,,llmllFFF,若则停止筛选,y与x1,x2,…,xm-l之间的回归方程即为最优的回归方程;若则剔除,不妨设为,进行下一步筛选。后退法的缺点:开始把全部自变量都引入模型,计算量大。},,,min{1121111llmlllkFFFFl1,111lmnFFlkl1,111lmnFFlkl1lkx1lkxlmx4.6.3.3逐步筛选法原理:该方法在前进法的基础上,引进后退法的思想。即对每一个自变量随着其对回归方程贡献的变化,随时地引入或剔除模型,使得最终回归方程中的变量对y的影响都是显著的,而回归方程外的变量对y的影响都是不显著的,该方法即通常所说的逐步回归法。设y是因变量,x1,x2,…,xm是所有自变量,yi,xi1,xi2,…,xim(i=1,2,…,n)是独立抽取的n组样本。设自变量被选进模型的显著性水平为,被剔除模型的显著性水平为,且。逐步筛选法的步骤为:(1)计算离差矩阵S121021mymmmmymymmmssssssssssssSS21222221111211(2)逐步筛选自变量第一步筛选:①计算各自变量的贡献:取最大值②对的作用是否显著进行统计检验:~F(1,n-1-1)jjjyjssV2111)1(max1jmjkVV1kx11111nSVFEk111kTEVSS若,则结束所有自变量皆与y无关,不能建立回归方程;若,则将xk1选入模型,并将S转化为,进行第二步筛选;11,11nFF11,11nFF11mmS)1()1()1(2)1(1)1()1()1(2)1(1)1(2)1(2)1(22)1(21)1(1)1(1)1(12)1(111)1(1111mymmmmykmkkkymymmmssssssssssssssssS111111111111111111111kjkisskjiskjkisssskjkissskkikkkkkjkikijkkikij,当当,当,当其中第二步筛选:①按计算各自变量的贡献模型外自变量的贡献:模型中自变量的贡献:②取模型外自变量的最大贡献值,即11mmS22iyiiisVs1kx)1(2)1(21111kkykkssV212(2)maxkjjkVV一切计算~F(1,n-2-1),其中,若,则筛选结束,第一步中所建立的回归方程即最优回归方程;若,则选进入模型,将化为,进行第三步筛选;12222nSVFEk222kTEVSS12,11nFF12,11nFF2kx11mmS21mmS22222122222122222222212121212211212222mymmmmykmkkkymymmmssssssssssssssssS其中221121221111221122222222222221kjkisskjiskjkisssskjkissskkikkkkkjkikijkkjkij,当当,当,当第三步:从第三步开始,先检验已经引入方程中的自变量是否满足显著性水平,若有不满足显著性水平的自变量,依次剔除最不显著的,再从方程外挑选满足著性水平的最显著的自变量进入模型(即从第三步开始,先进行变量的剔除,再进行变量的选进)。22逐步回归法筛选自变量的一般步骤为:假设已经进行l步筛选,并且已经选入p个自变量,相应的残差平方和为,离差矩阵为则第步的筛选过程为:lESlmylmmlmlmlyklmklklklylmlllylmlllmmssssssssssssssssS212122222111121112222(a)计算自变量的贡献:(b)检验已选入的自变量是否显著取模型中变量的最小值:2112liyiliililiyiliisxsVsxs(不在模型中)(在模型中)1)1(minljjlkVV一切已入选的计算~F(1,n-p-1),其中若,将xk剔除,转入(d);若,则xk不能被剔除,转入(c);1)1(1pnSVFlElk11lkTlEVSS1,12pnFF1,12pnFF(c)取模型外变量贡献的最大值,计算若,则筛选结束,转入(3);若,则选入xk,转入(d);1)1(maxljjlkVV一切未入选的11(1)1lklTkVFSVnp11,11FFnp11,11FFnp(d)将化为,进行第l+2步筛选。lmmS111lmmS22221111111211111121222211111112111(1)12llllmyllllmylmmllllkkkmkyllllmmmmmyssssssssSssssssss其中kjkisskjiskjkisssskjkissslkkliklkklkklkjliklijlkklkjlij,当当,当,当11§4.7可化为线性回归的曲线回归(1)对于双曲线型函数:xbayxt1btay(2)幂函数型:baxyxbaylnlnlnyzlnxtln幂
本文标题:逐步回归分析概要
链接地址:https://www.777doc.com/doc-6293808 .html