您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 第7章--自变量选择与逐步回归
第七章自变量选择与逐步回归多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。第七章第一节机动目录上页下页返回结束自变量选择对估计和预测的影响在多元线性回归模型中,自变量的选择实质上就是模型的选择。),0(~2nnINXY其中:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,qp,qpXXX其中:Y是1n的观测值,p是1p未知参数向量,pX是pn结构矩阵,并假定pX的秩为p。下面的回归模型称为选模型:),0(~2nppINXYtxxx,,,21txxx,,,211tp现从这t个变量中选t’变量,不妨设矩阵X可作如下的分块(记:),那么对全模型中的参数和结构自变量的选择问题可以看成是这样二个问题:•究竟应用全模型还是用选模型;•若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。在点)(1txxx点上的预测值为ˆˆyx为了讨论方便起见,先引入几个记号:2,全模型中参数的估计:1ˆ()'XXXY211ˆ[()]()YIXXXXYnRX其中:R(X)为矩阵X的秩。2,在选模型中参数的估计:121()1[()]()ppppppppppXXXYYIXXXXYnRX),(),()(11tppqpxxxxxxx在上的预测值pppxy~~分块矩阵求逆公式:DCCBA1111111111111111111111111)()(CBCDBCDCDBBCCDBBCDBCDDBCDCDBCCDBDCCBA均方误差的概念对无偏估计常用来衡量估计量的好坏,而对有偏估计则相应采用均方误差ˆVar)~)(~(~EMSE定理(对估计的影响)(1)全模型为真时,ˆE,除了0q或0qpXX外,ppE~(2)ˆ()()ppDD为非负定矩阵;(3)当qˆ()qqD为非负定矩阵时,)~)(~()ˆpppppED(为非负定矩阵;(4)时等号成立。仅当0,ˆ~q22EEp定理(对预测的影响)(1)当全模型为真,则xyEˆ,除0q外xyEp~(2))~()ˆ(ppxyDxyD(3)当ˆ()qqqD为非负定矩阵时,2)~()ˆ(ppxyExyD注:由上述定理说明,若全模型为真的而误用选模型ppx~作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用为非负定矩阵来ˆ()qqqD表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.第七章第二节机动目录上页下页返回结束自变量选择方法自变量选择准则若一个多元回归的问题中有t可供选择的自变量,那么所有可能的回归方程有2t-1个,下面给出一些自变量选择的准则,希望能从2t-1个回归方程中选择一个最合理的方程.对全模型,记:SSTSSERXXXXHYHIYSSE1,)(,)(21对选模型,记:SSTSSERXXXXHYHIYSSEppppppppp1,)(,)(21准则1平均残差平方和达到最小.pnSSEPp2~pSSE随p的增加而减少,但pn也随p的增加而减少。但前面的ix,由于其对y的作用很显著,使pSSE减少得较快,能使pnSSEp随的p增加而减少,但当ix对y的作用不明显时,随差p的增加,pSSE减少的很慢,而pn1随p的增加继续增加,这就使()PSSEnp随p的增加而增加,取()PSSEnp的最小值所对应的p。当然相应入选p个变量是所有t个变量是所有自变量中最显著的。(其显著性由计算t统计量或F统计量得出)。准则2修正的复相关系数2PR达到最大。其中2PR的定义为:)1()(12nSSTpnSSERPPpnnRp1)1(12可以证明在0q时,22qppRR,故取2pR达到最大的方程为好。准则3预测偏差的方差2~)(pppnJJ准则4平均预测均方误差Sp达到最小。2~11pppnS准则5Cp统计量22sSSEnpCpp其中三s2是全模型中2的无偏估计.准则6预测平方和pPRESS达到最小。先给出PRESS的定义。设n组数据的回归模型为XY。现考虑在建立回归方程时略去第i组数据niiiyyyyY111)(niiixxxxx111)(对应的1n组数据的回归模型为)()(iiXY。此时的最小二乘估计为)()(1)()()()(ˆiiiiiYXXX用)(ˆi去预测第i点,此时的预测偏差为)(ie)()(ˆiiiixye定义预测平方和为2)(iePRESS记:)()()()(ˆiiiixye为全模型用除i点之外,剩下的1n个点作参数估计后,对i点的预测的偏差;iih为XXXXH1)(的第i个对角元即)(1)(iiiixXXxh。显然,iinjiijjnijjjjiixxXXxxxxxxXX11)()(iiiinjjjnijjjjiiyxYXyxyxyxYX11)()(pPRESS为选模型的预测平方和为2)(ippePRESS,由上述的推导可知,iipipiphee1)(,其中,ipe为选模型的对应的第i点残差,iiph相应为pppppXXXXH1)(的第i个对角元。准则7AIC准则AIC准则的定义:AIC=-2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数)当误差为正态的条件下,全模型的对数似然函数为:)()(21)2ln(2),,(222XYXYnLL而和2的极大似然估计为:)()(ˆ1YXXXLnSSEL2ˆ从而对数似然函数的极大值为:2)ln(2)/2ln(22)2ln(2maxnSSEnnnnnSSEnL略去常数不计,则有:mSSEnAIC2ln对选模型而言,有:pSSEnAICpp2ln第七章第三节机动目录上页下页返回结束逐步回归一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。2cR总残)(MSMS11pn1nR11R22c2cR1.校正决定系数选择法2.选择法pCP为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。mp1p2nMSSSCmpp)()(残残是由个自变量作回归的误差平方和,是从全部m个自变量的回归模型中得到的残差均方。pSS)(残)(mppmMS)(残当由p个自变量拟合的方程理论上为最优时,pC的期望值是p+1,因此应选择pC最接近p+1的回归方程为最优方程。如果全部自变量中没有包含对Y有主要作用的变量,则不宜用pC方法选择自变量。总胆固醇甘油三脂胰岛素糖化血血糖(mmol/L)(mmol/L)(μU/ml)红蛋白(%)(mmol/L)序号iX1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.602.324.057.513.466.050.641.4213.618.374.908.5012.608.511.187.083.006.7511.512.193.852.1116.287.99.6104.650.636.597.18.4114.591.973.618.79.3124.291.976.617.810.6137.971.937.579.98.4146.191.181.426.99.6156.132.0610.3510.510.9165.711.788.538.010.1176.402.404.5310.314.8186.063.6712.797.19.1195.091.032.538.910.8206.131.715.289.910.2215.783.362.968.013.6225.431.134.3111.314.9236.506.213.4712.316.0247.987.923.379.813.22511.5410.891.2010.520.0265.840.928.616.413.3273.841.206.459.610.427名糖尿病人的血糖及有关变量的测量结果全局择优法的局限性如果自变量个数为4,则所有的回归模型有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。所有回归方程(24-1=15)的2cR和Cp统计量的值方程中自变量2cRCp方程中自变量2cRCpX2X3X40.5463.15X2X30.4089.14X1X2X3X40.5285.00X1X30.37510.78X1X3X40.4885.96X40.34711.63X1X2X40.4477.97X10.28414.92X1X40.4417.42X1X20.27515.89X2X40.4407.51X30.23117.77X3X40.4357.72X20.17920.53X1X2X30.4089.88二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。对Xj的取舍要进行F检验:)()(残回1pn/SS1/XSSFljlj计算进行到第l步时:p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和缺点:后续变量的引入可能使先前引入的变量变的不重要。入入PFF)1pn,1(jXj入选1.前进法(只选不剔)自变量从无到有、从少到多Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…2.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺
本文标题:第7章--自变量选择与逐步回归
链接地址:https://www.777doc.com/doc-4013452 .html