您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > SAS学习系列24.-逐步回归
24.逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。二、步骤记引入变量F检验的临界值为Fin,剔除变量F检验的临界值为Fout,一般取Fin≥Fout.其确定原则:对k个自变量中的m个(m≤k),则记F*=F(1,N-m-1),取Fin=Fout=F*.一般也可以直接取Fin=Fout=2.0或2.5.要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5.1.前进法(变量增加法)首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算k个回归系数的F检验值,记为{11211,,kFFF},记为=max{},若有≥Fin,则将Xi引入回归方程,记为X1.接着考虑X1分别与其它自变量与因变量Y二元回归方程,选出最大F值若大于Fin,则将该变量引入回归方程,记为X2,依次类推,直到所有末被引入回归方程的自变量的F值均小于Fin时为止。增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。2.后退法(变量减少法)首先建立全部自变量X1,X2,...,Xk对因变变量Y的回归方程,然后分别求出k个回归系数的F值为{},记=min{},若有≤Fout,则将自变量Xi从回归方程中剔除掉。以此类推,直到在回归方程中的自变量的F值均大于Fout为止。减少法的缺点是,一开始把全部变量都引入回归方程,这样计算量比较大。3.逐步筛选法(变量增减法)在实际的数据中,自变量X1,X2,...,Xk之间往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。因此将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著的,不在回归方程中1iF11211,,kFFF1iF11211,,kFFF1iF11211,,kFFF1iF的自变量均不显著。三、需要注意的问题1.实际中,往往不使用每次计算出的Fin和Fout,而是使用固定的F值(避免出现FinFout,造成死循环);2.自变量进入模型的顺序并不反映它们的重要程度;3.逐步回归方法的一个局限是,预先假定有单一的最优X变量子集,也可能还有其它最优选择;4.逐步回归方法的另一个缺点是,当X变量高度相关时,有时会得到不合理的“最优”子集。四、PROCREG过程步基本语法:PROCREGdata=数据集;MODEL因变量=自变量列表/SELECTION=选项;SELECTION=选项用于逐步回归中选择合适的建立模型方法:none——全部变量都选forward——前进法backward——后退法stepwise——逐步筛选法maxr——最大R2增量法minr——最小R2增量法rsquare——R2选择法cp——Mallow'sCp选择法adjrsq——修正的R2选择法注:在前进法、后退法或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,分别由model语句的选项slentry=和slstay=设定的:start=s指定先从s个自变量的回归模型开始;stop=s指定找到s个自变量的回归模型结束;Mallows的Cp统计量——是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度:)2(PNMSEESSCpP其中,P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp与P的曲线图,Matlows建议取Cp首次接近P的地方的模型。常用的输出可选项:STB——输出标准化偏回归系数矩阵CORRB——输出参数估计矩阵COLLINOINT——对自变量进行共线性分析P——输出个体观测值、预测值及残差(R/CLM/CLI包含P)R——输出每个个体观测值、残差及标准误差CLM——输出因变量均值95%的置信界限的上下限CLI——对各预测值输出95%的置信界限的上下限MSE——要求输出随机扰动项方差𝜎2的估计2ˆ与残差分析有关的可选项VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;COLLIN——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性;TOL——表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系;DW——输出Durbin-Watson统计量;influence——对异常点进行诊断,对每一观测点输出统计量(Cook’sD50%,defits/debetas2说明该点影响较大)。2.绘制回归分析的图形在PROCREG过程步加入绘图选项语句即可。基本语法:PROCREGdata=数据集PLOTS=(图形类型);可选的绘图类型:FITPLOT——带回归线、置信预测带的散点图;RESIDUALS——自变量的残差图;DIAGNOSTICS——诊断图(包括下面各图);COOKSD——Cook'sD统计量图;OBSERVEDBYPREDICTED——根据预测值的因变量图;QQPLOT——检验残差正态性的QQ图;RESIDUALBYPREDICTED——根据预测值的残差图;RESIDUALHISTOGRAM——残差的直方图;RFPLOT——残差拟合图;RSTUDENTBYLEVERAGE——杠杆比率的学生化残差图;RSTUDENTBYPREDICTED——预测值的学生化残差图;注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:PROCREGdata=数据集PLOTS(ONLY)=(图形类型);例1用逐步回归模型,来研究耗氧量的是如何依赖其它变量的。31位成年人心肺功能的调查数据(见下表)ageweightOxygen耗氧量runtime跑15英哩的时间(分)rstpulse休息时每分钟心跳次数runpulse跑步时每分钟心跳次数Maxpulse每分钟心跳次数最大值4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.63481641665070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172代码:datafitness;inputageweightoxygenruntimerstpulserunpulsemaxpulse;datalines;4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.63481641665070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172;run;procregdata=fitness;modeloxygen=ageweightrstpulsemaxpulserunpulseruntime/selection=stepwise;run;运行结果:逐步选择:第1步变量runtime已输入:R方=0.7434和C(p)=13.5198条件数字的边界:1,1逐步选择:第2步变量age已输入:R方=0.7642和C(p)=12.2249条件数字的边界:1.0369,4.1478逐步选择:第3步变量runpulse已输入:R方=0.8111和C(p)=6.8278条件数字的边界:1.3548,11.597逐步选择:第4步变量maxpulse已输入:R方=0.8368和C(p)=4.7661条件数字的边界:8.4182,76.851留在模型中的所有变量的显著性水平都为0.1500。没有其他变量满足0.1500显著性水平,无法输入该模型。结果说明:(1)在显著水平015下,用逐步回归法挑选出四个自变量按runtime,age,runpulse,maxpulse先后被选入回归模型。其它变量在0.15水平下是不显著的。
本文标题:SAS学习系列24.-逐步回归
链接地址:https://www.777doc.com/doc-4082350 .html