您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 自变量的选择与逐步回归分析
2020/2/281第五章自变量的选择与逐步回归5.1自变量选择对估计和预测的影响5.2所有子集回归5.3逐步回归5.4本章小结与评注2020/2/282§第5章自变量选择与逐步回归从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。2020/2/283§5.1自变量选择对估计和预测的影响一、全模型和选模型设研究某一实际问题涉及到对因变量有影响的因素共有my=β0+β1x1+β2x2+…+βmxm+ε(5.1)如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,…,xp,y=β0p+β1px1+β2px2+…+βppxp+εp(5.2称模型(5.2)式为选模型。2020/2/284§5.1自变量选择对估计和预测的影响一、全模型和选模型模型选择不当会给参数估计和预测带来什么影响?下为了方便,我们把模型(5.1)式的参数估计向量和σ2的估计记为:βˆyXXXβm-1mmm)(ˆmmSSEmn11ˆ2把模型(5.2)式的参数估计向量记为yXXXβp-1ppp)(ˆppSSEpn11ˆ22020/2/285§5.1自变量选择对估计和预测的影响二、自变量选择对预测的影响关于自变量选择对预测的影响可以分成两种情况:第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而误用了全模型式。2020/2/286§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质1.在xj与xp+1,…,xm的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即jjpjp)ˆ(E(j=1,2,…,p)。2020/2/287§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质2.选模型的的预测是有偏的。给定新自变量值)x,,x,x(m00201p0x,因变量新值为y0=β0+β1x01+β2x02+…+βmx0m+ε0用选模型的预测值为p0pp02p201p1p0p0xˆxˆxˆˆyˆ作为y0的预测值是有偏的,即0)yyˆ(E0p0。2020/2/288§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质3.选模型的参数估计有较小的方差选模型的最小二乘参数估计为)ˆ,,ˆ,ˆ(ˆppp1p0pβ全模型的最小二乘参数估计为)ˆ,,ˆ,ˆ(ˆmmm1m0mβ这条性质说明p,,1,0j),ˆ(D)ˆ(Djmjp。2020/2/289§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质4.选模型的预测残差有较小的方差。选模型的预测残差为0p0p0yyˆe全模型的预测残差为0m0m0yyˆe其中y0=β0+β1x01+β2x02+…+βmx0m+ε则有D(e0p)≤D(e0m)。2020/2/2810§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况性质5.记),,(m1ppmβ用全模型对pmβ的最小二乘估计为)ˆ,,ˆ(ˆm1ppmβ则在pmpmpm)ˆ(Dβββ的条件下E(e0p)2=D(e0p)+(E(e0p))2≤D(e0m)即选模型预测的均方误差比全模型预测的方差更小。2020/2/2811§5.1自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况如果选模型正确,从无偏性的角度看,选模型的预测值p0pp02p201p1p0p0xˆxˆxˆˆyˆ是因变量新值y0=β0+β1x01+β2x02+…+βpx0p+ε0的无偏估计,此时全模型的预测值m0m0220110m0xˆxˆxˆˆyˆ是y0的有偏估计。2020/2/2812§5.1自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况从预测方差的角度看,根据性质4,选模型的预测方差D(p0yˆ)小于全模型的预测方差D(m0yˆ)从均方预测误差的角度看,全模型的均方预测误差E(0m0yyˆ)2=D(m0yˆ)+[E(m0yˆ)-E(y0)]2包含预测方差与预测偏差的平方两部分而选模型的均方预测误差E(p0yˆ-y0)2=D(p0yˆ)仅包含预测方差这一项,并且D(p0yˆ)≤D(m0yˆ)因而从均方预测误差的角度看,全模型的预测误差将更大。2020/2/2813§5.1自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况上述结论告诉我们,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。2020/2/2814§5.2所有子集回归一、所有子集的数目mmmmmCCC210有m个可供选择的变量x1,x2,…,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个。从另一个角度看2020/2/2815§5.2所有子集回归二、关于自变量选择的几个准则从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为:SSEp+1≤SSEp21pR≥2pR2020/2/2816§5.2所有子集回归准则1自由度调整复相关系数达到最大)1(11122RpnnRa显然有2aR≤R2,2aR随着自变量的增加并不一定增大。从拟合优度的角度追求“最优”,则所有回归子集中2aR最大者对应的回归方程就是“最优”方程。2020/2/2817§5.2所有子集回归准则1自由度调整复相关系数达到最大从另外一个角度考虑回归的拟合效果,回归误差项方差σ2的无偏估计为:SSEpn11ˆ2此无偏估计式中也加入了惩罚因子n-p-12020/2/2818§5.2所有子集回归准则1自由度调整复相关系数达到最大由以上分析,用平均残差平方和2ˆ作为自变量选元准则是合理的,那末它和调整的复判定系数2aR准则有什么关系哪?实际上,这两个准则是等价的,容易证明以下关系式成立22ˆ11SSTnRa由于SST是与回归无关的固定值,因而2aR与2ˆ是等价的2020/2/2819§5.2所有子集回归准则2赤池信息量AIC达到最小AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则(AkaikeInformationCriterion,简记为AIC)。AIC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。2020/2/2820§5.2所有子集回归准则2赤池信息量AIC达到最小设回归模型的似然函数为L(θ,x),θ的维数为p,x为样本,在回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:AIC=-2lnL(Lˆθ,x)+2p其中Lˆθ是θ的极大似然估计,p是未知参数的个数。2020/2/2821§5.2所有子集回归准则2赤池信息量AIC达到最小假定回归模型的随机误差项εε~N(0,σ2)对数似然函数为SSEnnLLL22maxˆ21)ˆln(2)2ln(2ln将SSEn1ˆ2L代入得2)ln(2)2ln(2lnmaxnnSSEnnL2020/2/2822§5.2所有子集回归准则2赤池信息量AIC达到最小AIC=-2lnL(Lˆθ,x)+2p带入公式中这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为AIC=nln(SSE)+2p对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型2020/2/2823§5.2所有子集回归准则3Cp统计量达到最小1964年马勒斯(Mallows)从预测的角度提出一个可以用来选择自变量的统计量————Cp统计量。根据性质5,即使全模型正确,但仍有可能选模型有更小的预测误差。Cp正是根据这一原理提出来的。2020/2/2824§5.2所有子集回归准则3Cp统计量达到最小考虑在n个样本点上,用选模型(5.2)式作回报预测时,预测值与期望值的相对偏差平方和为:niimmiipppippniiippxxxxyEyJ121101102122))(ˆˆˆ(1))(ˆ(12020/2/2825§5.2所有子集回归准则3Cp统计量达到最小可以证明,Jp的期望值是)1(2)()(2pnSSEEJEpp略去无关的常数2,据此构造出Cp统计量为pnSSESSEmnpnSSECmppp2)1(2ˆ22020/2/2826§5.2所有子集回归准则3Cp统计量达到最小其中mSSEmn11ˆ2是全模型中σ2的无偏估计。这样我们得到一个选择变量的Cp准则:选择使Cp最小的自变量子集,这个自变量子集对应的回归2020/2/2827§5.2所有子集回归例5.1y表示某种消费品的销售额,x1表示居民可支配收入,x2表示该类消费品的价格指数,x3表示其他消费品平均价格指数。表5.1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。2020/2/2828§5.2所有子集回归序号x1(元)x2(%)x3(%)(百万元)181.285.087.07.8282.992.094.08.4383.291.595.08.7485.992.995.59.0588.093.096.09.6699.996.097.010.37102.095.097.510.68105.395.697.010.99117.798.998.011.310126.4101.5101.212.311131.2102.0102.513.512148.0105.0104.014.213153.0106.0105.914.914161.0109.0109.515.915170.0112.0111.018.516174.0112.5112.019.517185.0113.0112.319.918189.0114.0113.020.5表5.12020/2/2829§5.2所有子集回归这个例子中,n=18,m=3,所有的自变量子集有2m-1=7个,即有7个回归子集。2aR自变量子集R2AICCpx10.97280.971140.064.134x20.95660.953948.4816.151x30.95080.947750.7420.452x1,x20.97470.971440.764.734x1,x30.97840.975537.932.005x2,x30.95760.951950.0917.461x1,x2,x30.98110.977137.522.000表5.22020/2/2830§5.2所有子集回归由表5.2的3项指标均可看到x1,x2,x3是“最优”子集,x1,x3是“次优”子集。回归方程分别为yˆ=-10.1489+0.1008x1-0.3104x2+0.4110x3yˆ=-14.049+0.07641x1+0.1178
本文标题:自变量的选择与逐步回归分析
链接地址:https://www.777doc.com/doc-4044980 .html