您好,欢迎访问三七文档
第五章自变量的选择§5.1引言•在实际问题中可以提出许多可能对因变量有影响的自变量,如何从中选择确实有影响的自变量来建立回归方程是一个十分重要的问题。如果方程中包含的自变量过多,那么不仅使用不便,还可能削弱估计和预测的精度,而自变量过少或选得不恰当,又会使所建立的模型与实际有偏离而不能使用。然而,自变量的选择又是一个十分复杂的问题,而涉及的计算量都很大,本章的目的是对自变量选择作一些理论分析,提出一些变量选择准则,并介绍有关的计算方法。§5.2自变量选择的后果在多元线性回归模型中,自变量的选择实质上就是模型的选择。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记:1tm):),0(~2nnINXY其中:Y是1n的观测值,是1m未知参数向量,X是mn结构矩阵,并假定X的秩为m。现从txxx,,,21这t个变量中选t变量,不妨设txxx,,,21,那么对全模型中的参数和结构矩阵X可作如下的分块(记:1tp):qp,,qpXXX下面的回归模型称为选模型:),0(~2nppINXY其中:Y是1n的观测值,p是1p未知参数向量,pX是pn结构矩阵,并假定pX的秩为p。自变量的选择问题可以看成是这样二个问题:•究竟应用全模型还是用选模型;•若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见,先引入几个记号:全模型中参数2,的估计:1ˆ()'XXXY211ˆ[()]()YIXXXXYnRX其中:)(XR为矩阵X的秩。在点)(1txxx点上的预测值为ˆˆyx在选模型中参数2,的估计:121()1[()]()ppppppppppXXXYYIXXXXYnRX在),(),()(11tppqpxxxxxxx上的预测值pppxy~~为了证明下面的定理,先给出:分块矩阵求逆公式:设A为非奇异的对称矩阵,且DCCBA,其中:qqDqpCppB:,:,:,则当1B或1D存在时有:1111111111111111111111111)()(CBCDBCDCDBBCCDBBCDBCDDBCDCDBCCDBDCCBA均方误差的概念对无偏估计常用ˆVar来描述估计的好坏,而对有偏估计则相应采用均方误差)~)(~(~EMSE定理5.2.1(对估计的影响)(1)全模型为真时,ˆE,除了0q或0qpXX外,ppE~(2)ppDD~ˆ为非负定矩阵;(3)当qqDqˆ为非负定矩阵时,)~)(~()ˆpppppED(为非负定矩阵;(4)时等号成立。仅当0,ˆ~q22EEp记:DCCBXXXXXXXXXXqqpqqppˆp,11111ˆDCCBXX)(其中:ppXXBqpXXCqqXXD证明:(1)现认为全模型(5.1)为真,则ˆE(已证);11111()()()()()()()ppppppppppppqqpppppqqpPppqqpqEXXXEYXXXXXXXXXXXXXXXXXXBC只有当时或0X0pqqX,才有pEp~,即p~在一般情形下不再是无偏估计。因此,描述估计的好坏不能用有效性来作为衡量标准。在估计是有偏的情况下,一般可用均方误差作为标准。(2)由2111121ˆˆˆDCCBXXDDqp)(,知:21ˆBDp又:2121~BXXDppp)(由分块矩阵的逆可知:11111BBCCDBB,11111()(1())0qppppqDDCBCXXXXXX。再利用:111111111()(1())qqpppqBBCDCBBDDCBCXXXXXX为非负定矩阵有:21112121ˆBCCDBBBDp,且1121ˆppDDBCDCB为非负定矩阵。注:假如全模型为真的话,若误用选模型的话,从参数估计p~的方差来说反而减少了。(3)由qppCBE1~可知,11[()()]()()[()()]()()ppppppppppppppppppqqEEEEEEEDEEDBCCB故有:11112111121111ˆ[()()]ˆ()ˆ()pppppppqqqqqqqqqDEDDBCCBBCDCBBCCBBCDCBBCDCB为非负定矩阵。上述性质可说明被丢掉的自变量对应变量的影响确实存在(0q),但q难于准确估计或影响不大,而回归系数的方差过大(方差过大可用0ˆqqqD来表示),为了减少估计的均方误差,删去这些变量对模型是有利的。(4)22ˆE(已证明),21p1{(I())}()pppppEEYXXXXYnRX11{(())}()ppppptrIXXXXEYYnRX121{(())()}()ppppnptrIXXXXIXXnRX211(())()()ppppptrIXXXXXXnRX211(())()ppPppXIXXXXXnRX21[)()()]()ppqqpppqqpXXIHXXnRX21[()]()qqpqqpXIHXnRX上式的证明中用到0)(,0)(,0)(pppppppXHIHIXXHIX。由于pIH为非负定矩阵,故有:0])1([qqpqqXHX,由此可得:222ˆ~EEp。从(4)可知,当全模型为真时,而实际上用了选模型,那么,用2~p不再是2的无偏估计,并且22~pE。定理5.2.2(对预测的影响)(1)当全模型为真,则xyEˆ,除0q外xyEp~(2))~()ˆ(ppxyDxyD(3)当qqqDˆ为非负定矩阵时,2)~()ˆ(ppxyExyD证明:(1)xyEˆ(已证明)。qpppqqppppppppCBxxXXXXxxExE11p)(~y~。xxpppqy~E0时,当,否则xpy~E(2)利用定理5.2.1中的符号,有:qpqpxxDCCBxxxXXxxDxDyxyD1111212)(1))(1(ˆ)ˆ(]1[11112qqqppqppxDxxCxxCxxBx又11111BCCDBBBqqqppqppppxDxxCxxCxxBCCDBxxBxxyD121212111212]1[)ˆ()1()(~)~(12122pppppppppppxBxxXXxxDxDyxyD)~()ˆ(ppxyDxyD][11111112qqqppqppxDxxCDBxxCDxxBCCDBx0)()(1112qpqpxxBCDxxBC(3)由于22)]~([)~()~(ppppppxyExyDxyE又:qpqqpppppCBXXXXE11)(~)()()]~[()()~(112111pqqqpqppqpqqpqqqpppppxBCxxBCxxyExBCxCBxxCBxxxxyE2211111211ˆ()()[()()][()()]()()()0ppqpqpqpqqqpqpqqqpDyxEyxxCBxDxCBxxCBxxCBxxCBxDxCBx注:由上述定理说明,若全模型为真的而误用选模型ppx~作为y值的预测的话,所得的估计是有偏的.但预测方差会有所下降。而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用qqqDˆ为非负定矩阵来表示),对预测精度的提高是有利的.综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利.§5.3自变量选择准则若一个多元回归的问题中有t可供选择的自变量,那么所有可能的回归方程有12t个,下面给出一些自变量选择的准则,希望能从12t个回归方程中选择一个最合理的方程.先给出一些记号:对全模型,记:SSTSSERXXXXHYHIYSSE1,)(,)(21对选模型,记:SSTSSERXXXXHYHIYSSEppppppppp1,)(,)(21前面已说明对一切p有22ppRRSSESSE,即全模型的残差平方和总达到最小,而复相关系数总达到最大,因此残差平方和和复相关系数均不能作为选择变量的准则。下面从不同的角度给出自变量选择的准则。从模型拟合角度考虑.准则1平均残差平方和达到最小.pnSSEPp2~pSSE随p的增加而减少,但pn也随p的增加而减少。但前面的ix,由于其对y的作用很显著,使pSSE减少得较快,能使pnSSEp随的p增加而减少,但当ix对y的作用不明显时,随差p的增加,pSSE减少的很慢,而pn1随p的增加继续增加,这就使()PSSEnp随p的增加而增加,取()PSSEnp的最小值所对应的p。当然相应入选p个变量是所有t个变量是所有自变量中最显著的。(其显著性由计算t统计量或F统计量得出)。准则2修正的复相关系数2PR达到最大。其中2PR的定义为,)1()(12nSSTpnSSERPPpnnRp1)1(12可以证明在0q时,22qppRR,故取2pR达到最大的方程为好。从预测角度考虑。为了叙述方便,先给出下面记号。记:nqnpqpqpnxxxxxxxxxX2211''2'1其中:iqipixxx,ni2,1从而有qqpqqpppXXXXXXXXXX其中:'ipipppxxXX,'iqipqpxxXX,'ipiqpqxxXX,'iqiqqqxxXX准则3预测偏差的方差pJJ达到最小2~)(pppnJJ前节中已计算ppxyD~'=21'))(1(ppppxXXx,所以在n个样本点上的预测偏差的平方和为:''12()(1())iippipppipiiDyxxXXx2'12)(
本文标题:自变量的选择
链接地址:https://www.777doc.com/doc-4013619 .html