您好,欢迎访问三七文档
1回归收缩以及通过LASSO选择变量ROBERTTIBSHIRANI加拿大多伦多大学(1994.1接收。1995.1修订)摘要在线性模型预测中,我们再次提出一个新的方法——LASSO,其最小残差平方和服从系数的绝对值的总和小于一个常数。由于这个特性,这种方法倾向于减少一些精确为0的系数而因此给出可解释的模型。我们的模拟研究显示LASSO在岭回归的子集选择中有一些有利的方面,其提出的可解释的模型就像子集的选择而且显示出了岭回归的稳定性。LASSO也与Donoho和Johnstone提出的自适函数估计有着令人感兴趣的关系。这种方法可以相当普遍的应用于很多数据模型中,例如:扩展广义回归模型和基于树的模型可以简略的描述。关键字:二次规划,回归,收缩,子集选择法21.介绍考虑到一般的回归情况:我们有数据),(iiyx,i=1,2,3........N,Tipiixxx),...,(1和iy分别是第i组观测值的自变量和因变量。原始的最小二乘估计是通过最小残差平方和获得的,所以有两个原因使得数据的分析往往和最小二乘估计不符。第一,就是剩余方差最小化。最小二乘估计通常斜率较小,方差较大,预测精度有时可以通过收缩或将某些系数设为0而提高。通过这样做,我们通过牺牲一点斜率来减少预测结果的方差。第二,就是模型的解释。对于大量的预测值,我们更愿意判断模型在一个更小的子集当中显示出来的最好的结果。为了提高最小二乘估计的两个技术标准,子集选择法和岭回归都有缺陷。子集选择法可以得出一个可以解释的模型,但是给出的模型过于多变,而回归过程本身是离散的——因变量既不能被保留,也不能从模型中剔除。数据中的小变动会影响由子集选择法得出的不同模型而且还会降低模型的预测精度。岭回归是一个连续的过程,由于其不断收缩系数,因此较平稳。然而,他并没有将任何系数收缩为0,因而这个方法不能给出一个简单的可解释的模型。在此,我们提出一个新的方法,成为LASSO,就是“绝对收缩和选择算子”。它使一些系数收缩并将其他的设为0,因此就是说它尝试保留了子集选择法和岭回归的好的性质。在第二部分,我们会解释LASSO这个方法并且寻找一些特例。一个真实的数据例子将在第三部分给出,在第四部分我们将讨论这种方法的预测误差和LASSO的收缩系数。在第五部分,一个LASSO的贝叶斯(Bayes)模型将被被简略的提到。在第六部分我们将描述LASSO的运算法则,模拟实验将在第七部分加以描述。第八和第九部分讨论了推展扩广的回归模型的其他问题。一些软阙值的结论以及其和LASSO之间的关系将在第十部分讨论,第十一部风包含了文章的总结和一些结论。2.LSAAO32.1定义假设我们有数据Niyxii,...2,1),,(,Tipiixxx),...,(1是自变量,iy是因变量。在一般回归建立过程中,我们假定要么观测值独立或者iy关于给出的ijx独立。我们假设ijx是标准化的,即1/,0/2NxNxijiiji。令Tp),...,(1,用LASSO预测的),(结果为Nijijjixy12})(min{arg),(并服从jjt(1)这里0t是个可调整参数。现在,对于所有的t,对的预测就是y。我们不失一般性的假定0y从而舍弃。估算(1)的结果是一个线性不等约束的二次规划问题,在第六部分我们会介绍一些解决这类问题的有效且平稳的运算法则。参数t控制的是预测值收缩的总量。使得0j为完整最小二乘估计且00jt。当0tt时会使得模型的收缩量趋向于0且一些系数可能等于0.例如,如果2/0tt,则结果将完全和寻找2/p的最优子集相似。同时需要注意的是矩阵不需要全秩。在第四部分,我们给出一些基础的数据方法来预测tLASSO的想法来自于Breiman的一个令人感兴趣的提议。Breiman的非负garotte最小形式为Nijijojjixcy12)(使得0jc且tcj。(2)Garotte算法以一般最小二乘预测开始而且收缩其系数使其非负系数的和小于一个常数。在大量的模拟实验中Breiman的garetto方法显示其相对子集选择法具有较低的预测误差,而且当真实模型具有较多非零系数时,在预测方面,garetto方法和岭回归法的预测效果不相上下。Garotte方法的缺点是他的结论依赖于最小二乘估计的估计和量度。在过度4或高度相关时,garetto和最小二乘一样表现乏力,相反的,LASSO则避免了最小二乘预测的直接使用。Frank和Friedman提出给标准的系数qL一个约束条件,这里q比0更好或者等于0;LASSO里直接相当于1q。我们将在第十部分对此进行简略的讨论。2.2正交设计案例从标准正交设计案例中可以对收缩的本质有深入了解。设矩阵pnX,其中第i行第j列元素为ijx,且假定IXXT单位矩阵。对于等式(1)的结论可以简单表示为))((00jjjsign(3)这里由条件tj来确定。有趣的是这个恰好与Donoho,Johnstone和Donohoetal.在功能预测背景下提出的为微波系数预测的软收缩形式相同。Donohoetal.也在信号处理以及图像复原中指出了软收缩和最小标准惩罚矩阵1L之间的联系。在第十部分我们会详尽的解释他们之间的联系。在正交设计案例中,对于k阶矩阵最好的子集选择就是选出k中用显著效果的最大的系数然后其他的为0。对于其他的选择与如果oj则ojj或者直接0j。岭回归最小形式如下Nijjjijjixy122)(或者,最小形式为Nijijjixy12)(且tj2(4)岭回归的解决方案是oj115这里依赖于或者t。Garotte预测是ojoj)1(2图1显示了这些功能的形式。岭回归通过一个恒定的因素规划出系数,相反,LASSO通过一个恒定的因素来转变,并在0处截断。Garotte的功能和LASSO很相似,用较小的因子收缩较大的系数。在模型不正交时,我们的模拟实验结果将显示出garotte和lasso之间巨大的差别。2.3lasso的几何意义图1很明确的显示出能有效舍去那些为0的系数。为何在不正交的情况也能起作用?为什么岭回归中用了约束tj2而不是tj时就不能有此作用?图2给出了2p时的深刻的解释。标准的21)(ijjjiNixy等同于二次方程)()(oTToXX(假设有一个不变)这个方程的曲线轮廓将在图2(a)的完全曲线显示出来;他们都是以最小二乘法为中心的;约束区域是转角正方形。LASSO的结论首先是其轮廓与正方形相交,而且这个有时会发生在角落,与系数0完全一致。岭回归的图为图2(b):它没有任何角落可以与轮廓相交,因此零系数很少起效果。这张图暴露出一个很有趣的问题:LASSO预测结果会和最小二乘预测结果的oj不同吗?由于变量都是稳定的,2p的轴线与坐标轴呈o45,而且我们可以展示图像的轮廓会和同象限包含o二次函数相交或相切。然而当2p时,数据至少有适度的相关性是不现实的。图3展示了一个三维的例子。由图3(b)确定它的曲线轮廓与约束区域在与其中心所在卦限不同的另一卦限相交或相切。图1(a)子集选择法回归,(b)岭回归,(c)LASSO,(d)garotte__________正交情况下系数收缩形式................o45参考线6图2(a)lasso的预测图像(b)岭回归的预测图像图3(a)lasso的预测结果落在一个和最小二乘预测完全不同的卦限的例子(b)俯视图Garotte保留了每个oj的符号,然而lasso则可以改变。即使LASSO预测与Garotte矢量相同,有最小二乘法存在的Garotte方法也会变得不同。有tcj约束模型ijojjxc可以被写成约束为tojj/的ijjx。例如2p而且021oo,然后结果将会使图2(a)的正方形延展到水平线。因此,7数值较大的1和较小的2将被garotte方法所接受。2.4更多的两个预测值的情况假定2p,而且假设大部分数据没有丢失的情况下,oj的最小二乘预测是正的。然后我们可以看出Lssso的预测结果是)(oj(5)这里是被选定的来使t21。这个为了使oot21定的规则即使在预测值相关时也是有效的。求解)22(211oot)22(212oot(6)相反的,岭回归收缩取决于预测值之间的相关性。图4展示了一个例子。图4Lasso(实线)和岭回归(虚线)的两个预测值的例子:上图曲线显示出),(21在Lasso和岭回归参数上的约束是多变的;从底部的间断曲线开始往上,相关系数分别为0,0.23,0.45,0.68和0.9我们从没有残差的模型2136xxy中选取100个数据。这里1x和2x是标准的相关系数为的正常类型数据。图4中的曲线显示岭回归和Lasso预测在2221和21的约束下是多变的。对于所有的,Lasso预测服从完整的曲线,岭回8归(间断曲线)取决于。当0时,岭回归成比例的收缩。然而,对于数值较大的,岭回归预测缩小的比例不尽相同,而且当约束条件缩小时,还可能增大一点。就如JeromeFriedman指出的,这都是因为岭回归趋势为尝试使系数和其最小形式的二次型相等。2.5标准误差由于Lasso预测的非线性且无差别回应功能,即使是固定的t值,所以要获得一个精确地标准误差是比较困难的。一个可以接近的方法是通过1抽样:无论t是固定的或者我们可以可以为了每个引到抽样最优化t。固定的t和选取一个最优子集类似,然后用这个子集的最小二乘标准误差作为其标准误差。一个近似的预测方法是将惩罚项j写成jj/2。因此,就像Lasso预测的,我们可以近似地用岭回归的形式yXWXXTT)(*,这里的W是一个有着对角元素~j的对角矩阵,W表示与W相反的而且λ是为了使tj*而选定的。预测值的协变矩阵可以由211)()(XXXXXWXXTTT(7)来近似表示,这里2是残差方差的预测值。这个公式的一个问题是对于0j的预测值给出的预测方差为0.这个近似值也使人想到想到一个算出Lasso预测值本身的重复的岭回归算法,但是这个算法效率很低。然而,对于选择Lasso系数t却很有用。
本文标题:lasso
链接地址:https://www.777doc.com/doc-3562294 .html