您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 通过Lasso进行回归压缩和选择
回归压缩以及通过Lasso选择变量由ROBERTTIBSHIRANIT著加拿大多伦多大学1994年1月接收1995年1月修订摘要我们提出了一个估计线性模型的新方法。Lasso最小化残差平方和使得系数绝对值之和小于一个常数。由于这种约束的性质,它倾向于产生一些恰好为0的系数,从而给出了解释模型。我们的模拟研究表明,Lasso具有一些子集选择和岭回归的良好特性。它产生像子集选择一样的可以解释的模型并且展示了岭回归的稳定性。Lasso与Donoho和Johnstone近期提出的关于自适函数估计的工作有着有趣的联系。Lasso想法是相当广泛的,并且可以运用在各种统计模型中:本文简要介绍了广义的回归模型和基于树的模型的扩展。关键词:二次规划;回归;压缩;子集选择1.引言考虑一般的回归情况:我们有数据Niyxii,...,2,1),,(,Tipiixxx),...,(1和iy分别是第i组观测的自变量和因变量值。普通最小二乘估计(OLS)是通过残差平方和最小化得到的。有两个原因来解释为什么数据分析常常不适合用OLS估计。第一个原因是预测精度:OLS估计通常偏压较小,方差较大;预测精度有时可以通过压缩或将一些系数设置为0而提高。通过这样做,我们牺牲一点偏压以减少所预测值的方差,并且可以提高整体的预测精度。第二个原因是模型的解释。对于大批预测值,我们更愿意判断模型在一个更小的子集当中显示出来的最好的结果。两个可以改善OLS估计的基本方法,子集选择法和岭回归都有缺陷。子集选择法提供了可解释的模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变。数据的微小变动会影响由子集选择法得出不同模型,这可以降低其预测精度。岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为0,因此不能给出容易解释的模型。我们提出一个新方法,叫作Lasso,意思是最小绝对收缩和选择算法。它缩小了一些系数,并将其他的系数设置为0,从而试图保留子集选择法和岭回归的优良特性。在第2节我们给出了Lasso的定义,并且寻找一些特例。在第3节中给出一个真实的数据例子,在第4节我们研究了预测误差与Lasso收缩参数估计的方法。在第5节简单提及Lasso中的一个贝叶斯方法。我们在第6节描述了Lasso算法。第7节是模拟研究和介绍。第8节和第9节研究了广义回归模型的拓展和其他问题。第10节讨论了Lasso软阈值的一些结论以及关系,第11节包括讨论与总结。2.LASSO方法2.1定义假设数据Niyxii,...,2,1),,(,其中Tipiixxx),...,(1为自变量,iy是因变量,在通常的回归建立中,我们假定要么观测值是独立的,或者对于给定的ijx,所有的iy是条件独立的。我们假定ijx标准化,且1/,0/2NxNxiijiij。令Tp),...,(^1^^,用Lasso方法的估计量),(^^定义为})(min{arg),(12^^Nijijjixy对于tjj||(1)这里0t是一个调和参数。此时对所有的t,有的估计是y^。我们可以在不失一般性的情况下假定0y,因此可忽略。方程(1)的解决方案的计算是具有线性不等式约束的二次规划问题。我们将在第6节针对这个问题介绍一些高效稳定的算法。参数0t控制的是应用于估计的收缩量。令^oj为完全最小二乘估计且令||^0ojt。0tt会导致模型的收缩量趋向0,且一些系数可能刚好等于0。举个例子,如果2/0tt,效果会大致类似于寻找大小为2/p的最优子集。还需要注意的是设计矩阵不一定是满秩。在第4节我们给出估计t的一些基于数据的方法。Lasso的想法来源于Breiman(1993)的一个令人刚兴趣的建议。Breiman的非负铰除法目标函数最小化形式为21^)(Nijijojjixcy使得0jc,tcj(2)非负铰除法始于普通最小二乘估计,而且压缩其系数使其非负系数的和小于一个常数。在大量的模拟实验中,相对子集选择法,Breiman的非负铰除法预测误差相对较小,而且当真实模型具有较多非零系数时,在预测方面,非负铰除法和岭回归法的预测效果不相上下。非负铰除法的缺点是其运算结果依赖于最小二乘估计的符号和数值大小。并且在存在过度拟合和变量存在高度相关情况时,由于最小二乘估计效果不好而会影响预测准确性。相比之下,Lasso则避免了非负绞除法的缺陷。Frank和Friedman提出给标准的系数qL一个约束条件,这里q是一个大于等于0的数;Lasso方法中1q。我们将在第十节对此进行简略的讨论。2.2正交设计案例从标准正交设计案例中可以对收缩的本质有深入了解。设矩阵X是pn的的矩阵。其中第i行第j列元素为ijx,且假定IXXT,I是单位矩阵。方程(1)的解可以简单表示为)|)(|(^^^ojojjsign(3)这里由条件tj||^来确定。有趣的是,这恰好与Donoho和Johnstone(1994)和Donoho等人(1995)在功能预测背景下应用于微波系数的函数估计提出的软收缩建议具有相同的形式。Donoho等人也在信号处理以及图像复原中指出了软收缩和最小范数惩罚矩阵1L之间的联系。在第十节我们会详尽的解释他们之间的联系。在正交设计案例中,大小为k的最佳子集的选择减少到最大系数k的绝对值,将其余的设置为0。对于的一些选择相当于如果||^oj,则^^ojj,否则直接令0^j。岭回归最小形式如下:jjNijijjixy221)(或者等价地,使得如下方程最小:21)(Nijijjixy使得tj2(4)岭回归的解是:^11oj这里取决于或t。非负铰除法的估计是^^2)1(ojoj图1显示了这些函数的曲线。岭回归通过一个常数因子衡量系数,然而LASSO通过常数因子转换,并在0处截断。非负铰除法的函数和Lasso很相似,都是系数愈大收缩愈小。在设计不是正交时,我们的模拟实验结果将显示出非负铰除法和Lasso之间巨大的差别。2.3Lasso的几何意义很明显从图1中可以得出Lasso产生的系数经常是0,为什么这种状况发生在一般(非正交)的情况下?为什么岭回归中用了约束式tj2而不是tj||,这种现象在岭回归中没有出现?图2提供了2p的深刻解释。Nijijjixy12)(标准与二次函数)()(0^0^XXTT(加上一个常数)相同。图2(a)实线表示该函数的椭圆轮廓,以OLS为中心,约束区域是个旋转的正方形。Lasso的结论是首先是其轮廓与正方形相交,而且有时会发生在角落,该角落对应于系数为0的地方。图2(b)显示了岭回归的图像:它没有任何角落与轮廓相交,因此很少有零解。图中呈现出一个十分有趣的现象:Lasso估计结果会与最小二乘估计的^0j有何不同?由于变量是标准化的,因此当2p时,轴线与坐标轴呈45。近而可以得出,图像的轮廓必需与包含ˆo的正方形在同一个象限中,且相交或相切。但是,当2p时数据存在相关性,这并非特定的,图3展示了三维示意图,图3(b)证实它的曲线轮廓与约束区域在与其中心所在卦限不同的另一卦限相交或相切。图1.(a)子集选择法回归,(b)岭回归,(c)Lasso和(d)非负铰除法:在系数收缩的形式中正交设计的案例,……,倾斜角为45°的线作为参考图2.(a)Lasso和(b)岭回归的估计图图3.(a)不同于总体最小二乘估计Lasso估计结果落在不同的卦限的例子;(b)俯视图而非负铰除法中保留每个^oj的符号,Lasso可以改变符号。甚至在Lasso估计中与非负铰除法有相同符号的矢量的情况下,有OLS估计存在的非负铰除法也会变得不同。带有约束式tcj的模型^0ijjjxc的也可以表示成具有约束式tjj^0/的模型ijjx的。举个例子,如果2p且0^02^01,则效果将会横向拉伸图2(a)的正方形。因此,非负铰除法青睐于较大的1值和较小的2值。2.4两个预测值的更多情况假设2p,且假定不失一般性,其中最小二乘估计^0j为正数,进而,可以得出:)(^0^rj其中选择的要使得t^2^1。这个公式适用于^02^01t,即使预测值相关此公式也是有效的。解得出:)22(^02^01^1t)22(^02^01^2t(6)相反地,岭回归收缩的形式也取决于预测值的相关性。如图4所示:图4.对于两个预测值的例子,实线表示LASSO,虚线表示岭回归:曲线表明,数据对),(21作为lasso和岭参数的范围是不同的;从底部的虚线开始并向上移动,相关系数取值0,0.23,0.45,0.68和0.90。在没有干扰的情况下,我们从模型1263yxx中产生100个数据点。这里1x和2x是标准正常变量,两者的相关系数为。图4曲线所示岭估计和lasso估计的边界2221和||||21是变化的,对于所有的,lasso估计服从全曲线。岭估计(虚线)取决于,当0岭回归成比例收缩。然而,当取较大值时,岭回归预测缩小的比例不尽相同,而且当约束条件缩小时,还可能增大一点。就如JeromeFriedman指出的,这是由于岭回归试图使系数等于他们最小平方范数的趋势。2.5标准误差由于lasso估计是因变量的一个非线性、非可微函数,即使对于固定的t值,所以很难得到标准误差的一个准确估计。但有两种方法可取,其一是通过抽样:将t值固定,或者为每个抽样样本对t进行优化。其中固定t值则与选择最优子集类似,然后用这个子集的最小二乘标准误差作为其标准误差。可以用惩罚||j写成||/2jj的形式来进行估计。因此,在lasso估计~时,我们可以用岭回归的形式yXWXXTT1*)(似解决,其中W是一个对角矩阵,对角元素为ˆj,W则表示W的广义逆矩阵,并且选定的使得tj*||成立。估计的协方差矩阵可通过以下的公式近似得出:2^11)()(XXXXXWXXTTT(7)其中2^是误差方差的估计值。这个公式的难点在于对0^j的预测值给出了0的一个估计方差。这种近似也表明了计算LASSO估计本身的一个迭代岭回归的算法,但是这证明是相当低效的。然而,对于lasso参数t(第四节)的选择是有用的。
本文标题:通过Lasso进行回归压缩和选择
链接地址:https://www.777doc.com/doc-2007479 .html