通过LASSO回归压缩和选择

第1页通过LASSO回归压缩和选择Robert·Tibshirani加拿大多伦多大学【1994年1月收到，1995年1月修订】【摘要】本文提出一个线性模型估计的新方法。LASSO最小化残差平方和使得系数绝对值之和小于一个常数。由于此约束的性质倾向于产生一些为0的系数，从而给出了解释模型。我们的仿真研究表明，LASSO具有一些子集选择和岭回归的有利特性。它产生了例如子集选择的解释模型并展示了岭回归的稳定性。在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。LASSO思想是相当广泛的并可用于各种统计模型：本文简要介绍了广义的回归模型和基于树的模型的扩展。关键词：二次规划；回归；压缩；子集选择1.引言考虑通常的回归情况：已知数据(,),1,2,...,,iiXyiN其中1(,...,)iTiipXxx和iy分别是观察数据的第i个回归因子和响应量。通过最小化残差平方的误差得到普通最小二乘法(OLS)估计。数据分析师经常不满意OLS估计值有两个原因。第一是预测精度：OLS估计经常是低偏压高方差；预测精度有时可以通过压缩或设置一些系数为0进行改善。通过这样，牺牲一些偏压，减少预测值的方差，从而提高可以总体的预测精度。第二个原因是解释。拥有大量的经常想要决定更小子集的预测值，我们表现出强烈的影响。改进OLS估计的子集选择和岭回归这两种标准标准技术都有缺点。子集选择提供可解释模型，但是由于它是一个从模型中保留或删除的离散过程变量，它可能极其易变。数据的一点更改可能导致选中非常不同的模型,这样可以减少其预测精度。岭回归是一个系数收缩的连续的过程，并且因此更加稳定：然而，它的任何系数都不为0，因此没有给出一个容易解释的模型。我们提出一个新技术，LASSO即最小绝对收缩和选择算子。它将一些系数收缩，其他的系数设置为0，从而试图保持子集选择和岭回归的良好特征。第2页第2节给出LASSO的定义，看一些特殊情况。第3节给出真实数据示例，而在第4节我们讨论预测误差与LASSO收缩参数估计的方法。第5节简要介绍LASSO的贝叶斯模型。第6节描述LASSO算法。第7节描述仿真研究。第8、9节讨论广义回归模型的扩展和其他问题。一些关于softthresholding和与LASSO的关系的结果在第10节中进行了讨论，第11节包括一些讨论和总结。2.LASSO方法2.1定义假设已知数据,),1,2,...,,iiXyiN（其中1(,...,)iTiipXxx是预测变量，iy是响应变量。在一般的回归设置中，我们假设观测值独立或者对给定的ijxs，iys是条件独立的。假设ijx是标准化的，那么0ijixN,21ijixN。令1ˆˆˆ(,...,)Tp,LASSO估计ˆˆ(,)的定义如下：21ˆˆ(,)argmin()..Nijijijjjyxstt(1)其中，调优参数0t。现在对于所有t，的解决方案是ˆy。我们可以假设不是一般性0y，因此省略。方程(1)的解决方案的计算是具有线性不等式约束的二次规划问题。在第6节，针对这个问题，我们描述了一些高效、稳定的算法。参数0t控制了应用于估计的收缩量。令ˆoj为完全最小二乘估计，0ˆojt。0tt将导致方案的收缩趋向于0，并且一些系数可能刚好等于0。例如，如果02tt，效果会大致类似于寻找大小为2p的最优特征子集。还要注意，设置的矩阵不一定需要满秩。在第4节，我们给出基于数据的估计t的方法。LASSO的动机来自于布赖曼(1993)的一个提议。布赖曼的非负garotte最小化。第3页21ˆ()..0,.Noijjijijjjycxstcct(2)garotte始于普通最小二乘估计，通过总和被限制的非负因素进行收缩。在广泛的仿真研究中，布赖曼显示，除非真正的模型中有许多小的非零系数，garotte具有保持比子集选择更低的预测误差且与岭回归具有竞争力。garotte的一个缺点是它的解决方案取决于标志和OLS估计量。在OLS表现不佳的过拟合或高度相关的设置中，garotte可能会深受其害。相比之下，LASSO避免显示使用OLS估计。弗兰克和弗里德曼(1993)提出了使用绑定的参数q范数，q是一个大于等于0的数；LASSO方法中1q。在第10节中简要讨论了这个问题。2.2正交设计深入了解收缩的性质可以从正交设计案例中进行收集。令X为既定np矩阵，元素为ijx，假定TXXI,I为单位矩阵。方程(1)的解很容易证明是ˆˆˆ()()oojjjsign(3)其中，由ˆjt决定。有趣的是，这与多诺霍和约翰斯通(1994)和多诺霍等人(1995)提出的软收缩建议具有相同的形式，应用于小波系数的函数估计。软收缩和最低1l范数惩罚的关系也由多诺霍等人(1992)在非负参数信号和图像恢复中指出。我们将在第10节进行详细的解释说明。在正交设计的情况下，大小为k的最佳子集的选择减少到最大系数k的绝对值，将其余的设置为0。对的一些选择相当于如果ˆoj，设置ˆˆojj；否则设置为0。岭回归使得下面式子最小221()Nijijjijjyx或者等价地，使得如下最小212()...Nijijijjyxstt(4)第4页岭回归的解是：1ˆ1+oj其中取决于或t。garotte估计是2ˆ(1).ˆojoj图1显示了这些函数的曲线。岭回归用一个常数因子衡量系数，然而LASSO通过常数因子转换，截断为0。garotte函数与LASSO十分相近，都是系数愈大收缩愈小。我们的仿真程序显示，当设计不是正交时，garotte与LASSO差异可能会很大。2.3LASSO几何从图1中很明显的看出为什么LASSO产生的系数经常是0。为什么这种情况会出现在一般（非正交）的设置中？并且为什么这种现象在岭回归中没有出现，其中岭回归使用的约束条件是2jt而不是jt？图2提供了当2p时的试图。21()Nijijijyx标准与ˆˆ()()oTToXX加上一个常数相等。由图2(a)，函数的椭圆轮廓由全曲线显示出来；它们集中于OLS估计周围；约束区域是个旋转的正方形。LASSO解决方案是首先轮廓触摸了广场，并且有时这也会发生在一个角落，该角落对应于系数为0的地方。图2(b)显示了岭回归的图像，没有有角的轮廓，因此很少有零解。这个图片中出现了一个有趣的问题：LASSO估计的符号可以与最小二乘估计ˆoj不同吗？由于变量是标准化的，当2p时，主要的轮廓线轴线与坐标轴成45o，并且我们可以表明，轮廓必需与包含ˆo的正方形在同一个象限中。然而，当2p时，在数据上至少是中度相关，这不必是真的。图3在三维空间中进行举例。图3(b)中的视图证实：椭圆与约束区域在第八象限的接触与它中心所在的象限不同。第5页图1.（a）子集选择，（b）岭回归，（c）LASSO和（d）garotte:—，正交设计情况下，系数压缩的形式；·········倾斜角为45°的线作为参考图2.（a）是LASSO的预估图像，（b）是岭回归的预估图像第6页图3.（a）不同于总体最小二乘估计LASSO估计落在第八区的例子；（b）俯视图然而，garotte保留了每个ˆoj的符号，LASSO可以改变符号。甚至在LASSO估计与garotte有相同符号的矢量的情况下，garotte中OLS估计得存在也会使结果不同。带有约束条件jct的模型ˆojjijcx可以表示成约束条件是ˆojjt，模型为jijx。举例，如果2p且12ˆˆ0oo，效果将会横向拉伸图2(a)的正方形。结果，garotte青睐于较大的1和较小的2。2.4关于两个预测的其他信息假设2p，并且不失一般性，最小二乘估计ˆoj都是正的。那么我们可以展示LASSO估计是图4.对于两个预测值的例子，实线表示LASSO，虚线表示岭回归：曲线说明，作为LASSO或者岭回归参数的数据对12，是变化的；从底部的虚线开始并向上移动，相关系数是0,0.23,0.45,0.68和0.90ˆˆ()oj(5)第7页其中选定使得12ˆˆt。这个公式适用于12ˆˆoot时，并且及时预测值是相关的这个公式也是有效的。解得出121122ˆˆˆ(),22ˆˆˆ().22oooott(6)相反，岭回归收缩的形式取决于预测值的相关性。图4给出了一个例子。在没有干扰的情况下，我们从模型1263yxx中产生100个数据点。这里1x和2x是标准正常变量，两者的相关系数为。图4的曲线表明岭回归和LASSO估计得边界2212和12是变化的。对的所有值，LASSO估计均遵循全曲线。岭回归估计（间断的曲线）取决于。当0p时，岭回归成比例收缩。然而，对于更大的p值岭估计收缩变得不同并且边界降低是甚至可以增加一点。杰罗姆·弗里德曼指出，这是由于岭回归试图使系数等于他们最小平方范数的趋势。2.5标准误差由于LASSO估计是响应值的一个非线性、非可微函数，即使对应固定的t，所以很难得到标准误差的一个准确估计。一种方法是通过自助法；要么t可以固定，要么为每个样本对t进行优化。固定t类似于选择一个最佳子集，然后对每个子集使用最小二乘标准误差。一个近似封闭的形式估计可能通过把惩罚j写成2jj得到。因此，对于LASSO估计，我们可以通过*1(+)TTXXWXy形式的岭回归近似解决，其中W是一个对角矩阵，对角元素为ˆj，W是W的广义逆矩阵并且的选定使得*jt成立。估计的协方差矩阵可以用以下近似112ˆ()(),TTTXXWXXXXX(7)其中2ˆ是误差方差的一个估计值。这个公式的一个困难在于对ˆ0j的预测值给出了0的一个估计方差。这种近似也表明了计算LASSO估计本身的一个迭代岭回归的算法，但这是很低效的。然而，它对LASSO参数t（第4节）的选择很有用。3.例子—前列腺癌数据前列腺数据来自于斯塔米等人(1989)的一项研究，检查接受根治性前列腺切第8页除术的人前列腺特异性抗原水平与临床措施的相关性。因素有：日志（癌症卷）（lcaval）、日志（前列腺重量）（lweight）、年龄、日志（良性前列腺增生）（lbph）、精囊入侵（svi）、日志（荚膜渗透）（lcp）、格里森评分（gleason）和百分比格里森评分4或5（pgg45）。在第一个标准化预测因子后，我们找到适合日志（前列腺特异抗原）（lpsa）的线性模型。图5.前列腺癌例子中，系数的LASSO压缩：每个曲线代表了一个系数（右边有标注），该曲线作为LASSO参数ˆojst（没有将截距画出来）；虚线代表了ˆ0.44s的模型，该值是由广义交叉验证所得的最优值图5显示了作为一个绑定ˆojst的标准函数的LASSO估计。请注意，随着s趋于0，每个系数的绝对值也趋于0。在这个例子中，曲线单调且趋于0，但一般情况下不会总发生。单调性的缺乏是由岭回归与子集选择所共同承担，例如，大小为5的最优特征子集可能不包含大小为4的最优特征子集。垂直的虚线是当ˆ0.44s时的模型，该值是由广义交叉验证所得的最优值。粗略地说，这与保持略低于预测值的一半相对应。表1显示了完全最小二乘法、最优子集和LASSO程序的结果。第7.1节会给出所使用的最佳子集的详细步骤。LASSO给出了癌症卷、前列腺重量和精囊入侵的非零系数；子集选择选择了同样的三个预测因子。请注意，子集选择所选择的预测因子的系数和Z得分往往比完整模型值大；这在呈正相关的预测中是常见的。然而，LASSO显示了相反的作用，因为它从完整的模型值中压缩系数的Z得分。第9页倒数第二列的标准误差通过充分的最小二乘法残差的自助重采样进行估计。标准误差的计算是通过对原始数据集中的ˆs取最优值0.44计算得到。表2表1表

通过LASSO回归压缩和选择

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

集成产品开发(IPD)培训(PDF版)

会计从业资格会计基础电子书

机械工程材料答案

13#楼施工组织设计

麻阳旅游总归目录

电动汽车的发展现状和开发动向

煤矿设备图片Microsoft Office Word 文档

第6章第2节中国的可持续发展实践

IT部(北方平台)流程管理规范v10

中心认证项目管理流程审核员管理规定

相关文档

相关搜索