您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 将Lasso应用于回归
将Lasso应用于回归,可以在参数估计的同时实现变量的选择,较好的解决回归分析中的多重共线性问题,并且能够很好的解释结果。本项目注重对实际案例中的共线性问题利用Lasso的方法剔除变量,改进模型,并将其结果与以往变量选择的方法比较,提出Lasso方法的优势。将Lasso应用于时间序列。将Lasso思想应用于AR(p)、ARMA(p)等模型,利用Lasso方法对AR(p)、ARMA(p)等模型中的变量选择,并给出具体的算法,随后进行模拟计算,阐明AR(p)、ARMA(p)等模型的Lasso方法定阶的可行性。尝试将Lasso方法应用到高维图形的判别与选择以及应用于线性模型的变量选择中,以提高模型选择的准确性。研究意义:随着科技的进步,收集数据的技术也有了很大的发展。因此如何有效地从数据中挖掘出有用的信息也越来越受到人们的关注。统计建模无疑是目前处理这一问题的最有效的手段之一。在模型建立之初,为了尽量减小因缺少重要自变量而出现的模型偏差,人们通常会选择尽可能多的自变量。但实际建模过程中通常需要寻找对响应变量最具有解释性的自变量子集—即模型选择(或称变量选择、特征选择),以提高模型的解释性和预测精度。所以模型选择在统计建模过程中是极其重要的问题。Lasso(Leastabsoluteshrinkageandselectionoperator,Tibshirani(1996))方法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。R的Lars算法的软件包提供了Lasso编程,我们根据模型改进的需要,可以给出Lasso算法,并利用AIC准则和BIC准则给统计模型的变量做一个截断,进而达到降维的目的。因此,我们通过研究Lasso可以将其更好的应用到变量选择中去。研究意义:一般地说,多元数据分析处理的对象是刻画所研究问题的多个统计指标在多次观察中呈现的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据。在处理数据的时候我们就会遇到模型建立的问题,这时候我们就把一些多元数据分析模型应用到函数型数据中(比如线性模型),那么在线性模型中变量的选择问题就很重要了。在分析这种模型的时候,人们根据问题本身的的专业理论及有关经验,常常把各种与因变量有关的自变量引进模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量也选入模型中。这样一来,不但计算量大,而且估计和预测的精度也会下降。此外,在一些情况下,某些自变量的观测数据获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,但我们不加选择都引到模型中,势必造成观测数据收集和模型应用费用不必要的加大。因此,本项目基于数据的普遍特征,在对数据分析时,必须对进入模型的自变量作精心的选择。而Lasso以缩小变量集(降阶)为思想,是一种收缩估计方法。Lasso方法可以将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的,可以广泛的应用于模型改进与选择。我们通过选择惩罚函数,借用Lasso思想和方法实现变量选择的目的。国内外研究现状分析:Tibshirani,R.(1996)在Frank(1993)提出的“BridgeRegression”和Bireman(1995)提出的“NonnegativeGarrote”的启发下提出了一种称之为Lasso(Leastabsoluteshrinkageandseleetionoperator)的新的变量选择方法并将其成功应用于COX模型的变量选择。该方法克服了传统方法在选择模型上的不足,因此该方法在统计领域受到了极大的重视。但是该方法缺乏有效的算法支撑。因此很多学者在这方面展开了研究。Fu(1998)提出了“Shooting”算法,接着Osbome,M.R.等发现Lasso回归的解的路径是逐片线性的并提出相应的同伦算法;BradleyEfron等(2004)提出的最小角回归(LeastAngleRegression)算法很好地解决Lasso的计算问题;Fan和Li(2001)指出Lasso估计对于绝对值较大的系数的压缩过大,可能会造成不必要的模型偏差,并且推测Lasso估计不具有“哲人”性质(“oracleproperties”),还给出了一种被简称为SCAD新的惩罚函数,并沿用GCv方法来选择惩罚参数(或者叫“Tunningparameters”)。Lasso这种方法使一些回归系数变小,有些甚至被压缩为0,但忽略了相邻两个回归系数间的差异,使估计值波动性很大。在2005年,Tibshiralli和Sawnders又将此方法改进,又加入了约束条件,控制了回归系数的波动性。模型选择本质上是寻求模型稀疏表达的过程,而这种过程可以通过优化一个“损失”十“惩罚”的函数问题来完成。
本文标题:将Lasso应用于回归
链接地址:https://www.777doc.com/doc-2469175 .html