您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 人事档案/员工关系 > 数学建模--高维统计分析
数学建模高维数据统计分析来鹏高维数据统计分析•面临的机遇和挑战•统计降维模型•高维数据降维•变量选择p=n•超高维变量筛选p=O(exp(cn))面临的机遇和挑战•在过去的几十年内,随着网络的日趋发达和计算机存储功能的日益强大,受到实际应用的激励,人们可以搜集到金融市场,基因表达,组合化学和其他许多领域内的很多大型数据集,高维数据分析已经变得越来越频繁和重要。•过多的协变量使得很多种统计方法无法有效的运用,而且预测效果也会很差。•出现“维数祸根”的问题。面临的机遇和挑战•另一方面,近几年来随着在生物医学方面的研究,人们碰到的数据集含有十万、百万甚至更多的变量,变量的个数远远大于数据集样本的个数,pn。•当数据中的变量个数p随着样本量的增加,呈现指数次的增长,绝大多数的统计分析方法以及变量选择方法都将由于变量个数的巨大,使得在降维的过程中面临计算量大,效率低的问题;•由于变量个数随样本急剧增加使得变量之间出现假象的高度相关,变量不可忽略,无法准确降维;•各种变量选择方法的应用条件受到质疑,无法满足;•原本具有的Oracle性质也变得无法保证。面临的机遇和挑战•调查问卷分析•基因组分析•金融投资分析•社交网络分析•文字分类识别•……统计降维模型•在处理高维数据时,许多参数和半参数模型被提出用来避免“维数祸根”的问题。•例如:参数模型、可加模型、部分线性模型、单指标模型、部分线性单指标模型、变系数模型和变系数部分线性模型等模型。传统降维方法•通过专家进行降维选择•统计检验与显著性•利用AIC,BIC等最优准则进行子集选择•向前回归、向后回归、逐步自回归•聚类分析•主成分分析•因子分析高维数据降维•SIR----SlicedInverseRegression1991,Ker-ChauLi,JASA.•SIR:切片逆回归,借助主成分分析的思想,通过对响应变量Y的分析,构造X的降维。变量选择p=n•LASSO(Tibshirani,R.J.,JRSSB,1996)•SCAD(Fan,J.Q.,JASA,2001)•AdaptiveLASSO(Zou,H.,JASA,2006)超高维数据降维•SIS(Fan,J.Q.,2008)•SIRS(Zhu,L.P.et.al,JASA,2011)•DC(Li,R.Z.et.al,JASA,2012)•Kolmogorovfilter(Mai,Q.andZou,H.,Biometrika,2013)•Chi-squaredbasedmethod(Huang,D.Y.et.al,2015)SIR切片逆回归方法46AFamilyofSolutions:Penalization•DenoteLasthelog-likelihoodfunction•MLE:argmax{L}•PenalizedMLE:argmax{L-penalty}•Oldandwell-knownpenalties:AIC/BIC•CanbeeasilyextendedtootherM-estimates47RidgePenalization48RidgePenalization•Note:for(almost)allM-estimationproblems,ridgepenaltycanbeadded•Ithasalonghistoryforill-posedregressionproblems(canbetracedbackto1970s)•Theridgepenaltyissmooth.Computationcanbecarriedoutusinggradient-basedmethods,forexampleNewton-Raphson49WhyRidge?•Computationallyeasy•Underthecompactnessassumption(ofcovariatesandregressioncoefficients),ifthetuningissmallenough,theridgeestimateisconsistent50Considerlinearmodelwithorthogonalcovariates51Whynotridge?AllestimatesarenonzeroRememberthatnotallgenesarecancer-associatedPossibleexternalselection7Lasso•L1penaltyalsohasahistoryinstatistics•CreditofLassogoestoR.Tibshirani(1996;StanfordStatistics)•Tuningparametercanbeselectedviacrossvalidation•L1penaltyisequivalenttoaL1constraint(weknowthereisaone-onecorrespondence;wecannotwritedownthough)8Lasso•Considerthesimplestcase:linearregressionmodel;covariateshavezerocorrelations.ThenLassoisequivalenttothresholding•Iforthogonal,9Lasso•Adirectconsequence:whenpenaltyismoderatetolarge,someestimateswillbeexactlyzero10NotethedifferenceincontourSuchadifferencecausesvariableselection11VariableSelectionAspect•Notethatthevariableselectionmechanismhereisdifferentfromsomeotherapproaches•Embeddedmethods:achievesimultaneousvariableselectionandmodelconstruction•Extensionsfromlinearregressiontosurvivalandclassificationare“almosttrivial”12Parameterpath:ausefulwaytounderstandpenalizedmethods13ComputingtheLassoI:LARS•LARS的算法实际执行步骤如下:LARS的算法实际执行步骤如下:•1. 对Predictors进行标准化(去除不同尺度的影响),对Target Variable进行中心化(去除截距项的影响初始的所有系数都设为此时残差就等g影响),初始的所有系数都设为0,此时残差r 就等于中心化后的Target Variable•2找出和残差r相关度最高的变量Xj•2. 找出和残差r相关度最高的变量X_j•3. 将X_j的系数Beta_j从0开始沿着LSE(只有一个变量Xj的最小二乘估计)的方向变化,直到某个新变量X_j的最小二乘估计)的方向变化,直到某个新的变量X_k与残差r的相关性大于X_j时•4. X_j和X_k的系数Beta_j和Beta_k,一起沿着新的(加入了新变量的最小乘估计)的方向移LSE(加入了新变量X_k的最小二乘估计)的方向移动,直到有新的变量被选入•5重复234直到所有变量被选入最后得•5. 重复2,3,4,直到所有变量被选入,最后得到的估计就是普通线性回归的OLS14LARS•CreditgoestoStanfordstatistics!•Itisfirstdesignedforlinearmodels.Withnonlinearmodels,consider“transforming”intoaniterative,weightedestimate
本文标题:数学建模--高维统计分析
链接地址:https://www.777doc.com/doc-6992166 .html