您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 变量选择与lasso-logistic
逐步回归与LASSO变量筛选凤鸣岐山2019年4月10日背景及方法为什么进行变量选择?1.排除不重要和无关变量,提取有用特征2.当模型中的变量过多时,可能会出现过拟合3.防止多重共线性削弱模型的解释能力4.增强模型的稳定性和准确性变量选择子集选择法最优子集法逐步筛选系数压缩法岭回归LASSO降维法主成分回归偏最小二乘回归当变量数过多时,逐步法要优于最优子集法岭回归使模型变得稳定LASSO使某些系数为0产生新变量进行回归方法逐步回归逐步回归中建模的策略•建模过程应该从详细的各变量的单因素分析开始•对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间的必要的一些变量变换•在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选•在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项逐步筛选前进法自动去除高度相关变量只考虑自变量进入模型时是否有意义后退法考虑到自变量的组合作用,选中的数量一般比前进法多自变量过多或者某些高度相关,会导致错误的结果逐步回归逐步向前逐步向后向后法不适用与np的情况前进法基本思想1.选定一个标准(P=0.2)2.开始方程中没有自变量(常数项除外)3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小贡献越大)4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止单因素回归结果方程变量回归系数标准误SEtP①x10.47929020.11534724.160.000②x22.5379590.141120117.980.000③x30.13814130.10779991.280.210④x40.48354820.07420476.520.000X2已经在方程中,增加哪个变量好?方程变量回归系数标准误SEtP⑤x22.40056100.168342914.260.000x10.07242910.05031871.440.161⑥x22.52119200.145965017.270.000x30.01845040.03336220.550.584⑦x22.29246200.204895211.190.000x40.07882890.04878401.620.117方程变量回归系数标准误SEtP⑧x20.18068770.13123301.380.179x40.46806770.025761418.170.000x10.47420830.026344318.000.000⑨x22.26282000.210961310.730.000x40.08167620.04938131.650.109x30.02286100.03251600.700.488X2,X4已经在方程中,增加哪个变量好?方程变量回归系数标准误SEtP(10)x20.17859820.13141741.360.185x40.46742740.025802718.120.000x10.47206870.026470917.830.000x30.00895980.00929560.960.344X2,X4,X1已经在方程中,是否增加X3?后退法基本思想1.选定一个标准(P=0.2)2.开始所有变量均在方程中3.按自变量对y的贡献大小由小到大依次剔除变量4.每剔除一个变量,则重新计算方程内各变量对y的贡献5.直到方程内变量均达到入选标准,没有自变量可被剔除为止方程变量回归系数标准误SEtP(10)x20.17859820.13141741.360.185x40.46742740.025802718.120.000x10.47206870.026470917.830.000x30.00895980.00929560.960.344全因素已经在方程中,是否删除X3?方程变量回归系数标准误SEtP⑧x20.18068770.13123301.380.179x40.46806770.025761418.170.000x10.47420830.026344318.000.000X1,X2,X4在方程中,删除哪个变量好?逐步向前法逐步向前法区别于前进法:每选入一个变量,都要对已在模型中的变量进行检验,对低于剔除标准的变量要逐一剔除,然后再考虑选变量。(pe=0.15,pr=0.151,forward)单因素回归结果方程变量回归系数标准误SEtP①x10.47929020.11534724.160.000②x22.5379590.141120117.980.000③x30.13814130.10779991.280.210④x40.48354820.07420476.520.000X2已经在方程中,增加哪个变量好?方程变量回归系数标准误SEtP⑤x22.40056100.168342914.260.000x10.07242910.05031871.440.161⑥x22.52119200.145965017.270.000x30.01845040.03336220.550.584⑦x22.29246200.204895211.190.000x40.07882890.04878401.620.117方程变量回归系数标准误SEtP⑧x20.18068770.13123301.380.179x40.46806770.025761418.170.000x10.47420830.026344318.000.000⑨x22.26282000.210961310.730.000x40.08167620.04938131.650.109x30.02286100.03251600.700.488X2,X4已经在方程中,增加哪个变量好?方程变量回归系数标准误SEtP(8)x20.18068770.13123301.380.179x40.46806770.025761418.170.000x10.47420830.026344318.000.000X2,X4,X1已经在方程中,是否删除变量?方程变量回归系数标准误SEtP(11)x40.50108960.009547952.480.000x10.50663420.011986742.270.000X4,X1已经在方程中,是否继续增加/删除?逐步向后法逐步后退法区别于后退法:每剔除一个变量,都要对在模型外的变量进行检验,对符合入组标准的变量要逐一选入,然后再考虑剔变量。(pe=0.15,pr=0.151)方程变量回归系数标准误SEtP(10)x20.17859820.13141741.360.185x40.46742740.025802718.120.000x10.47206870.026470917.830.000x30.00895980.00929560.960.344全因素已经在方程中,是否删除X3?对剔除的X3做单因素回归方程变量回归系数标准误SEtP③x30.13814130.10779991.280.210方程变量回归系数标准误SEtP(8)x20.18068770.13123301.380.179x40.46806770.025761418.170.000x10.47420830.026344318.000.000方程中还剩X2,X4,X1,是否删除X2?方程变量回归系数标准误SEtP(12)x2.........0.150x3.........0.150对剔除的X2,X3做回归分析注意:1.没有最好的方程:可以多选几个标准,比较在不同标准下所得到的结果2.有重要临床意义的自变量可以固定于方程中,对剩下的变量进行逐步回归3.逐步回归必须与专业知识相结合数据中有离群值或者异常值自变量直接存在复共线性自变量的观察范围太窄,或者方差太小样本含量不够,或者自变量数量过多回归系数反常的原因一般的多重线性回归或者Logistic回归中,样本规模至少是自变量个数的10倍以上LASSOLASSO(套索)Leastabsoluteshrinkageandselectionoperator1996年,Tibshirani提出可以将变量的系数进行压缩并使某些回归系数为0,实现变量选择LASSO是如何对系数进行压缩的对目标函数加入一个惩罚项,使得模型由多解变为更倾向于其中一个解;Lasso的做法是在RSS最小化的计算中加入一个L1范数作为惩罚项。λ是调节参数,其不同的大小可以决定纳入到模型中变量数量的变化。一个LASSO分析应用于临床研究的实例2016journalofclinicaloncologyIF:13.86数据和研究方法研究人群及变量利用LASSO方法进行特征选择将选取的变量纳入logistic模型曾经切除手术的结直肠癌病人原始队列:326人测试队列:200人变量:年龄、性别、术前组织分级、CEA、CT成像、血液检查、淋巴结转移情况等软件:R利用LASSO从数据集中选择预测变量150个中选取了24个发现结直肠癌淋巴结转移的危险因素,构建模型并在测试队列中进行验证lambda.minlambda.lseLASSO的实现过程软件:R软件“glmnet”包变量选择结果最终从34个变量中选入16个变量利用选择出的17个变量构建Logsitic模型16个变量进入Logistic模型,表现出统计学意义的有:慢性下呼吸道疾病、胃肠减压、深镇静比例分组、液体负荷平衡、康复锻炼、床头抬高90°、每日均有压力控制通气、肠外营养、前免疫抑制剂、雾化吸入、前纤支镜结果对比结果不同的原因:逐步法是将单因素分析有意义的变量纳入再进行分析;而lasso-logistic是纳入lasso所选择的变量。
本文标题:变量选择与lasso-logistic
链接地址:https://www.777doc.com/doc-5304235 .html