您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > Logistic回归模型和生存分析简介
SPSSLogistic回归模型与生存分析简介张志杰流行病学教研室epistat@gmail.comTel.:54237410(Office:8号楼443)SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学2主要内容•一、Logistic回归模型•二、生存分析•三、AssignmentsSPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学3Logistic回归模型简介•模型简介•模型中参数的估计与意义•模型与参数的假设检验•模型的拟合优度•Logistic回归模型中的高级话题•分析实例SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学4模型简介•方差分析模型:应变量-连续/正态;自变量:分类/连续变量•线性回归模型:应变量-连续/正态;自变量:连续/分类变量•应变量为分类变量:研究该分类变量与一组自变量之间的关系•治愈/未治愈(0/1);治愈/好转/未治愈(有序分类);无序分类(腺癌、鳞癌、大细胞癌)•研究的因素较少:χ2;CMH(无序分类变量;自变量为分类变量)•研究的因素较多时(分层较多):出现较多0的单元•Logistic回归模型•单元为0的信息可以利用;自变量可以是连续性变量•基于线性回归模型的思想发展而来SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学5模型简介•应变量为0/1变量的Logistic回归模型在冠心病可疑危险因素的研究中,记录下每个研究对象的p个自变量(年龄、性别、饮酒等),记为x1,…,xp。随访一段时间,如果发生冠心病,应变量y记为1,如果没有发生冠心病,y=0。可以观察到,不同的x1,…,xp的研究对象,冠心病的发生概率P(y=1)不同,如果我们希望依据随访得到的这组数据建立一个描述自变量x1,…,xp与冠心病的发生概率P(y=1)间关系的回归方程,并根据建立的回归方程进行预测,对各个自变量的作用大小和方向作出评价,如何实现?我们首先想到的是能不能用线性回归模型来实现?SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学6模型简介•存在的问题•1.模型两边的值域不同:左边概率[0,1],右边[-∞,∞];•2.应变量概率P与自变量间通常不存在线性关系•解决办法:Logit变换•应变量取值区间的变化-问题1的解决•P=0logitP=ln(0/1)=-∞•P=0.5logitP=ln(0.5/0.5)=0•P=1logitP=ln(1/0)=+∞•实践证明,logitP往往和自变量呈线性关系-问题2的解决SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学7模型简介)exp(1)exp()|1(1010piiipiiixxXyP)exp(11)|0(10piiixXyPSPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学8模型简介•模型名称的来源:Logistic这个名称来源于它对应变量所采用的logit变换,和英文单词Logistic的含义(后勤的)一点关系都没有,与逻辑就更不相干•模型用途•筛选危险因素•校正混杂因素•预测与判别(判别分析)SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学9模型中参数的估计与意义•模型参数的估计方法•由于应变量为二分类,所以误差项服从二项分布,而非正态分布。•最小二乘法不适用,最大似然法SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学10模型中参数的估计与意义模型中参数的意义•β0-常数项•自变量取值全为0时的基线状况,未必有实际意义;•比数(Y=1与Y=0的概率之比)的自然对数值;•病例—对照研究中,病例与对照两组人数的比例是人为定的,不能代表人群中真实的病人与正常人比例,因此该常数项不是各自变量取值为0时人群患病比的估计值的对数。因此根据病例—对照研究资料建立的Logistic回归模型中,常数项意义不大,主要针对结果中自变量的偏回归系数及其转换成OR值的意义作解释,不适宜直接用于预测和判别。如希望进行预测,则需知道人群中真实的患病率Pα。SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学11模型中参数的估计与意义•βi•βi和多重线性回归模型中系数的解释一样,偏回归系数;•代表固定其它Xj时,Xi改变一个单位引起logitP平均值的改变量;•在实际应用中,可以为这些系数找到更加贴近实际的解释,比数比(OddsRatio,OR)=exp(βi):Logit变换的优势•当其它自变量(Xj)取值保持不变时,Xi取值增加一个单位引起OR自然对数值的变化量,因此在使用上OR值要远比βi本身更常用SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学12模型中参数的估计与意义11111ln)1/()'1'ln(ORPPPP(X1增加一个单位)SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学13模型与参数的假设检验1.似然比检验•模型(两个模型拟合效果的比较)及偏回归系数的假设检验•假设模型1含有较少自变量,模型2含有较多自变量,检验的H0:模型1与模型2的拟合效果无差异•似然比检验统计量:,即两个模型负二倍对数似然函数值之差,G反映的是模型2较模型1拟合优度提高的程度。当样本量较大时,在H0成立的情况下,G服从卡方分布,自由度为2个模型的变量个数之差)ln2()ln2('21ModelModelLLGSPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学14模型与参数的假设检验2.Walds检验•模型中回归系数的假设检验•在SPSS输出的结果中,关于β值的所有检验都是Walds检验•该检验基于β值服从正态分布的假设,首先求出β值的标准误,然后基于正态分布原理求出P值进行检验•模型中参数可信区间的估计就是基于Walds检验来的;•常用于模型中变量的剔除SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学15模型与参数的假设检验3.记分检验•模型中回归系数的假设检验及两个模型拟合效果的比较•以未包含某一个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导数(又称有效比分)及信息矩阵;•记分检验统计量Score=S’(COV)S•列向量S是对数似然函数的一阶偏导数,S’是行向量•COV是模型的方差协方差矩阵•当样本量较大时,Score服从卡方分布•常用于模型中变量的纳入SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学16模型与参数的假设检验三种假设检验方法•似然比检验是基于整个模型的拟合情况进行的,结果最可靠;•记分检验结果一般与似然比检验一致•Walds检验没有考虑各因素的综合作用,当因素间存在共线性的时候,结果不可靠。在筛选变量时,用Walds法应慎重;另外,由于参数的可信区间也是基于该检验算得的,故以95%可信区间来筛选变量也应慎重SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学17模型的拟合优度•-2lnL:越小越好•伪决定系数:基于对数似然值而来,类似于线性回归模型中的决定系数•模型预测的正确率和ROC曲线•Hosmer-Lemeshow统计量:LackofFittest•H0:nolackoffit•自变量中有连续性变量•仅适用于0/1应变量SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学18Logistic回归模型中的高级话题哑变量偏回归系数表示其它自变量Xj不变,Xi每改变一个单位,所导致logitP的平均变化量•x为连续性/二分类变量:没有问题•x为多分类变量:不太合适•无序多分类:民族,各族之间不存在大小问题•有序多分类:家庭收入分为高、中、低三档,它们之间的差距无法准确衡量在以上这些情况时,我们就必须将原始的多分类变量转化为数个哑变量(DummyVariable),SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学19Logistic回归模型中的高级话题哑变量•每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义•对于取值具有n个水平的自变量Xi,可以生成n-1个哑变量•模型中哑变量遵循“同进同出”的原则SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学20Logistic回归模型中的高级话题•Logistic回归模型只能用于应变量为0/1变量的资料?•有序多分类的Logistic回归模型(e.g.累积Logit模型)•无序多分类的Logistic回归模型SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学21Logistic回归模型中的高级话题Logistic回归模型•非条件Logistic回归模型:0/1;有序多分类;无序多分类•条件(配对)Logistic回归模型:分层的Cox比例风险模型SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学22分析实例Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,数据间文件logistic_step.sav,应变量为出生的婴儿是否为低体重婴儿(变量名LOW,1表示低出生体重2500g),考虑的影响因素有:1.产妇怀孕前体重(1wt,磅);2.产妇年龄(age,岁);3.产妇在怀孕期间是否吸烟(smoke,0表示不吸烟);4.本次怀孕前早产次数(ptl,次);5.是否还有高血压(ht,0表示未患高血压);6.子宫对按摩、催产素等刺激引起收缩的应激性(ui,0无应激性);7.怀孕前3个月社区医生随访次数(ftv,次)8.种族(race,1白人,2黑人,3其它种族):哑变量SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学23SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学24•Logistic回归模型LogitP=Ln(P低出生体重/P非低出生体重)=0.893-0.015*产妇怀孕前体重lwt+0.728*本次怀孕前早产次数ptl+1.789*是否患有高血压ht危险因素:ptl;ht保护因素:lwtSPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学25生存分析简介•生存分析概述•基本概念•生存率的估计•生存曲线的比较•Cox比例风险模型SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学26生存分析概述疾病的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。如果病人的结局都为死亡,但活的时间长短不一样,那么活的时间长的病人其预后相对较好,这类资料一船通过随访收集。生存时间和生存结局都成为了要关心的因素:应变量有两个•只考虑生存时间:时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟和模型有困难•只考虑生存结局:如死亡/未死亡(Logistic),没有利用生存时间的有用信息;SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学27生存分析概述•大量失访:失去联系(病人搬走,电话号码改变);无法观察到结局(死于其他原因);研究截止•将失访数据无论是算作死亡还是存活似乎都不大合理生存分析的特点与局限•在针对结局比较凶险,即总体生存时间都比较短的疾病的研究中,生存分析比只考虑结局,不考虑时间因素的Logistic模型等方法的研究效率要高得多。•如果相应疾病的结局都非常好,比如几乎人人都可痊愈的感冒,生存分析的利用价值也许并不大,除非是特殊情况,否则感冒晚好两天对医生或病人来说根本没有多大影响SPSS2020/3/21张志杰,流行病学教研室,公共卫生学院,复旦大学28生存分析概述生存分析的主要研究内容•1.描述生存过程(单样本):研究人群生存状
本文标题:Logistic回归模型和生存分析简介
链接地址:https://www.777doc.com/doc-4486010 .html