您好,欢迎访问三七文档
SPSS软件在医学科研中的应用计算机实习(SPSS10.0)何平平北大医学部流行病与卫生统计学系Tel:82801619Logistic回归分析实习六(一)Logistic回归分析的任务影响因素分析在流行病学研究中,logistic回归常用于疾病的危险因素分析,logistic回归分析可以提供一个重要的指标:OR。(二)Logistic回归分析的基本原理1.变量特点因变量:二分类变量,若令因变量为y,则常用y=1表示“发病”,y=0表示“不发病”(在病例对照研究中,分别表示病例组和对照组)。自变量:可以为分类变量,也可以为连续变量。2.Logistic模型01122......1mmPLogxxxPββββ=++++−P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发病概率。β0为常数项,β1,β2…..βm分别为m个自变量的回归系数。模型估计方法:最大似然法(MaximumLikelihoodMethod)。构造似然函数(Likelihoodfunction)L=∏P(y=1|x)P(y=0|x),通过迭代法估计一组参数(β0,β1,β2…..βm)使L达到最大。3.自变量的相对重要性分析衡量变量相对重要性的指标(1)Wald值:(βi/SE(βi))2,近似χ2分布,用于检验自变量的显著性。(2)对自变量作显著性检验的概率P值。当Wald值越大,P值越小时,自变量的影响就越大。4.自变量的筛选与多元线性回归分析类似,有Forward法(实际上是逐步向前法)、Backward法(默认方法为Enter,即所有自变量一次全部进入方程)。5.模型拟合的优良性指标(1)拟合分类表(ClassificationTable)根据Logistic回归模型,对样本重新判别分类,符合率越高,模型拟合越好。注意:Logistic回归用于判别分类很粗劣,此法仅作参考。(2)最大似然函数值L。SPSS提供了-2LogLikelihood,此值越小越好(L→1)。6.OR与RRLogistic回归模型中,OR=EXP(β)。当某种疾病的发病率或死亡率很低时,OR≈RR(三)Logistic回归分析的适用条件1.经典的Logistic回归分析,要求因变量为二分类变量。但是其因变量也可以为多分类变量(SPSS中MultinomialLogistic菜单)。2.样本不能完全线性可分(完全线性可分是指L=1,此时模型有无限多组解,回归系数的估计是不确定的)3.样本量不能太小。有研究表明,样本量不应小于200。否则回归系数的估计是有偏性的。例:比较新疗法与旧疗法治疗某种疾病的疗效。现对40例患者随机分组,分别接受新疗法和旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效(见数据文件logistic.sav)?(注:作为举例,本例样本量仅为40例,由于样本量太小,Logistic回归的结论仅作为参考)变量说明:Y:治愈情况,1=治愈;0=未治愈;;X1:病情严重程度,0=不严重,1=严重;X2:年龄。X3:治疗方法,0=新疗法,1=旧疗法。二值Logistic回归因变量协变量(自变量)注:此处将X1、X3看作为连续变量;采用Enter法。OR的95%置信区间对模型的检验-2Loglikelihood=40.597经统计学检验,模型χ2=13.951,P=0.003,Logistic回归模型有显著性。符合率为70.0%拟合分类表回归系数标准误Wald值P值OROR置信区间131.5952.2731PLogxxP=−−−Logistic回归模型为:根据模型,病情严重程度与治疗方法对患者的治愈情况有影响;其中病情严重组相对于不严重组,OR=0.203(病情严重的患者,其治愈的概率是病情不严重的患者的0.203倍),95%置信区间为(0.038,1.092)(此区间包括1,缺乏实际意义);旧疗法组相对于新疗法组,OR=0.103,(接受旧疗法的患者,其治愈的概率是接受新疗法的患者的0.103倍),95%置信区间为(0.019,0.553)另法:将X1、X3指定为分类变量。注:变量编码发生了变化:0→0.5,1→-0.5与前述结果相比,X1与X3的回归系数符号发生了变化,结果解释有所不同:病情不严重组相对于严重组,OR=4.928(病情不严重的患者,其治愈的概率是病情严重的患者的4.928倍);新疗法组相对于旧疗法组,OR=9.707,(接受新疗法的患者,其治愈的概率是接受旧疗法的患者的9.707倍)。另法:将X1、X3指定为分类变量。注:对于二分类变量,可以当作连续变量处理,也可以指定为分类变量,但要注意结果解释。后退法筛选变量每步的模型检验、-2Loglikelihood及拟合分类表后退法筛选变量不在模型中的变量131.3581.8322.1401PLogxxP=−−−Logistic回归模型为:后退法筛选变量逐步前进法筛选变量不在模型中的变量131.3581.8322.1401PLogxxP=−−−Logistic回归模型为:逐步前进法筛选变量应用Logistic回归分析时的注意事项1.Logistic回归是乘法模型,这一点,在结果解释时需要慎重。对于自变量(X1,X2),OR12=EXP(β1+β2)=OR1×OR2例:某研究调查胃癌发病的危险因素,得到“有不良饮食习惯”相对于“无不良饮食习惯”的OR=2.6,“喜吃卤食和盐渍食物”相对于“不吃卤食和盐渍食物”的OR=2.4。那么根据Logistic回归,“有不良饮食习惯且喜吃卤食和盐渍食物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的OR=2.6×2.4=6.24,得出此结论时需要考虑:从专业知识上是否合理?2.通常情况下,自变量为二分类变量时,可以当作连续变量进入模型(常用0、1或者1、2赋值),也可以通过“categorical”来指定哑变量。但是,对多分类变量应该通过“categorical”来指定哑变量,而不宜直接作为连续变量处理。多元线性回归分析与Logistic回归分析都是实际工作中常用的方法,用于影响因素分析时,多元线性回归的因变量是连续变量,而Logistic回归的因变量是分类变量;两种方法的自变量可为连续变量或分类变量,当为分类变量时,均需相应的哑变量(二分类变量例外)。3.Logistic回归模型中,连续变量的OR值通常缺乏实际意义。为方便结果解释,通常将连续变量转换为分类变量,再解释相应的OR。附录:Logistic回归分析的其他应用假设检验的目的推断多个总体率是否相等当P≤0.05,拒绝H0时,总的说来各组有差别,但并不意味着任何两组都有差别:可能是任何两者间都有差别,也可能其中某两者间有差别,而其它组间无差别。目前尚无公认的进一步两两比较的方法(可考虑采用Logistic回归)。结果解释回顾:分类变量的假设检验——完全随机设计的多个样本比较例:某省从3个水中氟含量不同的地区随机抽取10~12岁儿童,进行第一恒齿患病率的调查(见数据文件p231.sav),问3个地区儿童第一恒齿患病率是否不同?变量说明:group:组别,1=高氟区,2=干预区,3=低氟区;effect:1=患龋,2=未患龋;freq:频数。经χ2检验,χ2=10.489,P=0.005,可以认为:总的来说三个地区患龋情况有差别。Pearson卡方值P值患龋率如何进一步判断哪两个地区有差别?二值Logistic回归在进行Logistic回归分析之前,需要用freq变量进行加权以低氟区为参照,其他两个地区与低氟区进行比较。Categorical对话框Options对话框OR的95%置信区间对模型的检验结论:经统计学检验,χ2=11.852,P=0.003,Logistic模型有显著性。高氟区、干预区与低氟区相比,患病率均有差异(P0.05)。
本文标题:SPSS6
链接地址:https://www.777doc.com/doc-3972726 .html