您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > Logistic回归分析及应用
1第十六章Logistic回归分析Logisticregression2复习多元线性回归(multiplelinearregression)•在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关,而且可能与病床周转次数,床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。3•表1多元线性回归分析的数据结构实验对象yX1X2X3….XP1y1a11a12a13…a1p2y2a21a22a23…a2p3y3a31a32a33…a3p…………………nynan1an2an3…anp━━━━━━━━━━━━━━━━━━其中:y取值是服从正态分布4多元线性回归模型通过实验测得含有p个自变量x1,x2,x3,…,xp及一个因变量y的n个观察对象值,利用最小二乘法原理,建立多元线性回归模型:其中b0为截距,b1,b2…bp称为偏回归系数.bi表示当将其它p-1个变量的作用加以固定后,Xi改变1个单位时Y将改变bi个单位.ppxbxbxbby22110ˆ5logisticregressionanalysis6(一)基本概念和原理1.应用背景Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。7设资料中有一个因变量y、p个自变量x1,x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、Logistic回归模型的数据结构8•表2Logistic回归模型的数据结构实验对象yX1X2X3….XP1y1a11a12a13…a1p2y2a21a22a23…a2p3y3a31a32a33…a3p…………………nynan1an2an3…anp━━━━━━━━━━━━━━━━━━其中:y取值是二值或多项分类•表3肺癌与危险因素的调查分析•例号是否患病性别吸烟年龄地区•1110300•2101461•3000351•………………•30000261•注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。••表4配对资料(1:1)•对子号病例对照•x1x2x3x1x2x3•1130101•2031130•3012020•…………………•10222000•注:X1蛋白质摄入量,取值:0,1,2,3•X2不良饮食习惯,取值:0,1,2,3•X3精神状况,取值:0,1,2••11Logistic回归--Logistic回归与多重线性回归联系与区别联系:用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。区别:线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic回归因变量的取值仅有两个,不满足正态分布。123、Logistic回归模型令:y=1发病(阳性、死亡、治愈等)y=0未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:可知,不发病的概率为:)exp(1)exp(110110ppppXXXXp)exp(111110ppXXp经数学变换得:定义:为Logistic变换,即:ppXXpp110)]1/(ln[)]1/(ln[)(logpppitppXXpLogit110)(144、回归系数βi的意义流行病学的常用指标优势比(oddsratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:)1/()1/(0011PPPPORiiiPitPitORLn)0()1()]0([log)]1([log)(00•故对于样本资料OR=exp()•95%置信区间为:•可见是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。•如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数ibi的标准差。为的标准差,为其中ySXSSSbbyiiyiii,/*'影响越大。其因素对的估计值,此值越大,为Ybii))(96.1exp(iibSEb5.假设检验•(1)回归方程的假设检验•H0:所有H1:某个•计算统计量为:G=-2lnL,服从自由度等于n-p•的分布•(2)回归系数的假设检验•H0:H1:pii,,2,1,0,00i20i0i计算统计量为:Wald2,自由度等于1。17(二)Logistic回归类型及其实例分析•1、非条件Logistic回归•当研究设计为队列研究、横断面研究或成组病例对照研究时,可以用非条件Logistic回归。18实例1•某研讨究者调查了30名成年人,记录了同肺癌发病的有关因素情况,数据见表4。其中是否患病中,‘0’代表否,‘1’代表是;性别中‘1’代表男,‘0’代表女;吸烟中‘1’代表吸烟,‘0’代表不吸烟;地区中,‘1’代表农村,‘0’代表城市。试分析各因素与肺癌间的关系。19•表5肺癌与危险因素的调查分析•例号是否患病性别吸烟年龄地区•1110300•2101461•3000351•………………•30000261•注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。20SPSS操作步骤:•Analyze-----Regression-----BinaryLogistic•-----Dependent框(y)-----Covariates框(x1,x2,…)------ok非条件Logistic回归SPSS操作步骤:212223•结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.VariablesnotintheEquation4.8211.0288.8891.00314.5261.000.1361.71319.6034.001X1X2X3X4VariablesOverallStatisticsStep0ScoredfSig.单因素分析的结果24多因素分析的结果ModelSummary14.006.601.802Step1-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare25ClassificationTablea14193.321386.790.0Observed01YOverallPercentageStep101YPercentageCorrectPredictedThecutvalueis.500a.26•由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.VariablesintheEquation2.5201.8211.9161.16612.4313.9991.9754.1011.04354.568.189.0795.7081.0171.208-1.3061.583.6811.409.271-9.7814.0995.6941.017.000X1X2X3X4ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)enteredonstep1:X1,X2,X3,X4.a.272.条件logistic回归分析•配对设计的类型:1:1、1:m、n:m•(可采用分层COX模型来拟合)。•例如:某市调查三种生活因素与胃癌的关系,资料见表5。•表6配对资料(1:1)•对子号病例对照•x1x2x3x1x2x3•1130101•2031130•3012020•…………………•10222000•注:X1蛋白质摄入量,取值:0,1,2,3•X2不良饮食习惯,取值:0,1,2,3•X3精神状况,取值:0,1,229配对Logistic回归SPSS操作步骤:•Analyze-----Survival----COXRegression-----Time框(outcome)-----Status框(Status)•-----DefineEvent:Singlevalue1:continue-----Covariates框(x1、x2、x3)-----Strata框(id)---Options---atlaststep------ok30313233CaseProcessingSummary1050.0%1050.0%20100.0%0.0%0.0%0.0%0.0%20100.0%EventaCensoredTotalCasesavailableinanalysisCaseswithmissingvaluesCaseswithnon-positivetimeCensoredcasesbeforetheearliesteventinastratumTotalCasesdroppedTotalNPercentDependentVariable:OUTCOMEa.34OmnibusTestsofModelCoefficientsa1.9207.0932.02911.9432.003Step2-2LogLikelihoodChi-squaredfSig.Overall(score)Chi-squaredfSig.ChangeFromPreviousBlockBeginningBlockNumber1.Method:ForwardStepwise(LikelihoodRatio)a.35VariablesintheEquation1.7271.2491.9121.1675.6242.2841.6791.8521.1749.821X2X3Step2BSEWalddfSig.Exp(B)36VariablesnotintheEquationa.0371.847X1Step2ScoredfSig.ResidualChiSquare=.037with1dfSig.=.847a.373、逐步Logistic回归分析(1)向前法(forwardselection)开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值P(0.05)。38(2)后退法(backwardselection)开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove,缺省值p(0.10)。•39(3)逐步回归法逐步引入-剔除法(stepwiseselection)前进逐步引入-剔除法•是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。40•无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在model后加选项:/selection=forward、backward或stepwise•再给出SLE,SLS的界值。调试法:P从大到小取值0.5,0.1,0.05…,一般实际用时,SLE,SLS应多次选取调整41解释•设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。•当bi0时,对应的优势比(oddsratio,记为ORi):ORi=ex
本文标题:Logistic回归分析及应用
链接地址:https://www.777doc.com/doc-5025019 .html