您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > A1-二分类logistic回归-暨南大学高级医学统计学
高级《医学统计学》第十六章logistic回归分析第一节logistic回归暨南大学基础医学院医学统计学教研室林汉生内容如何分析2个变量间是否有关联(关系、联系、相关、线性相关)?如何分析1个应变量与多个自变量是否有关联?logistic回归若有一份随机样本,如何初步分析两个变量间是否有关联?(举例说明)按两个变量的类型和分布两个定量变量都是随机变量且服从正态分布(Pearson相关)都是随机变量,但不满足双变量正态分布(Spearman秩相关)其中一个不是随机变量(直线回归)两个分类变量都是无序分类变量(2检验)分组变量为有序多项分类,反应变量为无序多项分类(2检验)分组变量为有序多项分类,反应变量为二分类(2检验-线性趋势)都是有序多项分类变量(等级资料,Spearman秩相关)分组变量为无序分类变量,反应变量为等级资料(秩和检验)定量变量与分类变量(t检验,one-wayANOVA,秩和检验)反应变量是定量变量,影响因素是分类变量(无序、有序)反应变量是分类变量(无序、有序),影响因素是定量变量如何分析1个应变量与多个自变量是否有关联?Cox比例风险回归分析多元线性回归logistic回归分类树logistic回归二分类logistic回归(binarylogisticregression,unconditionallogisticregression):也称非条件logistic回归,简称logistic回归条件logistic回归(conditionallogisticregression):病例与对照配对多分类logistic回归分析(multinomiallogisticregression)有序logistic回归(ordinallogisticregression)二分类logistic回归选题用途对资料的要求模型模型的建立与变量筛选结果表达应用的注意事项具体应用资料来源一、选题请关注以下英文词汇的使用relationship;association;associatedwithcorrelation;relation;relatedto,relevanttoAbstractTherelationbetweenphysicalactivityanduterineleiomyoma(fibroids,子宫肌瘤)hasreceivedlittlestudy,butexerciseisprotectiveforbreastcancer,anotherhormonallymediatedtumor.ParticipantsinthisstudywererandomlyselectedmembersofahealthplanbasedinWashington,DC,aged35–49years.Fibroidstatuswasbasedonultrasoundscreening.Physicalactivitywasbasedondetailedinterviewquestions.logisticregressionwithadjustmentforbodymassindexandotherriskfactorsshowedthatwomeninthehighestcategoryofphysicalactivityweresignificantlylesslikelytohavefibroids(oddsratio=0.6,95%confidenceinterval=0.4,0.9forthehighestvs.thelowestcategory(equivalenttoapproximately7hours/weekvs.2hours/week)).流行病学危险因素分析:举例IstheRiskofLungCancerReducedamongEczema(湿疹)PatientsNeuralTubeDefectsandMaternalResidentialProximitytoAgriculturalPesticideWeighthistoryandriskofendometrialcanceramongChinesewomen浙江省部分地区中小学生伤害危险因素logistic回归分析413例儿童哮喘危险因素Logistic回归分析脑梗死近期再发的危险因素分析在危险因素研究方面,中外文文献不同之处?二、logistic回归分析的用途在医学研究中经常遇到应变量为二项分类的资料,如生存与死亡、有效与无效、发病与未发病,转移与未转移等。二项分类可以概括为阳性与阴性两种互斥的结果(Y:0,1),同时可能存在对分类结果发生概率产生影响的因素(X1,X2,X3,…)。logistic回归是研究二分类观察结果与影响因素之间关系的一种多变量方法。三、logistic回归对资料的基本要求Y取值:0,1X1,X2,X3,…,Xm的取值:计数、计量和等级资料。四、logistic回归模型设应变量Y是一个二值变量Y=1:出现阳性结果(如发病)Y=0:出现阴性结果(如未发病)另有影响Y取值的m个自变量X1,X2,…,Xm,记出现阳性结果的概率为P(Y=1|X1,X2,…,Xm),logistic回归模型为:mmmmXXXXXXZXXXPePmm...)]...(exp[11112211022110)...(22110logistic函数的图形mmmmXXXXXXZXXXPePmm...)]...(exp[11112211022110)...(22110e2.718设一个具有因素X1,X2,…Xp的个体,其阳性结果概率与阴性结果概率之比的比值的自然对数可写为上式。称为P的logit变换。P/(1-P)在流行病学中称为比值(odds)。P的取值范围在0~1之间,logitP却没有数值界限。mmXXXPP...1ln22110模型参数的意义比较某一自变量两个不同暴露水平(如吸烟与未吸烟)的发病情况(扣除了其它自变量影响),其OR值的自然对数为:mmXXXPP...1ln2211000111/1/lnlnPPPPORj回归系数j的含义j表示扣除了其它自变量影响后,自变量Xj增加1个单位与未增加1个单位时OR值的自然对数。00111/1/lnlnPPPPORj1''0'0jjjjjmjtttjjmjtttjjXXXXXXXXjORej718.21e1j72.2jORORj的含义多变量调整后的ORj值(adjustedoddsratio),表示扣除了其它自变量影响后危险因素的作用。ORj与RRj在发病率较低的疾病中,可将ORj作为RRj的近似估计。RRPPPPPPOR0100111/1/j与ORjj=0ORj=1说明Xj对疾病发生不起作用j0ORj1说明Xj对是疾病发生的危险因素(增加疾病发生的可能性)j0ORj1说明Xj对是疾病发生的保护因素(减少疾病发生的可能性)五、模型的建立与变量筛选将有统计学意义自变量选入模型,无统计学意义的自变量则排除在模型外,使建立的模型比较稳定和便于解释。《实习指导》例题例某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除患者的肾癌标本资料,现从中抽取26例资料作为示例进行logistic回归分析。有关符号意义说明如下i:标本序号x1:确诊时患者年龄x2:肾细胞血管内皮生长因子,分3个等级x3:肾细胞癌组织内微血管数x4:肾癌细胞核组织学分级,分4级x5:肾细胞癌分期,分4期y:肾细胞癌转移情况(1转移;0无转移)1.SPSS的数据工作表2.SPSS的操作步骤AnalyzeRegressionBinaryLogisticLogisticregression对话框将Y选入Dependent栏,X1~X5选入Covariate栏,选择Forward:LR法。单击Options按钮。Options对话框单击Continue按钮默认Classificationcutoff:0.5Save:保存预测概率Probabilities;Groupmembership单击OK按钮3.SPSS的结果与分析(1)数据基本情况数据基本情况为26例纳入分析,没有缺失值CaseProcessingSummary26100.00.026100.00.026100.0UnweightedCasesaIncludedinAnalysisMissingCasesTotalSelectedCasesUnselectedCasesTotalNPercentIfweightisineffect,seeclassificationtableforthetotalnumberofcases.a.(2)0步时的分析结果变量筛选第0步的Score检验结果,可作为单变量logistic回归分析的结果。如进行单变量logistic回归分析,在=0.05水准,变量X2、X4和X5有统计学意义。VariablesnotintheEquation.2591.61113.1701.000.2321.63012.0891.0018.1621.00417.7395.003X1X2X3X4X5VariablesOverallStatisticsStep0ScoredfSig.ModelSummary18.004.450.62111.826.566.781Step12-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare(3)拟合优度①决定系数R2预测概率;诊断阈值(cutpoint默认0.50)②Hosmer-Lemeshow拟合优度检验H0:模型预测值与实际观察值相近=0.10Hosmer-Lemeshow拟合优度检验结果显示:模型预测值与实际观察值之间的差别无统计学意义,表示模型拟合效果好(2=6.75,P=0.150)。HosmerandLemeshowTest.5831.4456.7504.150Step12Chi-squaredfSig.ContingencyTableforHosmerandLemeshowTest1110.7330.2671144.53521.465621.73377.267943.9980.002454.9840.016554.8330.167522.11721.88340.92543.07541.14333.8574123Step1123456Step2ObservedExpectedy=0ObservedExpectedy=1Total③分类表Y的观察值和预测值的符合情况:观测值为0时(肾癌未转移),预测的准确率为94.1%;观测值为1时(肾癌转移),预测的准确率为100.0%;总的预测准确率为96.2%。该指标可以评价logistic模型的区分能力。ClassificationTablea15288.22777.884.616194.109100.096.2Observed01YOverallPercentage01YOverallPercentageStep1Step201YPercentageCorrectPredictedThecutvalueis.500a.(4)模型中的变量B:回归系数。当其他变量保持不变时,Xj每增加或减少1个单位时,OR值自然对数的平均变化量。Exp(B):OR值(经校正的,或调整的OR值,adjustedoddsratio)SE:回归系数
本文标题:A1-二分类logistic回归-暨南大学高级医学统计学
链接地址:https://www.777doc.com/doc-4013549 .html