您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 十三、logistic回归模型
二分类logistic回归模型内容提要非条件logistic回归模型简介简单分析实例哑变量设置自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型的诊断与修正条件logistic回归对分类变量的分析,当考察的影响因素较少,且也为分类变量时,常用列联表(ContingencyTable)进行整理,并用2检验或分层2检验进行分析,但存在以下局限性:无法描述其作用大小和方向,更不能考察各因素间是否有交互作用;当控制的分层因素较多时,将导致检验结果不可靠;2检验无法对连续性自变量进行分析(致命缺陷)。模型简介logistic回归模型适合于应变量为二项分类的资料,在医学研究领域中的应用广泛。如流行病病因学研究(包括队列研究、病例对照研究、横断面研究等)、临床疗效研究(如疗效与治疗方法、患病轻中重等因素关系)、卫生服务研究(如是否就诊与性别、年龄、文化程度的关系)等等。模型简介一、问题的提出•举例:分析“新生儿出生体重”的影响影响,如果以新生儿出生时的体重为因变量,采用线性回归分析的方法。•线性回归分析:因变量Y是连续性随机变量,并且呈正态分布,理论上因变量必须能够在–∞到+∞之间自由取值问题的提出(续)•但在医学研究中常碰到因变量的取值仅有两个,如是否发病、死亡或痊愈等;•分析“母亲怀孕期间体重增加”对“新生儿出生低体重”的影响二、概念的引入•如按线性回归思想建立模型:P=α+βX•P的意义是发生出生低体重的概率•在线性回归模型中,X的取值是任意的,P值可能大于1或小于0,无法从医学意义进行解释,显然不适宜用线性回归建立预测模型。•为避免P值大于1或小于0,我们对P进行logit(即logistic)变换,把logit(P)作为因变量,即:Logit(P)=ln[p/(1-p)]=+x•logit(P)可以从–∞到+∞之间取任何值•如:计算logit(0.1),logit(0.95)logit(0.1)=ln(0.1/0.9)=-2.20logit(0.95)=ln(0.95/0.05)=2.94•1.如果以logitP为因变量,暴露因素X为自变量,建立直线回归方程:LogitP=+x由LogitP=ln[p/(1-p)]可导出:ln[p/(1-p)]=+x(1)即单因素线性LOGISTIC回归模型公式;“p=在暴露变量E下有病D的概率”解(1)式中以p为反应变量的方程,得:(2)即单因素曲线LOGISTIC回归模型公式。xxee1单因素LOGISTIC模型参数的解释ln[p/(1-p)]=+x:与变量x无关的因素的影响:自变量x的回归系数,大小由因素x决定。=0表明P与x无关,发病不由因素x决定;0表明P与x有关,变量x是疾病发生的危险因素;0表明P与x有关,变量x是疾病发生的保护因素。LogitP与OddsRatio(OR)OddsRatio(OR):即两个Odds的比值,是描述因素与疾病之间联系强度的指标,可以用来确定定群研究(队列研究)和病例对照研究中暴露研究因素与疾病发生之间关联的性质和强弱。OR=1表明疾病D与因素x无关,发病不由因素x决定;OR1表明疾病D与因素x有关,变量x是疾病发生的危险因素;OR1表明疾病D与因素x有关,变量x是疾病发生的保护因素。•对于队列研究,假设研究一个二值暴露变量X与某一疾病之间的关联:•设暴露组(E+)发病的概率为P1,则其发病与不发病的概率比为:Odds=P1/(1-P1)(3)•设非暴露组(E-)发病的概率为P0,则其发病与不发病的概率比为:Odds=P0/(1-P0)(4)根据OR定义,得:OR=[P1/(1-P1)]/[P0/(1-P0)](5)两边取自然对数,得:lnOR=ln[P1/(1-P1)]-ln[P0/(1-P0)](6)用LogitP的值带入,得:lnOR=LogitP1-LogitP0=(1+1x1)-(0+0x0)队列研究中假定暴露人群和非暴露人群影响疾病发生的其他因素均相同,则可认为:1=0;在非暴露人群中不暴露研究因素,可知:x0=0,带入,得:lnOR=(1+1x1)-(0+0x0)=1x1则:OR=Exp[(1+1x1)-(0+0x0)]=Exp(1x1)(7)即:OR=e13.多因素LOGISTIC回归模型与混杂因素的控制线性LOGISTIC回归模型公式:(8)或:曲线LOGISTIC回归模型公式:(9)1212ln[/(1)]iippxxxln[/()]ppxii1121212121212()()111111iiiiiiiiiiiixPxPxxxxPxxxPxxxeeeeee•多因素LOGISTIC模型参数的解释:与变量xi无关的因素的影响;i:自变量xi的回归系数,大小由因素xi决定,是控制了其他因素的混杂效应后的i值。i=0:表明P与xi无关,发病不由因素xi决定;i0:表明P与xi有关,变量xi是疾病发生的危险因素;i0:表明P与xi有关,变量xi是疾病发生的保护因素。1212ln[/(1)]iippxxx反应变量为二分类变量或某事件的发生率;自变量与logit(P)之间为线性关系;残差合计为0,且服从二项分布;各观测间相互独立。模型简介-适用条件logistic回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。举例•1.定群研究资料分析…弗明汉心脏研究•742名居住在弗明汉年龄为40-49岁的男性,在各自暴露不同水平的影响因素(详见下表中的7种因素),经12年追踪观察CHD发病情况。根据此742名受试者每人暴露各项因素的水平和CHD发病与否的资料,采用多因素LOGISTIC回归模型进行分析,结果见表1。表1.CHD危险因素定群研究(12年追踪观察结果)变量参数ii估计值i标准误标化i截距0-13.2573年龄(岁)10.12160.04370.3370胆固醇(mg/dl)20.00700.00250.3034BP(mmHg)30.00680.00600.1320相对体重(W/H)40.02570.00910.3458血红蛋白(mg%)5-0.00100.0098-0.0012吸烟(0,1,2,3)60.42230.10310.4952ECG(0,1)70.72060.40090.1750根据表1结果,可建立的CHD影响因素的Logistic回归模型,公式如下:p=1/{1+exp[-(-13.2573+0.1216x1+0.0070x2++0.7206x1)]}该多因素LOGISTIC回归分析模型的用途:(1)确定研究因素的性质:根据值的正和负,确定所分析因素是危险因素还是保护因素。表中7种因素中,除血红蛋白为保护因素外,其他均为危险因素。(2)计算描述因素与疾病间联系强度指标OR值的大小:(A)由于胆固醇的值为0.0070,根据估计OR值的公式计算CHD与胆固醇的联系强度为:OR=e3=e0.0070=1.007表明胆固醇上升1mg/dl时,CHD发病是原胆固醇水平的1.007倍。(B)当ECG的值为0.7206时,根据估计OR值的公式计算CHD与ECG异常的联系强度为:OR=e7=e7X1/e7X0=e7X(1-0)=e0.7206=2.056表明ECG异常者CHD发病是正常者的2.056倍。(3)比较各变量对方程贡献的大小:根据标化的值大小,确定各因素对CHD发病影响的大小。在此项研究中,危险因素中吸烟对方程贡献最大,其他依次为相对体重、年龄、胆固醇、ECG和BP。4)用于预测发病率:可根据该公式预测某人在不同因素暴露条件下CHD的发病率。如某受试者A暴露于因素xi的情况为:X=(45,210,130,100,120,0,0)利用该模型计算该受试者A在暴露上述各种研究因素的条件下,12年间CHD的发病率为:PA1=1/{1+exp[-(-13.2573+0.1216x45+0.0070x210++0.7206x0)]}=1/[1+exp(-2.9813)]=0.048•(5)预测发病风险:例1:如上述受试者A暴露于因素xi的情况变为:X=(45,210,130,100,120,3,0)即其由不吸烟变为每日吸烟1包以上(x6=3),可利用该模型估计受试者A在其他各种研究因素暴露不变的条件下,其因改变吸烟行为而在12年间CHD的发病率上升为:PA2=1/{1+exp[-(-13.2573+0.1216x45+0.0070x210++0.42223x3+0.7206x0)]}=1/[1+exp(1.7144)]=0.1526则受试者A因改变吸烟行为,其在12年间发生CHD风险将上升为原来的3.16倍。可用相对危险度RR公式进行计算,即:RR=PA2/PA1=0.1526/0.048=3.16应用多变量logistic回归注意事项(1)因变量必须是二分变量,或任何取值为0或1的属性数据。(2)logistic回归分析对自变量的正态性、方差齐性不作要求,对自变量类型也不作要求。但应注意自变量与logity之间应符合线性关系。如自变量为连续变量,且与logity之间不存在线性关系,应作适当变量转换,否则参数估计会发生偏倚,结论不可靠。如果自变量为定量指标:(1)同时自变量与logity之间为线性关系,则可以直接以原变量的形式进入分析;(2)如果自变量与logity之间为非线性关系,则需做适当转换,如x2,log(x),ex等。也就是说,如果自变量是定量指标的话,在进行回归分析之前一定要首先判断此变量是否与结局变量logity之间呈线性关系;定性或等级指标则不用考虑这个问题。如果自变量为定性指标:(1)如果自变量为二分类变量,常用0,1或1,2表示。如x为性别指标,0代表女性,1代表男性(如何解释结果?)。(2)如果自变量为多分类指标,需要用亚(哑)变量(dummy)表示,又称指示变量(indicatorvariables)(3)如果自变量为等级资料,可以用两种方法处理:一是将等级数量化后直接进入分析,如果y的改变在每个等级上是近似相等的,则该法效果很好;二是视为定性指标,用亚变量表示,一般用于y在每个等级上的变化不相等时。样本量•用logistic回归模型,样本含量要求较大。小样本不适宜。样本含量至少是变量数的10倍以上,否则方程不稳定,系数估计或标准误估计常出现异常,结果无法解释。•Logistic回归采用最大似然比估计法来对模型进行估计,最大似然估计在大样本或中等样本(如n=100)的条件下能保持较好的有效性。Long(1997)提到,在样本规模小于100时使用最大似然估计风险较大。•样本量的大小依赖于模型和数据的特点。参数越多所需样本量越大,一般认为一个参数至少需要10个案例,但要注意的是,并不是说如果只有几个参数就不需要样本量大于100了。•如果自变量之间存在高度共线性或因变量的变化太小(如有太多的研究对象的反应值都相同)等问题存在就需要较大的样本;(4)许多人进行多变量回归分析时,往往先作单变量分析,将单变量分析中有显著性意义的变量再进入多变量分析,这样做法不妥。因为,单变量分析没有意义的变量在多变量分析时不一定也没有意义。因此,应将所有变量都一起进入多变量分析,进行筛选。(5)与多变量线性回归一样,如果各个自变量之间存在自相关,呈多元共线性,bj的误差可能较大,可使偏回归系数估计发生很大的偏倚,甚至使偏回归系数的符号反常、偏回归系数的假设检验呈无显著性。这时,可将自相关的变量其中之一剔除。或增加样本含量以减少标准误,抵消共线性的影响。或用逐步回归方法,寻找最佳方程。或将几个高度相关的变量综合,形成一个新变量(主成分)进入回归。(6)自变量的记录
本文标题:十三、logistic回归模型
链接地址:https://www.777doc.com/doc-3267581 .html