您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > SAS的logistic回归(正式)
华中科技大学公卫学院流行病与卫生统计系Logistic回归SAS应用蒋红卫Email:JHWCCC@21CN.COM学习目标•了解Logistic回归模型的建立和假设检验;•了解Logistic回归模型的应用领域;•掌握Logistic回归模型系数的解释,及回归系数与OR值之间的关系;•掌握Logistic回归过程步;•掌握哑变量的设置和结果的解释;•掌握多元Logistic回归模型的逐步过程法和系数的解释;•了解条件Logistic回归的应用;•掌握条件Logistic回归的SAS程序;概述•线性回归模型和广义线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系。当因变量是分类型变量时,且自变量与因变量没有线性关系时,线性回归模型的假设条件遭到破坏。这时,最好的回归模型是Logistic回归模型,它对因变量的分布没有要求,从数学角度看,Logistic回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型和广义线性回归模型的缺陷。从医学研究角度看,Logistic回归模型解决了一大批实际应用问题,对医学的发展起着举足轻重的作用。非条件Logistic回归•Logistic回归分析在医学研究中应用广泛。目前主要是用于流行病学研究中危险因素的筛选,但它同时具有良好的判别和预测功能,尤其是在资料类型不能满足Fisher判别和Bayes判别的条件时,更显示出Logistic回归判别的优势和效能。本研究对Logistic回归方程的判别分析进行了探讨。非条件Logistic回归•医学研究中经常需要分析分类型变量的问题。比如,生存与死亡、有病与无病、有效与无效、感染与未感染等二分类变量。研究者关心的问题是,哪些因素导致了人群中有些人患某种病而有些人不患某种病,哪些因素导致了某种治疗方法出现治愈、显效、好转和无效等不同的效果等。这类问题,实质上是一个回归问题,因变量就是上述提到的这些分类型变量,自变量x是与之有关的一些因素。但是,这样的问题却不能直接用线性回归分析方法解决,其根本原因在于因变量是分类型变量,严重违背了线性回归分析对数据的假设条件。那么应该怎样解决这个问题呢?非条件Logistic回归•研究者将所研究的问题转换一个角度,不是直接分析y与x的关系,而是分析y取某个值的概率P与x的关系。例如,令y为1,0变量,y=1表示有病,y=0表示未患病;x是与患病有关的危险因素。如果P表示患病的概率,即P=prob(y=1),那么研究患病的概率P与危险因素x的关系就不是很困难的事情了。非条件Logistic回归•分析因变量y取某个值的概率P与自变量x的关系,就是寻找一个连续函数,使得当x变化时,它对应的函数值P不超出[0,1]范围。数学上这样的函数是存在且不唯一的,Logistic回归模型就是满足这种要求的函数之一。与线性回归分析相似,Logistic回归分析的基本原理就是利用一组数据拟合一个Logistic回归模型,然后借助这个模型揭示总体中若干个自变量与一个因变量取某个值的概率之间的关系。具体地说,Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。•Logistic回归模型有条件与非条件之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。问题的提出•在流行病学研究中,经常遇到因变量为离散型分类变量的情况。如治疗效果的无效好转、显效、痊愈;不同染毒剂量下小白鼠的存活或死亡;在某种暴露下的发病与不发病等。最常见的情况是因变量为二分变量的问题。•多元线性回归的局限性•经典流行病学统计分析方法—分层分析的局限性1.两种主要的流行病学设计1)病历对照研究2)队列研究2.判断结局(疾病)和暴露(因素)联系强弱的指标1)相对危险度:RR=p1/p0p1:暴露于某个危险因素下发病的概率p0:不暴露于某个危险因素下发病的概率(对照)2)比值比:OR={P(D=1|E=1)/P(D=0|E=1)}/{P(D=1|E=0)/P(D=0|E=0)}D=1:患某种疾病,D=0:不患某种疾病E=1:暴露于某个危险因素,E=0:不暴露于某个危险因素可以简单地表述成:OR=(p1/q1)/(p0/q0)p1:暴露于某个危险因素下发病的概率q1:暴露于某个危险因素下不发病的概率p0:不暴露于某个危险因素下发病的概率q0:不暴露于某个危险因素下不发病的概率•能够描述病因学意义的指标是RR•OR本身没有病因学意义•OR的病因学意义主要体现在发病率/患病率比较低的情形,此时,OR近似于RR•OR值是描述暴露与疾病关联强度的指标分层分析中,可以分别计算出分层后的各层OR值,如果发现与总的OR有较大的差异,则可以认为该风层因素是混杂因素。必须对该因素进行MH调整,调整后的OR值才能真正反映因素和结局间的关系。如果当分层后各层的OR值经过一致性检验发现:各层间的OR值有统计学差异,这时说明分析因素在分层因素的不同水平上与结局变量的联系强度是不同的,这时分层因素和研究因素存在这交互作用(效应修饰作用)。这时应该分层报告OR值,而不能计算调整OR值。分层分析的局限性只能控制少数因素(分层因素过多,每个格子中的样本例数太少)定量资料需要分组,信息丢失不能对因素作用大小进行定量分析(交互作用)经过数理统计学家证明:把疾病概率P转换成pp1ln,会使该回归方程的统计性能更好一些。而且,在经过转换以后,pp1ln的值域为-∞到+∞,而且这些pp1ln值都可以和在大于0小于1范围内的P值相对应。统计学中,常把pp1ln称为Logit变换。yy=log2x01二、Logistic回归原理Logistic回归方程:pp1ln=nnxx110,而且有:)()(1101101nnnnxxxxeepLogistic模型中系数的意义:回归系数的流行病学意义是:在其它自变量都不变的条件下,当因素X变化一个测量单位时所引起的OR值自然对数的改变量。pp1ln=11x111xepp1XOR=00111111XXXXqpqp=001111111......1......xxxxpppp=1111xxee=0111ee=1e三、Logistic回归和OR值间的关系假设建立了如下的logistic回归方程:LogitP=α+βxx为二分变量,当暴露时,取值为1;不暴露时,取值为0。所以暴露时,Logit(P1)=α+β,比值(odds)=exp(α+β)所以不暴露时,Logit(P0)=α,比值(odds)=exp(α)则,暴露对于不暴露的比值比(oddsratio)为:OR=exp(α+β)/exp(α)=exp(β)以四格表为例来说明最大似然求解的意义及过程。四格表的一般表达形式————————————————————————————发病(y=1)不发病(y=0)————————————————————————————暴露(x=1)ab不暴露(x=0)cd—————————————————合计a+cb+d—————————————————————————————暴露者发病概率p1=a/(a+b);不暴露者发病概率p0=c/(c+d)OR=ad/(bc)四、Logistic回归最大似然建模用发病概率来表示四格表,可以得到四格表的另外一种表示形式:四格表的另外一种表达形式(1)————————————————————————————发病(y=1)不发病(y=0)————————————————————————————暴露(x=1)p11-p1不暴露(x=0)p01-p0—————————————————————————————暴露者发病概率:p1=exp(α+βx)/[1+exp(α+βx)]暴露者不发病概率:q0=1-p1=1/[1+exp(α+βx)];不暴露者发病概率:p0=exp(α)/[1+exp(α)]不暴露者不发病概率:q0=1-p0=1/[1+exp(α)];用发病概率来表示四格表,可以得到四格表的另外一种表示形式:四格表的另外一种表达形式(2)——————————————————————————————发病(y=1)不发病(y=0)——————————————————————————————暴露(x=1)e(α+β)/[1+e(α+β)]1/[1+e(α+β)]不暴露(x=0)eα/[1+eα]1/[1+eα]——————————————————————————————因为四格表的四个实际数为a,b,c及d,故可构造似然函数为:L={e(α+β)/[1+e(α+β)]}a{1/[1+e(α+β)]}b{eα/[1+eα]}c{1/[1+eα]}d取对数,有Ln(L)=a(α+β)–aln[1+e(α+β)]–bln[1+e(α+β)]+cα–cln[1+eα]–dln[1+eα]对以上似然函数分别求对α和β的一阶偏导数,再令两个偏导数为零,就可以解得α和β的估计值。在经典流行病学分析里对因素的统计学意义检验是检验OR值是否为1对于Logistic回归来说,对模型中变量的统计学检验就是对检验其回归系数是否为0一般常用的方法有三种:似然比检验、Wald检验、比分检验五、Logistic回归模型的统计学检验1)似然比检验似然比检验的原理是通过分析模型中变量变化对似然比的影响,来检验增加/减少的自变量是否对应变量有统计学上的显著意义。检验统计量:G=-2[Ln(Lk-1)-Ln(Lk)]Ln((Lk-1)为不包含检验变量时模型的对数似然值Ln(Lk)为包含检验变量时模型的对数似然值当检验一个变量时则G服从自由度为1的χ2分布当对模型整个进行检验时就是相当于模型中所有n个变量的回归系数都为0,G服从自由度为n的χ2分布2)Wald统计量-检验回归系数是否为0对于方程内单个自变量的检验,采用Wald统计量。W=β/SβSβ为β的标准误。其临界值可取标准正态分布的临界值。同时,W2遵循自由度为1的卡方分布。β的95%可信区间为:(β-1.96×Sβ,β-1.96×Sβ)OR的95%可信区间为:(exp(β-1.96×Sβ),exp(β+1.96×Sβ))3)比分检验在原有模型的基础上增加一个变量,并假设该变量的回归系数为0,似然函数一阶偏导和信息矩阵的乘积为比分检验统计量S。S在样本量较大时服从自由度为检验参数个数的χ2分布上述方法中,似然比检验最可靠,Wald检验和比分检验一致。Wald检验没有考虑变量间的相互影响,当因素间相关时(存在共线性)不可靠参数的可信区间是以Wald法计算的,在应用可信区间时要注意PROCLOGISTIC过程•SAS系统中进行Logistic回归分析的过程步是PROCLOGISTIC过程。下面我们先了解以下这个过程步。LOGISTIC过程的语句基本格式如下:PROCLOGISTICdata=descendingsimpleorder=;Model因变量=自变量/link=nointrsqclrlselection=sle=sls=;freq频数变量;outputout=pred=变量名;run;PROCLOGISTIC过程•DESCENDING:指令系统输出因变量取值由大到小的概率,缺省时,系统输出因变量取值由小到大的概率。使用和不使用DESCENDING语句的回归模型的回归系数绝对值完全相同,但是符号完全相反。•SIMPLE:指令系统输出每一个自变量的基本统计量。•MODEL:给出模型的因变量和自变量。•LINK:指定因变量概率函数的形式•NOINT:指令模型不含常数项。•RSQ:指定输出确定系数。PROCLOGISTIC过程•CL:指定输出参数估计值的可信区间。•
本文标题:SAS的logistic回归(正式)
链接地址:https://www.777doc.com/doc-5081858 .html