您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > Logisti回归方程1.
LogisticRegressionAnalysisLogistic回归分析陈新Logistic回归分析在医学研究中,经常要分析某种结果的产生与哪些因素有关。例如:生存与死亡,发病与未发病,阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响呢?Logistic回归分析能较好地解决这类问题。一、Logistic回归模型1、Logistic回归模型的构造若因变量y为连续型正态定量变量时,可采用多元线性回归分析y与变量X1,X2,…,Xp之间的关系:y=β0+β1X1+β2X2+…+βpXp现y为发病或未发病,生存与死亡等定性分类变量,不能直接用上模型进行分析。能否用发病的概率P来直接代替y呢?p=β0+β1X1+β2X2+…+βpXp等式左边变化范围P发病概率0≤P≤11-P不发病概率0≤P≤1p/1-p比数(ratio)0≤p/1-p+∞ln(p/1-p)比数的对数值(ratio)-∞ln(p/1-p)+∞2、Logistic回归模型为:ln[P/(1-P)]=β0+β1X1+…+βpXp.定义:logit(P)=ln[P/(1-P)]为Logistic变换,Logistic回归模型为:logit(P)=β0+β1X1+…+βpXp;经数学变换可得:exp(β0+β1X1+…+βpXp)P=─────────────1+exp(β0+β1X1+…+βpXp);exp表示指数函数。Logistic回归模型是一种概率模型,它是以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项,多项分类的资料。在临床医学中多用于鉴别诊断,评价治疗措施的好坏及分析与疾病预后有关的因素等。CHISS软件要求,对分类变量Y数量化,而且赋值为:1发病(阳性,死亡,治愈等)y=0未发病(阴性,生存,未治愈等).注意:P=P(y=1),即发病的概率。3、软件的要求4、回归系数βi的意义设只有一个自变量X,Logistic方程为lnP/(1-P)=β0+β1xX=0表示非暴露,1表示暴露。X=1时的发病概率为P1;X=0时的发病概率为P0。P1/(1-P1)则,OR=──────P0/(1-P0)ln(OR)=logit[P(1)]-logit[P(0)]=(β0+β1×1)-(β0+β1×0)=β1logistic回归系数的意义β表示自变量每增加一个单位,其优势比的对数值的改变量,OR=eβlnOR=β亦即自变量每增加一个单位,其相对危险度为eβ。例如,吸烟与肺癌的关系的研究令1吸烟1肺癌X=y=0不吸0非肺癌若求得:β=1,OR=e意思是:吸烟的人得肺癌症的危险性是不吸烟的2.71828倍。注意变量X的赋值与OR的关系令0吸X=1不吸则求得β=?OR=?则求得:β=-1,OR=1/e意思是:不吸烟的人得肺癌症的危险性是吸烟的36.79%。实例分析实例分析5、参数检验1.似然比检验(likehoodratiotest)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为GG=-2(lnLp-lnLk)n较大时,G近似服从自由度为待检验因素个数的2分布。比分检验(scoretest)以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的统计量S。n较大时,S近似服从自由度为待检因素个数的2分布。Wald检验(waldtest)即广义的t检验,统计量为uu服从正态分布,即为标准正态离差。iibbu=s以上三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者计算量均较大;而Wald检验未考虑各因素间的综合作用,在因素间有共线性存在时,结果不像其它两者可靠。•分析因素xi为等级变量时,如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时,e(bi)表示xi增加一个等级时的优势比,e(k*bi)表示xi增加k个等级时的优势比。分析因素xi为连续性变量时,e(bi)表示xi增加一个计量单位时的优势比。6、Logistic回归分析方法分析思想与多重线性回归分析相同筛选变量的方法:前进法后退法逐步法统计量不再是线性回归分析中的F统计量,而是上面介绍的三种统计量之一。为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。7、哑变量的设置和引入哑变量,又称指示变量有利于检验等级变量各个等级间的变化是否相同。一个k分类的分类变量,进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(dummyvariable)来表示。这样指示变量都是二分变量,每一个指示变量均有一个回归系数,其解释同前。哑变量的设置教育程度X1X2X3沈阳000北京100天津010上海001地区:北京,天津,上海,沈阳二、条件Logistic回归对配比调查资料,多采用条件Logistic回归分析。假设自变量在各配比组对结果变量的作用相同,即自变量的回归系数与配比组无关。配比设计的Logistic回归模型不含常数项。1122logitP=bkkxbxbx三、logistic回归的作用(1)建立logistic回归模型:logit(p)=β0+β1X1+β2X2+…+βpXp;(2)预测预报若已知x1,x2…xm数值大小时,通过模型可以预测发病、死亡等的概率;(3)因素分析寻找发病、死亡等影响有显著性的因素。设研究问题中含有p个指标变量x1,x2,…,xp及Y.n个观察对象.其数据结构为:编号X1X2….XPy1x11x21…x1py12x21x22…x2py2………………nxn1xn2…xnpyp━━━━━━━━━━━━━━━━Y的值要求数值化。Y=1为发病。三、数据结构四、Logistic分析的具体任务:1)采用极大似然估计或加权最小二乘估计确定方程中系数βi=0,1,2,3…;2)采用(剩余)卡方检验对回归方程进行检验;3)采用U检验对方程中的每个系数bi进行显著性检验。
本文标题:Logisti回归方程1.
链接地址:https://www.777doc.com/doc-2885414 .html