您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > Logistic回归分析
计算中心Logistic回归分析对于用属性变量Y表示的特性,例如节目是否受欢迎,产品是否被接受,信用卡是否被欺诈等,描述这一特性发生与否的统计特征是它发生的可能性大小,即概率。这一可能性本身也受其他因素的影响。因而也希望用一些自变量来说明和预测所关心的特性发生的可能性大小。当Y是连续变量时,可用方差分析和回归分析处理;当Y时属性变量时,则用Logistic回归分析处理。计算中心Logistic回归分析描述属性变量Y所表示的某一特征发生的可能性大小(即概率p),也希望用一些自变量x1,x2,...来说明和预测。特别是两值问题(Y=0表示某事件A不发生,Y=1表示发生):记P{Y=1}=pp的取值在0与1之间变化,所以简单地将概率p表示为自变量x1,x2,....的线性函数是不合适的。计算中心Logistic回归分析概率p作一变换f(p)假设在自变量x1,x2,…xn作用下,某事件发生的概率为p,则该事件不发生的概率为1-p,p/(1-p)为发生概率和不发生概率之比,称为“优势比”(odds),若对odds取自然对数,得到:()()1pppLogitLogLogistic回归模型:Logit(p)=ln(p/(1-p))=β0+β1x1+β2x2+βnxnY=Logit(p)的图形如下(随p由0变到1,Y的值由-∞单调上升到∞)计算中心Logistic回归分析计算中心Logistic回归分析上模型称为Logistic回归模型.其中最简单的情况是只含一个自变量:logit(p)=β0+β1x或0101exp()1exp()xpx计算中心Logistic回归分析一般地,拟合回归模型时,是要建立属性变量(因变量)取某种状态的概率pi关于自变量的关系式.自变量若也是属性的变量,应先把它数量化.比如自变量x取k种不同的状态,引入k-1个标识变量zi(i=1,...,k-1)作为自变量.其中zi=1,当x取第i种状态,zi=0,其它.(i=1,…,k-1).例下表记录了某公司在过去6个月中的顾客信息.其中包括顾客的性别(gender:0=男和1=女),顾客的年龄(AGE),顾客的年收入(income:1=低,2=中和3=高)和购买价值(PURCHASE:0=小于100元,1=大于等于100元),共记录了431位顾客的资料,数据集为sales1。计算中心用分析家作logistic分析统计→回归→Logistic...。purchase→Dependent,sex→Quantitative在Logistic回归分析主窗口Dependent左边点击ModelPr{}右侧向下箭头,并且选1;在主窗口选Statistics键→Intervals,并选中ProfileLikelihoodLimits(使它左边方框打勾).计算中心结果分析数据集名称:sales1目标变量:purchase目标变量类别数:2映射函数:logit观测值:431计算中心结果分析收敛状态(ModelConvergenceStatus•指参数估计是否收敛模型拟合统计量(ModelFitStatistics)•类似于线性回归中的总平方和、残差平方和等,在logit回归中较少关注计算中心结果分析总体拟合测试(TestGlobalNullHypothesis)•测试有预测变量和没有预测变量效果是否一样•原假设:效果一样,如果P很小,效果不一样•LikelihoodRatio:似然比卡方值4.6978=570.649-565.951其对应的P值小,建模效果显著计算中心结果分析参数估计值•(AnalysisofMaxamumLikelihoodEstimates)回归方程:•Logit(p)=-0.7566+0.4373*sex•由检验的显著性概率值(分别为0.001和0.0312)可知在0.05的水平下回归式的两个系数均显著地不为0.计算中心结果分析优势比估计(OddsRatioEstimates)•对于两值的Logistic回归:logit(p)=β0+β1x,•若自变量x也是只取两个值0,1•当x=1时,Y=1发生的优比(Odds)为•当x=0时,Y=1发生的优比(Odds)为:计算中心01{1|1}exp(){0|1}PYxPYx0{1|0}exp(){0|0}PYxPYx结果分析优势比估计(OddsRatioEstimates)•在这两种情况下,Y=1发生的优比率(OddsRatio)为此例的优比率为1.549,表示利用拟合的回归式预测女性购买100元以上商品的优比为男性的1.549倍.优比率的95%置信区间为(1.040,2.305).计算中心010exp()1exp()exp()结果分析在Logistic回归分析中,衡量模型拟合好坏的指标除了各种与似然函数联系的综合指标外,一个常用的做法是计算预测的和实际的观测中的一致对与不一致对的比例.两值Logistic回归的因变量Y可取值为0或1,而拟合的Logistic回归式logit(p)=b0+b1x是用以预测Y=1的概率p的.对每个实际观测(Yi,xi),用拟合的回归式都可以计算得到计算中心0101exp()ˆ1exp()iiibbxpbbx结果分析对于实际和预测的数据,考虑数据对对于Yi≠Yj的数据对规定:若(Yi-Yj)(pi-pj)>0称数据对是一致的若(Yi-Yj)(pi-pj)<0称数据对是不一致的若(Yi-Yj)(pi-pj)=0称数据对平分的对所有Yi≠Yj的数据对统计其一致对和不一致对的总数及所占的比例。这是衡量拟合的Logistic回归是否反映实际数据趋势的一种方法。计算中心ˆ(,)iiYpˆ(,)iiYpˆ(,)jjYpˆ(,)iiYpˆ(,)jjYp结果分析预测概率和观测响应关联统计•因为原始记录中有162个PURCHASE=1,269个为0。所以可配成162×269=43578个对。其中30.1%用拟合的回归模型预测时其趋势是与实际结果一致的.而19.5%是不一致的,其余为平分的.Somers‘D等4个统计量表示预测概率和观测值之间的关联度。一般而言,C统计量的值0.7,关联度高,可以使用该模型计算中心[例]饮酒与食道癌发病关系的分析1977年Tuyns等在法国llle-et-Vilaine(Brittany)地区的一所医院收集了200例食道癌患者与775例对照进行病例—对照研究,探讨饮食与发病的关系,考虑到年龄这一混杂因素的干扰,按每10岁一组共分为6组。危险因素饮酒分为两个水平:每天饮酒量少于80克者为非接触(x=0),≥80克为接触(x=1),年龄组范围为:1组:25~,2组:35~,3组:45~,4组:55~,5组:65~,6组:75~(数据集为logit)饮酒与食道癌发病关系资料(200例食道癌与775例对照数据)年龄组饮酒(X)病例数(count)对照数(Y)11191001062142620516431252930211384142274034139511918503688615060831Logistic回归进入分析家并打开数据集选择统计/回归/LogistiYDependent,xQuantitativeVariables/countFrequency点击Model{}右侧的箭头,并选0(y=0为发病)ok[例]50例急性淋巴细胞性白血病病人,在入院治疗时取得了外周血中的细胞数x1(千个/mm3)、淋巴结浸润等级x2(分别为0,1,2,3四级),出院后巩固治疗x3(有巩固治疗为1,无巩固治疗为0),并随访取得病人的生存时间T(月),变量Y(生存时间1年以内为0,1年以上为1)(数据集为logit2)分析过程进入分析家并打开数据集选择统计/回归/LogistiYDependent,x1,x2,x3Quantitative点击Model{}右侧的箭头,并选0(y=0)Ok结果中有不显著的自变量,用逐步法选择自变量model/selection/stepwiseselectionX1,x2移出模型。结果结果:1.Ln(p/(1-p))=1.9924-2.7462x3有巩固治疗x3=1,Ln(p/(1-p))=-0.7538p/(1-p)=0.471,p=0.471/1.471=0.32有巩固治疗一年内死亡的概率是0.322.无巩固治疗x3=0,Ln(p/(1-p))=1.9924p/(1-p)=7.33,p=7.33/8.33=0.88无巩固治疗一年内死亡的概率是0.88作业关于食管癌与使用咸菜关系的病例-对照研究不考虑年龄的因素,仅对“吃咸菜”一个变量作Logistic回归病例对照年龄组吃咸菜不吃咸菜吃咸菜不吃咸菜1(25-34)108982(35-44)46241863(45-54)2522321484(55-64)5638281395(65-74)193618886(75+)58031合计110110110690
本文标题:Logistic回归分析
链接地址:https://www.777doc.com/doc-3268996 .html