SAS学习系列26Logistic回归

26.Logistic回归（一）Logistic回归一、原理二元或多元线性回归的因变量都是连续型变量，若因变量是分类变量（例如：患病与不患病；不重要、重要、非常重要），就需要用Logistic回归。Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下，每个自变量对因变量取某个值的概率的数值影响大小。Logistic回归模型有“条件”与“非条件”之分，前者适用于配对病例对照资料的分析，后者适用于队列研究或非配对的病例-对照研究成组资料的分析。对于二分类因变量，y=1表示事件发生；y=0表示事件不发生。事件发生的条件概率P{y=1|xi}与xi之间是非线性关系，通常是单调的，即随着xi的增加/减少，P{y=1|xi}也增加/减少。Logistic函数F(x)=11+𝑒−𝑥，图形如下图所示：该函数值域在(0,1)之间，x趋于-∞时，F(x)趋于0；x趋于+∞时，F(x)趋于1.正好适合描述概率P{y=1|xi}.例如，某因素x导致患病与否：x在某一水平段内变化时，对患病概率的影响较大；而在x较低或较高时对患病概率影响都不大。记事件发生的条件概率P{y=1|xi}=pi，则pi=11+𝑒−(𝛼+β𝑥𝑖)=𝑒𝛼+β𝑥𝑖1+𝑒𝛼+β𝑥𝑖记事件不发生的条件概率为1-pi=11+𝑒𝛼+β𝑥𝑖则在条件xi下，事件发生概率与事件不发生概率之比为𝑝𝑖1−𝑝𝑖=𝑒𝛼+β𝑥𝑖称为事件的发生比，简记为odds.对odds取自然对数得到ln(𝑝𝑖1−𝑝𝑖)=𝛼+β𝑥𝑖上式左边（对数发生比）记为Logit(y),称为y的Logit变换。可见变换之后的Logit(y)就可以用线性回归，计算出回归系数α和β值。若分类因变量y与多个自变量xi有关，则变换后Logit(y)可由多元线性回归：11logit()ln()1kkppxxp或111()1(1|,,)1kkkxxpyxxe二、回归参数的解释1.三个名词发生比（odds）=事件发生频数事件未发生频数=𝒑𝒌𝟏−𝒑𝒌例如，事件发生概率为0.6，不发生概率为0.4，则发生比为1.5（发生比1，表示事件更可能发生）。发生比率（OR）=𝐨𝐝𝐝𝐬𝟏𝐨𝐝𝐝𝐬𝟐=𝒑𝟏/(𝟏−𝒑𝟏)𝒑𝟐/(𝟏−𝒑𝟐)=𝒏𝟏𝟏/𝒏𝟏𝟐𝒏𝟐𝟏/𝒏𝟐𝟐=𝒏𝟏𝟏𝒏𝟐𝟐𝒏𝟏𝟐𝒏𝟐𝟏即主对角线乘积/副对角线乘积，也称为交叉积比率，优势比。例如，说明：大于1（小于1）的发生比率，表明事件发生的可能性会提高（降低），或自变量对事件概率有正（负）的作用；发生比率为1表示变量对事件概率无作用。相对风险（RR）=𝒑𝟏𝒑𝟐=𝒏𝟏𝟏/(𝒏𝟏𝟏+𝒏𝟏𝟐)𝒏𝟐𝟏/(𝒏𝟐𝟏+𝒏𝟐𝟐)用来进行两组概率之间的比较。当p1=p2时，相对风险为1，表明两组在事件发生方面没有差别。2.连续型自变量回归参数的解释截距α：基准发生比的对数，即当Logistic回归模型中没有任何自变量时（除常量外，所有自变量都取0值）所产生的发生比。由于理解发生比，比理解对数发生比更容易，故将Logistic回归模型改写为：odds=𝑝1−𝑝=𝑒𝛼+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘=𝑒𝛼×𝑒𝛽1𝑥1×⋯×𝑒𝛽𝑘𝑥𝑘若βk0（βk0），则𝑒𝛽𝑘1（𝑒𝛽𝑘1）,即xk每增加一个单位值时发生比会相应增加（减少）；若βk=0，则𝑒𝛽𝑘=1,那么xk不论怎样变化发生比都不会变化。𝑒𝛽𝑘反映了自变量xk增加一个单位时发生比所变化的倍数，即(xk+1)时的发生比与原发生比【(xk)时】之比。自变量xk每变化一个单位，发生比率的变化率为(𝑒𝛽𝑘−1)×100%注：由于βk是自变量xk的偏系数估计，故𝑒𝛽𝑘称为调整发生比率（AOR）的估计。实际中，往往更关心的不是自变量变化1个单位，而是变化一段水平b-a个单位，例如年龄每增加5岁，此时调整发生比率为AOR=𝑒(b−a)𝛽𝑘3.二分类自变量回归参数的解释二分类变量，例如性别，取值可以用0或1编码，也称为标志变量或虚拟变量。若xk为取值0或1的二分类变量，则有111ln()11kixkipxp011ln()01kixkipxp两式作差得1010ln()ln()ln(odds)11kkkkiikxxxvsxiipppp可见βk就是在控制其它变量条件下，xk=1与xk=0的对数发生比的差；也即是发生比率的对数，即调整发生比率的估计可表示为AOR=𝑒𝛽𝑘=10(odds)kkxvsx注意，发生比率是𝑝1/(1−𝑝1)𝑝2/(1−𝑝2)=(𝑝1𝑝2)(1−𝑝21−𝑝1)，而不是两者概率比𝑝1𝑝24.多分类变量的处理与回归参数的解释当分类自变量多于两个类别时，需要建立一组虚拟变量来代表类型的归属性质。若一个分类变量包括m个类别，则可以产生m个相应的虚拟变量，但建模需要的虚拟变量的数目为m-1.省略的那个类别作为参照类。例如，年龄是有序变量，按年龄段分为四个类别：x40，40≤x50，50≤x60,x≥60.设置3个虚拟变量Age1表示40≤x50（属于该年龄段则Age1=1，否则Age1=0）；Age2表示50≤x60（属于该年龄段则Age2=1，否则Age2=0）；Age3表示x≥60（属于该年龄段则Age3=1，否则Age3=0）；另一个不指定虚拟变量的x40作为参照类（Age1，Age2，Age3都为0；哪一类作为参照类是随意的，取决于偏好或解释的方便）。则模型为112233ln()AgeAgeAge1pp同二分类变量时一样，β1代表40≤x50与参照类（Age0:x40）在因变量上的差别，故β1=ln(odds)Age1vsAge0且40≤x50对x40的发生比率为𝑒𝛽1.注：（1）名义变量直接就是分类变量；连续变量也可以改为分类变量，例如考试成绩按分数段分为高、中、低三档。（2）另外，也可采用效应变量编码，三种取值：-1,0(参照类),1.（3）用SAS中CLASS语句指定分类变量，可以自动进行效应编码，作为一组变量纳入模型，并对每一类别单独做显著性检验。5.用概率解释自变量的作用(1)对事件发生概率的偏作用，可用Logit函数求该自变量的偏导数来刻画：{1|}(1)kkkPyxppx其中p为事件发生概率。对于二元Logistic回归，p=0.5时，斜率最陡，此时x=-α/β,称为中位有效水平。(2)利用得到的Logistic回归方程，可以预测概率：ˆˆˆˆoddsˆ1odds1kkkkkkxxepe有预测概率就可以计算某自变量值发生离散变化时，预测概率的离散变化：{1|,}{1|,}kkkPyxxxPyxx三、标准化系数通常在线性回归模型中的连续型自变量是以不同尺度度量的，这就使得某自变量中一个单位的变化并不等价于另一自变量上一个单位的变化。因此，要使用标准化系数（使得因变量的作用具有可比性）。标准化系数表示自变量的一个标准差的变化所导致的因变量上以其标准差为单位度量的变化。有两种标准化的方法：（1）先回归再标准化；（2）先标准化x，y再回归；注：对于分类变量，例如性别、民族等，变量的标准化是没有意义的。但其尺度标准要一致，比如0,1,2,3都变成1,2,3,4.四、偏相关偏相关，用来刻画在控制其他变量下，某自变量对Logistic回归的贡献（依赖于其它变量）。偏相关系数计算公式如下：202d.f.ˆ2LLWaldr其中，d.f.为自由度，分母为-2倍的截距模型（只有截距）的对数似然值。五、回归参数的估计Logistic回归参数的估计通常采用最大似然法，其基本思想是先建立似然函数与对数似然函数，再通过使对数似然函数最大求解相应的参数值，所得到的估计值称为参数的最大似然估计值。假设有N个案例构成的总体，Y1,…,YN.从中随机抽取n个案例作为样本，观测值标注为y1,…,yn.设pi=P(yi=1|xi)为给定xi的条件下得到结果yi=1的条件概率，而在同样条件下得到结果为yi=0的条件概率为P(yi=0|xi)=1-pi.于是，得到一个观测值的概率为1()(1)iiyyiiiPypp其中，yi=1或yi=0.当yi=1时，P(yi)=pi=P(yi=1|xi).由于各项观测相互独立，故它们的联合分布可表示为各边际分布的乘积：11()(1)iinyyiiiLpp称为n个观测的似然函数。对于Logistic回归，/(1)iixxipee.根据最大似然原理，估计参数α和β使得似然函数L(θ)最大，令1ln[()][()ln(1)]inxiiiLyxe称为对数似然函数，也即让ln[L(θ)]最大。令1ln[()][]01iixnixiLeye1ln[()][]01iixniixiLeyxe采用牛顿迭代法解出α和β的估计值。六、假设检验1.似然比检验H0：β1=β2=…=βp=0统计量201012(lnln)2ln(2ln)LRLLLL服从自由度为变量个数该变量（从L0到L1）的卡方分布。若P值0.05,则拒绝原假设。2.比分检验以未包含某个或几个变量的模型为基础，保留模型中参数的估计值，并假设新增加的参数为零，计算似然函数的一价偏导数（也称“有效比分”）及信息距阵，两者相乘便得比分检验的统计量S.样本量较大时，S近似服从自由度为待检验因素个数的2分布。3.Wald检验即广义的T检验，统计量为22ˆˆ[/SE]kkWZ其中ˆSEk为ˆk的标准误。H0：βk=0为真时，Z为标准正态分布，W服从自由度为1的渐近2分布。βk的95%置信区间估计为：ˆˆˆˆSE1.96SEkkkkZ.发生比率的1-α置信区间为：ˆ/2ˆSEkkZe.注：上述三种方法中，似然比检验最可靠，比分检验一般与它相一致，但两者均要求较大的计算量；而Wald检验未考虑各因素间的综合作用，在因素间有共线性时结果不如其它两者可靠。为计算方便，通常向前选取变量用似然比或比分检验，而向后剔除变量常用Wald检验。七、模型的评价——拟合优度检验检查模型估计与实际数据的符合情况。检验统计量：1.剩余差D;2.皮尔逊χ2若统计量的P值＞0.05，则认为模型拟合较好。（二）PROCLOGISTIC过程步基本语法：PROCLOGISTICdata=数据集可选项;CLASS分类变量;FREQ频数变量;WEIGHT权重变量;EFFECT效应名=效应类型(变量列表/可选项);MODEL因变量(变量选项)=自变量列表/可选项;EXACT变量列表;CONTRAST’label’分类变量名线性组合系数表;ODDSRATIO’label’variable/options;OUTPUTOUT=输出数据集/可选项;ROC’label’变量/可选项;SCOREOUT=输出数据集可选项;TEST系数关系式;注：CLASS,EFFECT语句必须在MODEL语句之前；CONTRAST,EXACT,ROC语句必须在MODEL语句之后。说明：（1）输入数据集可选项DESCENDING——指定因变量按降序排序（“y=1”放前面）；ORDER=——指定因变量的排序顺序；PLOT——绘图选项；（2）EFFECT语句用原变量数据创建某种效应设计矩阵做对比用，例如LAG效应等。（3）CLASS语句对分类变量进行0-1化处理，变成虚拟变量；（4）MODEL语句是必不可少的，用来指定因变

SAS学习系列26Logistic回归

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

2023年党史工作总结范文范例【4篇】

xxmp3随身听广告策划书(doc_13)

C程序流程设计

汽车售后运营管理

技术创新管理4--科技创新战略

人事及薪资循环

营业税改征增值税试点有关企业会计处理规定的专项学习

金谷唐山路桥应收账款收益权投资信托计划

消防施工工艺流程

小学语文abb式、abab式、abcc式、aabc式、aabb式的词语大集合

相关文档

相关搜索