您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 第8章:Logistic回归分析
第8章Logistic回归分析•二元Logistic回归•无序多分类Logistic回归•有序多分类Logistic回归线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。可用于处理分类因变量的统计分析方法有:判别分别(Discriminantanalysis)、Probit分析、Logistic回归分析和对数线性模型等。在社会科学中,应用最多是Logistic回归分析。Logistic回归分析根据因变量取值类别不同,又可以分为二元Logistic回归分析和多元Logistic回归分析。第一节二元Logistic回归现实世界中,经常需要判断一些事情是否将要发生,候选人是否会当选,为什么一些人易患冠心病,为什么一些人生意会获得成功。这些问题的特点是因变量只有两个值,发生(是)或不发生(否)。这就要求建立的模型必须保证因变量的取值是0、1。可是大多数模型的因变量值常常处于一个实数集中,与因变量只有两个值的要求相悖。因为一般回归分析要求直接预测因变量的数值,要求因变量呈现正态分布,并且要求各组中具有相同的方差—协方差矩阵。本节介绍对因变量数据假设要求不高,并且可以用来预测具有两分特点的因变量概率的统计方法—二元逻辑斯谛(BinaryLogistic)回归模型。一、Logistic回归模型1、Logistic模型在二元逻辑斯谛回归中可以直接预测观测量相对于某一事件的发生概率。设因变量为y,其取值1表示事件发生,取值0表示事件不发生。(因变量具有二分的特点,自变量是分类变量或等间隔测度的变量)记事件发生的条件概率为:iipxyP)1(包含k个自变量的回归模型可以写为:kkkkxxxxxxieep22110221101kkkkxxxxxxieep2211022110111其中:pi表示第i个观测中事件发生的概率,1-pi表示第i个观测中事件不发生的概率。事件发生与不发生之比被称为事件的发生比,简记为Odd。用公式表示:2、Logistic回归系数kkxxepp1101Odd为一正数,并且没有上界。kkxxpp1101ln对Odd做对数变换,就能得到Logistic回归模型的线性形式:可以看出Logistic回归系数可以理解为一个单位自变量的变化对比率的对数的改变值。由发生比可以看出,当第i个自变量发生一个单位的变化时,发生比的变化值为Exp(bi)。自变量的系数为正值,意味着事件发生的几率会增加,Exp(bi)的值大于1;变量的系数为负值,意味着事件发生的几率会减少,Exp(bi)的值小于1。极大似然法的基本思想是先建立似然函数,然后求使得似然函数达到最大的参数估计值。3、Logistic回归模型的参数估计niyiyiiippL11)1(对Logistic回归模型的参数估计可以采用极大似然法或者迭代法。对于已有样本,可建立样本的似然函数为:niiiiipypyL1)]1ln()1(ln[ln样本的对数似然函数为:根据极大似然原理,对lnL求一阶导数并令其为0,再用Newton-Raphson迭代方法求解,得到参数估计值及其标准误。niikkiiixxxyL122110)([ln将pi代入得:))]exp(1ln(22110ikkiixxxlogistic回归方程求解参数是采用极大似然估计方法,因此其回归方程的整体检验通过似然函数值(Likelihood)。4、Logistic回归的评价及统计检验⑴对于整体模型的检验所谓似然函数值表达的是一种概率,即在假设拟合模型为真实情况时能够观察到这一特定样本数据的概率,因此这个函数值处于[0,1]之间。因为似然函数值取自然对数后在数学处理上更为方便,而且似然函数值是个极小的小数,其对数值是个负数,所以通常对似然函数值先取自然对数再乘以-2以后应用。SPSS中就是报告这一指标,标志为“-2对数似然值(可缩写为-2LL)”。报告值越大,意味着回归方程的似然值越小,标志模型的拟合程度越差。报告值越小,意味着回归方程的似然值越接近1,标志模型的拟合程度越好。在模型完全拟合观察值的情况下,有似然值等于1,那么似然值的对数等于0。越接近0,模型拟合效果越好。在评价或检验一个含有自变量的Logistic回归模型时,通常是将其与截距模型相比较。所谓截距模型,就是将所有自变量删除后只剩一个截距系数的模型(logitp=a)。具体操作方法是:①定义截距模型为L0,作为参照模型;②定义假设模型为Lx;③计算比率—似然比(Likelihood-Ratio)xLLLR0④检验两者之比是否显著区别于1。当似然比等于1时,意味着这些自变量完全没有解释效果,而似然比显著小于1时则说明这些自变量对于因变量变化的解释有显著的贡献。以截距模型作为标准,比较在加入其他自变量后新的模型与数据的拟合水平是否有显著提高。为在统计上检验显著性,需要知道似然比的抽样分布。然而我们不知道似然比服从什么分布。但是可以证明似然比的一个函数近似地服从于卡方分布,即:)(~ln220pLLx如果在SPSS中进行Logistic回归时定义了自变量,那么回归报告便会自动给出上面这两项计算值。常用的三种卡方统计量分别为:模型、块、步骤。①“模型”统计量:检验除常数项以外,模型中所有变量系数为零的假设。②“块”卡方统计量为当前-2LL值与后一组变量进入后的-2LL值之差。如果选择了多组变量,那么“块”卡方值用来对最后一组变量为0的零假设进行检验。③“步骤”卡方值是当前与下一步-2LL之间的差值。用来对最后一个加入模型的变量系数为0的零假设进行检验。当前模型的-2LL与模型中只包括常数项的-2LL之差。⑵回归系数的检验SPSS软件在执行Logistic回归时除报告回归系数βi的估计值以外,还自动报告关于其统计检验量。Wald统计量是用来检验偏回归系数显著程度的,它是偏回归系数与自由度的函数,服从于卡方分布。其计算公式为:Wald检验值越大表明该自变量的作用越显著。同一行的Sig就是Wald检验的显著度性概率。)1(~..222iSESBWaldiWald统计量的弱点是当回归系数的绝对值变大时,其标准误将发生更大的改变,Wald值就会变得很小,导致拒绝回归系数的0假设失败,即认为变量的回归系数为0。SPSS软件没有给出Logistic回归的标准化系数,如果要考虑自变量的重要性,不妨直接比较Wald统计量,Wald值大者显著性高,也就更重要。6、Logistic回归的参数设置依次单击SPSS软件“分析→回归→二元Logistic”命令,进入Logistic回归对话框如下:5、逐步回归中的变量筛选Logistic逐步回归的变量筛选过程与现行逐步回归过程极为相似,但不再是F统计量,而是似然比统计量和Wald统计量例如使用似然比统计量作为变量的筛选标准,在进行到第l步时,通过比较含有Xj和不含Xj的模型,决定Xj是否引入模型。)ln(ln2)(1)(1llLLG②协变量:用于从变量列表中选入协变量。③选择变量:用于选入一个对样本筛选变量,只有满足条件的观测记录才会进入回归方程。④方法:用于指定协变量进入回归模型的方法。SPSS给出了7种可选方案:进入:强迫进入法,协变量全部进入模型。向前:条件—向前逐步法(条件似然比),变量引入的根据是得分统计量的显著性水平,变量被剔除的依据是条件参数估计所得的似然比统计量的概率值。向前:LR—向前逐步法(似然比),变量引入的根据是得分统计量的显著性水平;变量被剔除的依据是最大偏似然估计所得的似然比统计量的概率值。向前:Wald—向前逐步法(Wald法),变量引入的根据是得分统计量的显著性水平;变量被剔除的依据是Wald统计量概率值。向后:条件—向后前逐步法(条件似然比),将变量剔除的依据是条件参数估计所得的似然比统计量的概率值。⑴变量设置①因变量:用于从变量列表中选择一个二分量作为因变量向后:LR—向后前逐步法(似然比),将变量剔除的依据是最大偏似然估计所得的似然是统计量的概率值。B向后:Wald—向后逐步法(Wald法),将变量剔除的依据是Wald统计量的概率值。⑵对分类变量设置单击“分类”按钮,弹出对话框如下所示:①协变量:显示当前可用的协变量。②分类协变量:显示当前选择的分类变量。③更改对比:用于选择分类协变量各水平的对照方式。⑶保存的设置单击“保存”按钮,弹出对话框如下所示:①预测值:保存模型预测值。概率—事件发生的预测概率;组成员—根据预测概率得到的每个观测的预测分类。③残差②影响:保存对单个观测记录进行预测时的有影响力指标。Cook距离:表示把一个个案从计算回归系数的样本中去除时所引起的残差变化的大小,Cook距离越大,表明该个案对回归系数的影响越大。杠杆值:用来衡量单个观测对效果的影响程度,取值范围在0—n/(n-1),取0时表示当前记录对模型的拟合无影响。DfBeta(s),剔除一个个案后回归系数的改变。未标准化残差,观测值与预测值之差。Logit,残差除以“预测概率×(1-预测概率)”。学生化残差,用残差除以残差标准差的估计值。标准化残差,其均值为0,标准差为1。偏差,基于模型变异的残差。⑶选项的设置单击“选项”按钮,弹出对话框如下所示:【例8.1】在Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为LOW。值为1:低出生体重,即婴儿出生体重2500克;值为0:非低出生体重),希望筛选出低出生体重儿的影响因素,考虑产妇妊娠前体重(lwt)、产妇年龄(age)、产妇在妊娠期间是否吸烟(smoke)、种族等。数据文件为“例8.1”。如果考察产妇是否吸烟为低出生体重儿关系,则四格表为:31.2%18959130合计40.5%743044吸烟(1)25.2%1152986不吸烟(0)低出生体重(1)正常(0)低出生率合计低出生体重儿产妇在妊娠期间是否吸烟该资料如果拟合Logistic回归模型,则结果为:块0:起始块块1:方法=输入smokePLogit704.0087.1(低体重儿)⑴常数项:表示自变量全为0(称基线状态)时,比数(Y=1与Y=0的概率之比)的自然对数,本例为:087.18629ln1158611529ln0即不吸烟的低体重儿概率和正常儿概率之比的自然对数。⑵自变量的回归系数:β表示自变量每改变一个单位,优势比的自然对数值该变量,本例为:【例8.2】在一次关于公共交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班”。因变量y=1表示主要乘坐公共汽车上下班,y=0表示主要骑自行车上下班。自变量x1是年龄,作为连续型变量;x2是月收入(元);x3是性别,x3=1表示男性,x3=0表示女性。调查对象为工薪族群体,数据见下表。试建立y与自变量间的Logistic回归。704.086294430ln1而exp(β)即优势比,自变量每变化一个单位,阳性结果出现概率与不出现概率的比值是变化前的相应比值的倍数。本例为:即不吸烟的低体重儿概率和正常儿概率之比的自然对数。02.2)704.0exp(表示吸烟状况每增加一个单位,即从不吸烟改为吸烟时,吸烟组的比值相对于不吸烟组的比值的倍数。由此可以得出结论,在妊娠期间抽烟(smoke=1)的孕妇会比不吸烟的女性更容易分娩出低出生体重儿。⑴依次单击“分析→回归→二元Logistic”命令,进入Logistic回归对话框如下所示:利用SPSS软件进行估计的步骤如下:⑵将x1、x2、x3送入“协变量”中;⑶点击[保存],做如下选择:⑷点击[选项],做如
本文标题:第8章:Logistic回归分析
链接地址:https://www.777doc.com/doc-4987618 .html