逻辑回归分析-PPT课件

1、SPSS16实用教程逻辑回归分析在前面学到的回归模型中，我们处理的因变量都是数值型区间变量，建立的模型描述的是因变量的期望与自变量之间的线性关系。线性回归模型：然而，在许多实际问题中，我们需要研究的响应变量不是区间变量而是顺序变量或名义变量这样的属性变量。)1.(....................ˆˆˆˆ(Y)Eˆ22110kkXXX7.8逻辑回归分析7.8.1统计学上的定义和计算公式比如在致癌因素的研究中，我们收集了若干人的健康记录，包括年龄、性别、抽烟史、日常饮食以及家庭病史等变量的数据。响应变量在这里是一个两点（0-1）分布变量，Y=1（一个人得了癌症），Y=0（没得癌症）。如果我们按照（1）建立一般线性模型：)1.(....................ˆˆˆˆ(Y)Eˆ22110kkXXX因为Y只能取0或1，而的取值是连续的。显然不能用来预测因变量Y。我们注意到，对于0-1型变量，E(Y)=P(Y=1)=p因而，我们似乎可以用来预测Y=1的概率，即：(Y)Eˆ(Y)Eˆ(Y)Eˆ)2....(..........p22110。

2、kkXXX问题1.Y=1的概率与自变量之间的关系到底是不是线性的？（答案是否定的）例如：我们分析一个人是否买车与其年收入的关系。对于年薪5000元、5万元、50万元三个人，让他们的年薪分别增加5000元对于其买车的可能性影响是不一样的。概率与自变量之间的关系图形往往是一个S型曲线概率与自变量之间的关系曲线问题2.概率的取值应该在0~1之间。但是（2）式的概率线性模型并不能满足这一点。我们可以通过对P进行一种变换（logit变换）logit(p)=ln(p/(1-p))使得logit(p)与自变量之间存在线性相关的关系。)3.......()(logit1ln22110kkXXXppp)](exp[11)exp(1)exp(ˆ110110110kkkkkkXXXXXXp模型的建立与解释同时，经过变换得到的模型也解决了（2）中，概率的预测值可能是[0,1]之外的数的缺陷。（3）式建立的模型，我们称为logistic模型（逻辑回归模型）。我们在学习交叉列联表的相关知识的时候，提到过优势或发生。

3、比（odds）和优势比或发生比率（oddsratio）的概念是事件发生于不发生的概率之比那么逻辑模型就可以写成ppodds1kkXXXpodds22110)(logitln）（那么Xi增加一个单位ln(odds|xi+1)=ln(odds|xi)+βi于是上式我们叫做优势比（oddsratio）近似可看成是在Xi+1与Xi两种情况下，事件发生的概率之比。则，P{Y=1|Xi+1}≈P{Y=1|Xi}exp{βi}iexoddsxoddsii|1|最终，我们可能关心的是根据自变量的值来对Y的取值0或1进行预测。而我们的逻辑回归模型得到的只是关于P{Y=1|x}的预测。但是，我们可以根据模型给出的Y=1的概率（可能性）的大小来判断预测Y的取值。一般，以0.5为界限，预测p大于0.5时，我们判断此时Y更可能为1，否则认为Y=0。对于逻辑模型模型系数的估计不能适用最小二乘估计（OLS）。这里，我可以运用最大似然估计（MLE）的方法。OLS通过使得样本观测数据的残差平方和最小来选择参数，而MLE通过最大化对数似然值来估计参数。kkXXX。

4、pp221101ln模型系数的确定设y是0-1型变量，是与y相关的自变量，n组观测数据为。于是y1,y2,…,yn的似然函数为对数似然函数为最大似然估计就是选取的估计值使得log似然函数最大化。kxxx,21,ni,2,1iikiiyxxx;,,21niniyiyiiiiL111]p1[)(pyPxxnixxxikkiiiikkiiexxxyL122110)]1ln()([ln22110k,,,,210kˆ,,ˆ,ˆ,ˆ210模型检验以下是关于模型拟合优度的度量以及模型参数检验的分析与任何概率一样，似然的取值范围在[0,1]之间。−2LL的计算公式为其报告值越小说明似然函数值越大从而模型拟合程度越好两个模型之间显著性似然比检验统计量的形式为-2log(L0/L1)=-2LL0-(-2LL1)（自由度为参数个数之差的卡方分布）L1是更大参数空间上的模型的似然函数。1．-2对数似然值（-2loglikelihood，-2LL）nixxikkiiikkie。

5、xxyL1110)]1ln()([2ln2LL2110Logistic回归的拟合优度统计量计算公式为Pearson残差平方和，在原假设（所建立的模型与饱和模型没有显著性差异）下也服从自由度为两个模型参数之差的卡方分布2．拟合优度（GoodnessofFit）统计量Predicted（预测值）01PercentCorrect（正确分类比例）Observed（观测值）0n00n01f01n10n11f1Overall（总计）ffClassificationTableforY在实际问题中，通常采用如下分类表（ClassificationTable）反映拟合效果。3．Cox和Snell的R2（Cox&Snell’sR-Square）4．Nagelkerke的R2（Nagelkerke’sR-Square）5．伪R2（Psedo-R-square）伪R2与线性回归模型的R2相对应，其意义相似，但它小于1。6．Hosmer和Lemeshow的拟合优度检验统计量与一般拟合优度检验不同，Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组，然后根据观测频数和。

6、期望频数构造卡方统计量（即Hosmer和Lemeshow的拟合优度检验统计量，简称H-L拟合优度检验统计量），最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。如果该p值小于给定的显著性水平（如=0.05），则拒绝因变量的观测值与模型预测值不存在差异的零假设，表明模型的预测值与观测值存在显著差异。如果值大于，我们没有充分的理由拒绝零假设，表明在可接受的水平上模型的估计拟合了数据。7．Wald统计量（回归系数的非零检验）Wald统计量用于判断一个变量是否应该包含在模型中，其检验步骤如下。（1）提出假设。（2）构造Wald统计量。（3）作出统计判断。研究问题在一次关于某城镇居民上下班使用交通工具的社会调查中，因变量y=1表示居民主要乘坐公共汽车上下班；y=0表示主要骑自行车上下班；自变量x1表示被调查者的年龄；x2表示被调查者的月收入；x3表示被调查者的性别（x3=1为男性，x3=0为女性）x3在这里是一个虚拟变量。试建立y与自变量间的Logistic回归，数据如表7-7所示。7.8.2SPSS中实现过程表7-7使用交通工具上下班情况序号x1（年龄）x2（月收入：元）。

7、x3（性别）y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011实现步骤图7-24“LogisticRegression”对话框将因变量放入dependent栏，自变量放入covariates栏中制定变量引入模型的方法和线性回归一样，我们可以通过next按钮把自变量分成不同的组块，使不同的组块按顺序以不同的方式分步进入模型这里，我们可以把几个变量的乘积作为自变量引入模型作为交互影响项如果自变量中有分类变量，在这里可以设置相应的虚拟变量图7-25“LogisticRegression：Options”对话框Class。

8、ificationplots:制作分类图，通过比较因变量的观测值与预测值的关系，反映回归模型的拟合效果。Hosmer-Lemeshowgoodness-of-fit:H-L检验。Casewiselistingofresiduals:显示个案的残差值（显示标准化残差超过两倍标准方差的个案或显示所有个案）Correlationsofestimates:输出模型中各参数估计的相关矩阵。Iterationhistory:输出最大似然估计迭代过程中的系数以及log似然值。CIforexp(B):输出exp(beta)的置信区间，默认置信度为95%根据概率对数据进行分类时的概率界限值，默认值为0.5参数估计时，似然函数值收敛到最大值前的最大迭代次数。选择输出结果的方式。显示每一步的计算结果或是只显示最后的结果设定自变量进入模型方程或被剔除出方程的标准。在save选项中，我们可以选择需要保存的数据文件中的统计量。包括残差值、个案影响度统计量、预测概率值等等（1）第一部分输出结果有两个表格，第一个表格说明所有个案（28个）都被选入作为回归分析的个案。7.8.3结果和讨论第二个表格说明初始的因变量值（0。

9、，1）已经转换为逻辑回归分析中常用的0、1数值。（2）第二部分（Block0）输出结果有4个表格。（组块0里只有常数项，没有自变量）分类表（3）OmnibusTestsofModelCoefficients表格列出了模型系数的OmnibusTests结果。（4）ModelSummary表给出了-2对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。（5）HosmerandLemeshowTestP值大于0.05，说明模型有一定的解释能力（6）ClassificationTable分类表说明第一次迭代结果的拟合效果，从该表格可以看出对于y=0，有86.7%的准确性；对于y=1，有76.9%准确性，因此对于所有个案总共有82.1%的准确性。（7）VariablesintheEquation表格列出了Step1中各个变量对应的系数，以及该变量对应的Wald统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小，Wald统计量最大，可见该变量在模型中很重要。回归系数的估计值系数的wald检验Exp(beta)的估计值以及区间估计（8）CorrelationM。

10、atrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大，x1和x3之间的相关性最小。（9）图7-26所示是观测值和预测概率分布图。该图以0和1为符号，每四个符号代表一个个案。横坐标是个案属于1的录属度，这里称为预测概率（PredictedProbability）。纵坐标是个案分布频数，反映个案的分布。（10）逻辑回归的最后一个输出表格是CasewiseList，列出了残差大于2的个案。1.根据三个财务比率估计公司破产概率。（数据见ftp财务比率与破产预测.sav）Y=0，若两年后破产Y=1，若两年后仍有偿付能力X1=未分配利润/总资产X2=支付利息税金前的利润/总资产X3=销售额/总资产按照习题模式，列出最终计算结果，并做出必要解释。（Logistic模型最终表达式模型检验、拟合优度Wald检验最终分类表、观测与预测分布图系数相关矩阵）作业（共两题）2.对于1986年挑战者号航天飞机灾难之前的23次航天飞行，数据航天飞机热遇险.sav给出了飞行时温度和是否至少有一个主要O型圈遭受热遇险。（数据见ftp）a)利用logistic回归建立温度对热遇险概率的模。