您好,欢迎访问三七文档
逻辑回归分析7.8.1统计学上的定义和计算公式7.8逻辑回归分析定义:逻辑回归分析是对定性变量的回归分析。可用于处理定性因变量的统计分析方法有:判别分析(Discriminantanalysis)、Probit分析、Logistic回归分析和对数线性模型等。在社会科学中,应用最多的是Logistic回归分析。Logistic回归分析根据因变量取值类别不同,又可以分为BinaryLogistic回归分析和Multinomi-nalLogistic回归分析。BinaryLogistic回归模型中因变量只能取两个值1和0(虚拟因变量),而MultinomialLogistic回归模型中因变量可以取多个值。本节将只讨论BinaryLogistic回归,并简称Logistic回归(与7.5节曲线估计中介绍的Logistic曲线模型相区别)。Logistic函数的形式为与任何概率一样,似然的取值范围在[0,1]之间。−2LL的计算公式为1.-2对数似然值(-2loglikelihood,-2LL)Logistic回归的拟合优度统计量计算公式为在实际问题中,通常采用如下分类表(ClassificationTable)反映拟合效果。2.拟合优度(GoodnessofFit)统计量Predicted(预测值)01PercentCorrect(正确分类比例)Observed(观测值)0n00n01f01n10n11f1Overall(总计)ffClassificationTableforY3.Cox和Snell的R2(Cox&Snell’sR-Square)4.Nagelkerke的R2(Nagelkerke’sR-Square)5.伪R2(Psedo-R-square)伪R2与线性回归模型的R2相对应,其意义相似,但它小于1。6.Hosmer和Lemeshow的拟合优度检验统计量(HosmerandLemeshow'sGoodnessofFitTestStatistic)与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H-L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。如果该p值小于给定的显著性水平(如=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。7.Wald统计量Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。(1)提出假设。(2)构造Wald统计量。(3)作出统计判断。研究问题在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y=1表示居民主要乘坐公共汽车上下班;y=0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)。试建立y与自变量间的Logistic回归,数据如表7-7所示。7.8.2SPSS中实现过程表7-7使用交通工具上下班情况序号x1(年龄)x2(月收入:元)x3(性别)y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011实现步骤图7-24“LogisticRegression”对话框图7-25“LogisticRegression:Options”对话框(1)第一部分输出结果有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。7.8.3结果和讨论第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。(2)第二部分(Block0)输出结果有4个表格。(3)OmnibusTestsofModelCoefficients表格列出了模型系数的OmnibusTests结果。(4)ModelSummary表给出了-2对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。(5)HosmerandLemeshowTest表格以及ContingencyTableforHosmerandLemeshowTest表格给出了Hosmer和Lemeshow的拟合优度检验统计量。(6)ClassificationTable分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。(7)VariablesintheEquation表格列出了Step1中各个变量对应的系数,以及该变量对应的Wald统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要。(8)CorrelationMatrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小。(9)图7-26所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的录属度,这里称为预测概率(PredictedProbability)。纵坐标是个案分布频数,反映个案的分布。(10)逻辑回归的最后一个输出表格是CasewiseList,列出了残差大于2的个案。
本文标题:逻辑回归分析
链接地址:https://www.777doc.com/doc-4939013 .html