您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 二元Logistic回归
Logistic回归2一、概述多元线性回归中,因变量y要求是常规数据(定距尺度),而非定性数据。当因变量y为定性数据,并且只有两种状态时,多元线性回归模型不再适用。此时采用(二元)Logistic回归模型3概括:Logistic模型用于因变量y只取0和1两个值情况下的回归模型。4xppLn)1(变形后得:p1)(11xepLogit模型:p表示Y=1的概率5一般地,总体回归线形式:nnxxxppLn2211)1(6Logistic回归中的回归系数(βi)表示,某一因素改变一个单位时,事件发生与不发生的概率之比的对数变化值。如果p表示Y=1的概率,则称:Ln[p/(1-p)]为Logitp参数意义7回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即βi表示xi改变一个单位时,logitp的平均变化量。8Logistic回归模型的两种应用1.用于检验“因果关系假设”与多元回归类似,只是因变量为二值。2.用于预测两分类预测9例1:企业商业信誉影响因素根据有关理论,我们提出如下假设:假设1:企业商业信誉与其盈利能力正相关假设2:企业商业信誉与其负债率负相关变量选取:因变量y,1为信誉好,0为信誉坏自变量X1至x6定义如下X1——盈利能力(净资产收益率)X2——资产负债率X3——流动比率X4——应收账款周转率X5——总资产周转率X6——总资产对数(其中X3至X6为控制变量)10数据文件:Logistic回归该文件中有300个企业信誉状况数据111213输出结果查看注意:输出结果中有两部分:Block0和Block1主要看Block1部分。14模型整体显著性检验OmnibusTestsofModelCoefficients50.8566.00050.8566.00050.8566.000StepBlockModelStep1Chi-squaredfSig.模型整体检验是显著的。15ModelSummary292.375a.156.229Step1-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquareEstimationterminatedatiterationnumber6becauseparameterestimateschangedbylessthan.001.a.两类R2与线性回归中的R2的作用大致相同。16)(66554433221111xxxxxxep将回归系数输出结果带入下述公式17根据下表,可写出经验回归方程:(此处保留一位小数)其中p表示“企业信誉好的概率”)5.0005.0004.06.16.27.144.10(65432111xxxxxxepVariablesintheEquation14.6743.58816.7231.0002358906-2.6131.3683.6511.056.073.158.218.5281.4681.172.004.0041.2121.2711.004-.005.379.0001.988.995.538.2405.0151.0251.712-10.3974.9264.4551.035.000x1x2x3x4x5x6ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)enteredonstep1:x1,x2,x3,x4,x5,x6.a.18VariablesintheEquation14.6743.58816.7231.0002358906-2.6131.3683.6511.056.073.158.218.5281.4681.172.004.0041.2121.2711.004-.005.379.0001.988.995.538.2405.0151.0251.712-10.3974.9264.4551.035.000x1x2x3x4x5x6ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)enteredonstep1:x1,x2,x3,x4,x5,x6.a.各自变量回归系数显著性检验。用于各自变量回归系数的解释。例如,x3每增加1,则“p/(1-p)”将是原来的1.172倍。19VariablesintheEquation14.6743.58816.7231.0002358906-2.6131.3683.6511.056.073.158.218.5281.4681.172.004.0041.2121.2711.004-.005.379.0001.988.995.538.2405.0151.0251.712-10.3974.9264.4551.035.000x1x2x3x4x5x6ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)enteredonstep1:x1,x2,x3,x4,x5,x6.a.假设检验:H0:x1的系数等于零H1:x1的系数不等于零该检验的p-值低于1%,因而应接受H1。又因为x1的系数估计值为14.67,大于零,因此企业属于信誉好的概率与盈利能力(净资产收益率)正相关。于是验证了假设1。20VariablesintheEquation14.6743.58816.7231.0002358906-2.6131.3683.6511.056.073.158.218.5281.4681.172.004.0041.2121.2711.004-.005.379.0001.988.995.538.2405.0151.0251.712-10.3974.9264.4551.035.000x1x2x3x4x5x6ConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s)enteredonstep1:x1,x2,x3,x4,x5,x6.a.假设检验:H0:x2的系数等于零H1:x2的系数不等于零该检验的p-值低于10%,因而应接受H1。又因为x2的系数估计值为-2.613,小于零,因此企业属于信誉好的概率与负债率负相关。于是验证了假设2。21例2:企业商业信誉预测模型构建问题背景:企业要作出是否对客户提供商业信用(即允许延期付款)的决策,需要对客户的信誉进行评判。我们使用以下变量建立预测模型:X1——净资产收益率X2——资产负债率X3——流动比率X4——应收账款周转率X5——总资产周转率X6——总资产对数22与多元线性回归类似,Logistic回归也有变量自动筛选功能。作用:将预测能力强的变量纳入模型中,将预测能力差或重复的变量剔除,从而可使用较少的变量进行预测,并保证较好的预测效果。23使用上例数据。具体操作方法如下:24点击此处本例选择该项(也可选其它任何一项)25输出结果:只看Block1部分。主要关心最终模型结果。最终模型预测总正确率为77.6%ClassificationTablea87010.3221999.175.9106812.8421798.275.9176121.8621597.377.6Observed信誉坏信誉好企业信誉OverallPercentage信誉坏信誉好企业信誉OverallPercentage信誉坏信誉好企业信誉OverallPercentageStep1Step2Step3信誉坏信誉好企业信誉PercentageCorrectPredictedThecutvalueis.500a.26最终模型中包含变量X1、x2和x6新公式:VariablesintheEquation15.5213.44320.3191.0005504336.167.235.5051.4771.18216.0543.51020.9151.0009376455-2.343.9456.1521.013.0961.112.4536.0321.0143.04215.3183.52118.9251.0004492442-3.1821.0439.3011.002.042.551.2385.3621.0211.735-10.1194.8634.3311.037.000x1ConstantStep1ax1x2ConstantStep2bx1x2x6ConstantStep3cBS.E.WalddfSig.Exp(B)Variable(s)enteredonstep1:x1.a.Variable(s)enteredonstep2:x2.b.Variable(s)enteredonstep3:x6.c.)55.02.33.151.10(62111xxxep27该公式给出了企业信誉的具体预测方法:对于一个新客户(信誉状况未知),将其x1x2和x6指标值带入上述计算公式,可计算出该客户信誉好的概率。如果该概率大于0.5,可预测该客户属于“信誉好”客户。如果该概率值越接近1,其属于“信誉好”的客户的可能性就越大。)55.02.33.151.10(62111xxxep28类似地,如果该概率小于0.5,可预测该客户属于“信誉坏”客户。如果该概率值越接近0,其属于“信誉坏”的客户的可能性就越大。注:上述分割点0.5也可根据需要调整,例如改为0.7。293031ClassificationTablea492962.84118081.476.6463259.04817378.373.2512765.45316876.073.2Observed信誉坏信誉好企业信誉OverallPercentage信誉坏信誉好企业信誉OverallPercentage信誉坏信誉好企业信誉OverallPercentageStep1Step2Step3信誉坏信誉好企业信誉PercentageCorrectPredictedThecutvalueis.700a.32补充:自变量允许为分类变量(虚拟变量)33结束
本文标题:二元Logistic回归
链接地址:https://www.777doc.com/doc-2736179 .html