您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > logistic回归
定性资料的回归分析------Logistic回归Logistic模型的主要用途:1.用作影响因素分析2.作为判别分析方法第一节二分类变量的logistic回归逻辑回归区别于线性回归,最主要的特点就一个:它的因变量是0-1型数据。啥是0-1型数据?就是这个数据有且仅有两个可能的取值。数学上为了方便,把其中一个记作0,另外一个记作1.例1:购买决定:我是买呢?还是买呢?还是买呢?如果您的决策永远是:买、买、买,这不是0-1数据。我们说的购买决策是:买还是不买?定义:1=购买,0=不购买。这个关于购买决定的0-1变量老牛了。为啥?因为它支撑了太多的重要应用。例如,我生产了一瓶矿泉水,叫做“农妇山泉有点咸”,到底卖给谁呢?为此,我们需要做市场定位。什么是市场定位?市场定位从回归分析的角度看,就是想知道:谁会买这个产品?谁不会买?或者说:谁购买这个产品的可能性大,谁购买的可能性小。这样我们就可以瞄准可能性最高的一批人,他们就构成了我的目标市场。这就是我们通常所说的市场定位。令Y表示购买决定,那么影响它的因素有很多。比如,消费者自己的人口特征1X、消费者过去的购买记录是2X、来自社交网络朋友的行为信息3X、产品自己的特征4X、产品正在承受的市场手段策略(例如:促销)5X、竞争对手的市场动作6X等等。一.模型建立理论回归模型:01122ln...,1pppxxxp其中1(1,...,)pppyxx。注:1pp称为优势(odds),表示某个事件的相对危险度.获得容量为n的样本12,,,,1,...,iiipixxxyin后可得样本回归模型:01122ln,1iiipipipxxxp其中1(1,...,)iipppyxx,1,...,in。补充说明(1)逻辑回归模型的整个生成过程是以构造性的思想为主,而不是因为:上帝他老人家生成数据的真实机制是这样的,没有那么巧的事。(2)逻辑回归构造的核心思想是通过逻辑变换把0-1之间的概率变换为正负无穷之间的一个数字。给定一组数据,如果赶巧了,他能够被逻辑回归模型很好的拟合,那么相应的估计精度和预测精度都会很优秀。但是,绝大多数情况下,拟合效果跟上帝比,差得远,跟拍脑袋比,好很多。所以,这就成就了逻辑回归,作为一种最常见的0-1回归分析方法的重要地位。(3)通过逻辑回归模型,我们可以对一个样本Y取值为1的概率予以测算,然后根据测算的概率预测它的最终取值应该是0还是1.(4)关于自变量类型自变量的常见类型:连续型变量、二水平的分类变量、多水平的分类变量、等级变量。多水平的分类变量:例如个体的血型、民族、职业、工种等等如何处理?产生哑变量,所谓哑变量就是一组取值1和0的二值分类变量,用来表示一个分类变量。例1为了了解冠心病与种族的关系,某研究所调查了100个个体,数据如下表。试估计各种族间患冠心病的相对危险度。(logistic3)冠心病黑人白人其他种族1020105202520等级变量:如文化程度如何处理?一般以最小等级或最大等级为参考组,并按等级顺序依次取为0,1,2...例如对于变量年龄,令25-34=0;35-44=1;45-54=2;55-64=3;65-74=4;75+=5(5)关于因变量类型及模型两类结果:二值logistic回归(BinaryLogisticRegression)无序多分类:多类结果的logistic回归(MultinomialLogisticRegression)例:毕业去向---工作、读研、出国留学、待业有序多分类:有序结果的累积优势logistic回归、有序结果的相邻优势logistic回归。(OrdinalLogisticRegression)例:疾病严重程度---无、轻、中、重智商----弱智、正常、超常二.参数估计1.极大似然估计或者加权最小二乘估计2.系数解释从数学上来讲,与多重线形回归模型中系数的解释并无不同,即i表示ix改变一个单位时ln1pp的改变量。在实际中此改变量表示什么含义?请看例2。例2本例是探讨妇女使用雌激素与患子宫内膜癌的研究资料。使用未使用患病未患病5512819164资料的计算机输入格式结果变量(因变量)Y暴露因素x(自变量)频数115501191012800164模型:011ln,1pxp回归常数的意义:当0x时,00(10)(10)ln=1(10)1(10)pyxpyxepyxpyx0e表示非暴露下的发病率与未发病率之比.若(10)pyx较小,0(10)epyx,近似表示非暴露下的发病率。回归系数的意义:由于自变量只取两个值,改变一个单位几位从0变到1.1(11)(10)lnln1(11)1(10)pyxpyxpyxpyx即11(11)1(11)(11)1(11)ln=(10)1(10)(10)1(10)pyxpyxpyxpyxepyxpyxpyxpyx(优势比)Logistic回归结果变量估计系数标准误差SEzPOR95%CIx1.31070.29114.5030.0003.70892.0964—6.5615常数项-0.24780.1179-2.1010.036三、模型的检验与修改模型的拟合优度检验:似然比检验、Hosmer-Lemeshow检验对各变量显著性的检验:似然比检验(likelihoodratiotest)、Wald检验、比分检验(scoretest)四、Spss实现:以例2为例例2本例是探讨妇女使用雌激素与患子宫内膜癌的研究资料。使用未使用患病未患病5612819164(1)录入数据点击variableview定义变量名;点击dataview输入数据(按行输入一条数据一行);点击file-save或saveas保存数据(2)分析Analyze--Regression----BinaryLogistic主对话框界面说明:Dependent框:用于选入二分类的应变量,只能选入一个。Block按钮组:由previous和next两个按钮组成,用于将下面的covariates框中选入的自变量分组。Covariates框:用于选入自变量,左侧的a*b钮用于选入交互作用项。Method框:用于选择变量进入方法,有进入法、逐步法和后退法三大类。其中Enter:进入法,所有变量一次全部进入方程。Forward:逐步向前法Backward:后退法Categorial子对话框界面说明:如果自变量为多分类变量(血型),那么就需要产生哑变量,如果变量分为k类,则系统自动产生k-1个哑变量,Categorial子对话框就是用于设置各哑变量的取值方式的。Covariates框:列出所有数值型自变量,他们均可被指定为分类变量。Categoricalcovariates框:用于选入分类变量Changecontrast框组:设置每个变量的哑变量组中的具体取值和对照组。Contrast下拉列表用于选择哑变量取值情况,默认indicator,referencecategory单选框组用于设置第一水平或最后一个水平为对照。若以最后一分类为对照,当分类变量取1(黑人)时,哑变量赋值10;当分类变量取2(白人)时,哑变量赋值01;当分类变量取3(其他种族)时,哑变量赋值00。Save子对话框界面说明:将中间结果保存下来供分析。共有预测值、影响强度因子和残差三大类。Predicted框:将预测结果作为新变量保存到数据窗口。其中probabilities:预测概率值;Groupmembership:根据预测概率值判定所属类别。Influnence复选框组:反映影响强度的变量,共有三个。Residuals复选框组:保存各种残差值。Options子对话框界面说明:略(3)结果分析数据处理情况汇总,包括多少记录纳入分析,多少例缺失。CaseProcessingSummaryUnweightedCasesaNPercentSelectedCasesIncludedinAnalysis366100.0MissingCases0.0Total366100.0UnselectedCases0.0Total366100.0a.Ifweightisineffect,seeclassificationtableforthetotalnumberofcases.应变量赋值情况,默认以)1(YP建立模型。DependentVariableEncodingOriginalValueInternalValue不患病0患病1现在开始进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项的模型。第一张表(Block0:BeginningBlock)输出预测分类结果,可见当模型中不含任何自变量时,所有观察对象皆被预测为不患病,总的预测准确率为50.3%。Block0:BeginningBlockClassificationTablea,bObservedPredictedyPercentageCorrect不患病患病Step0y不患病1840100.0患病1820.0OverallPercentage50.3a.Constantisincludedinthemodel.b.Thecutvalueis.500第二张表(VariablesintheEquation)给出的是模型中各参数的检验结果,此处只有常数项,系数为-0.011,由于是常数项,有无统计学意义关系不大。VariablesintheEquationBS.E.WalddfSig.Exp(B)Step0Constant-.011.105.0111.917.989第三张表(VariablesnotintheEquation)的输出结果反映的是如果将现有模型外的各个变量纳入模型,则整个模型的拟合优度改变是否有统计学意义。结果显示若将x引入,则模型改变有统计意义(score=21.443,P0.05)。VariablesnotintheEquationScoredfSig.Step0Variablesx21.4431.000OverallStatistics21.4431.000Block1开始输出模型中引入自变量后的结果。Method=enter说明在该block中自变量筛选的方法采用默认的enter法,即强迫所有自变量同时进入模型。Ominous指的是模型总的全局检验,为似然比检验,共给出三个结果:step统计量为每一步与前一步相比的似然比结果;block统计量是指若将block1与block0相比的似然比结果;model统计量则是上一个模型与现在方程中变量有变化后模型的似然比检验结果。本例由于选择了默认的enter法,三个统计量及检验结果完全一致。结果表明变量有统计学意义。Block1:Method=EnterOmnibusTestsofModelCoefficientsChi-squaredfSig.Step1Step22.1651.000Block22.1651.000Model22.1651.000下表为模型汇总情况简报,可用于统计推断及拟合优度检验。ModelSummaryStep-2LoglikelihoodCox&SnellRSquareNagelkerkeRSquare1485.208a.059.078a.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.下表为现在模型对应变量的分类预测情况,可以看出预测准确率由50.3%上升到59.8%,说明自变量的引入对改善模型预测效果的确有意义但是不能用于对新病例进行结局预测。ClassificationTableaObservedPredictedyPercentageCorrect不患病患病Step1y不患病1651989.7患病1285429.7Overal
本文标题:logistic回归
链接地址:https://www.777doc.com/doc-7273761 .html