您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 第9章 定性数据的建模分析(含SPSS)
第九章定性数据的建模分析本章内容第一节解释变量中含有定性变量的回归模型第二节二项Logistic回归模型第三节判别分析第一节解释变量中含有定性变量的回归模型在回归分析中,我们对一些解释变量是定性变量的情形先给予数理化,处理方法是引进只取0和1两个值的虚拟变量。当某一属性出现时,虚拟变量取值为1,否则为0。(一)简单情况简单情况是指定性变量只取两类可能性的情况。例如研究企业资本结构问题,为企业资本结构,为企业规模。另外再考虑审计意见两种情况:企业资本结构的回归模型为:(9.1),标准无保留审计意见,非标准的审计意见01iiDDiiDxy2110yx(二)复杂情况复杂情况是指定定性变量可能取多类值的情况。假设以采掘业、建筑业、房地产业和社会服务业4个行业的上市公司为例,研究企业资本结构问题,其中为企业资本结构,为企业规模,为审计意见,另外再考虑行业差异。为了用虚拟变量反映这4个行业,我们初步设想引入如下4个0-1型解释变量:yxiD1iD2,其他,采掘业0111DD,其他,建筑业0122DD,其他,房地产业0133DD,其他,社会服务业0144DD可是这样作却产生了一个新的问题,即4个自变量之和恒等于1,构成完全多重共线性。解决这个问题的方法很简单,我们只需去掉一个0-1型变量,只保留3个0-1型解释变量即可。所以,对于具有个分类的变量,当确定了参照系后,只需设置个0-1型解释变量。企业资本结构的回归模型为:(9.2)k1kiiiDDxy2312110第二节二项Logistic回归模型一、二项Logistic回归模型概述(一)二项Logistic回归模型的应用背景在许多会计研究问题中,所研究的被解释变量往往只有“是”或“否”两个可能结果,就需要设置虚拟变量。当被解释变量为虚拟变量时,建立一般的多元线性回归模型就会出现以下问题:(1)残差不再满足且的假设条件。(2)残差不再服从正态分布。(3)被解释变量的取值区间受限制。由此可见,当被解释变量是0-1型变量时,无法直接采用一般的多元线性回归模型建模,通常应采用Logistic回归模型。本章只介绍二项Logistic回归模型。利用Logistic回归可以直接预测观测量相对于某一事件的发生概率在一般的多元回归中,若以概率为被解释变量,则方程为:(9.3)但用该方程计算时,常会出现或的不合理情形。为此需要对作对数单位转换,即,于是可得到Logistic回归方程为:(9.4)其中、为常数和解释变量的系数,为自然数,其曲线为型。kkxxxP...22110kkkkxxxxxxeeP......22110221101P1P0PP)1ln(logPPitP01es某一事件不发生地概率为:Prob(noevent)=1-Prob(event)(9.5)二元Logistic模型对数据要求为:(1)被解释变量应具二分特点。(2)解释变量数据最好为多元正态分布。(三)二项Logistic回归模型中回归系数的含义在应用中人们通常更关心的是解释变量给发生比带来的变化。当Logistic回归模型的回归系数确定后,将其代入的函数,即(9.6)当其他解释变量保持不变而研究变化一个单位对的影响时,可将新的发生比设为,则有:(9.7))exp(0iix)exp()exp(01*iiixix*于是有(9.8)由此可知,当增加一个单位时,将引起发生比扩大倍。一般化则为(9.9)式(9.9)表明,当第个解释变量发生一个单元的变化时,几率的变化值为。解释变量的系数为正值,意味着事件发生的几率会增加,的值大于1;解释变量的系数为负值,意味着事件发生的几率会减少,的值小于1;当为0时,此值等于1。)exp(1*)exp(*iix)exp(iiiexpiexpiexp(四)二项Logistic回归模型的检验1、回归模型的显著性检验Logistic回归模型显著性检验的目的是检验解释变量全体与Logit的线性关系是否显著,是否可以用线性模型拟合。其原假设是:各回归系数同时为0,解释变量全体与Logit的线性关系不显著。(9.10)好的模型的似然比值较高,其值相对较小。似然比值的变化说明当变量进入与被剔除出模型对数据拟合度方面的变化。))log(2()log(2)log(2)log(2LLLLLLiiixxxll2-常用的3种卡方统计量分别为Model、Block、Step。(1)Model统计量检验除常数项以外,模型中所有变量系数为零的假设。(2)Block卡方值为当前值与后一组变量进入模型后的值之差。(3)Step卡方值是在建立模型的过程中,当前与下一步之间的差值。SPSS将自动计算似然比卡方的观测值和相伴概率值。如果相伴概率值小于给定的显著水平,则应拒绝零假设;反之,如果相伴概率值大于给定的显著水平,则不应拒绝零假设。ll2-ll2-ll2-p2、回归系数的显著性检验Logit回归系数显著性检验的目的是逐个检验模型中各解释变量是否与Logit有显著的线性关系,对解释Logit是否有重要贡献。其原假设是,即某回归系数与零无显著差异,相应的解释变量与Logit之间的线性关系不显著。回归系数显著性检验采用的检验统计量是统计量,数学定义为(9.11)式(9.11)中,是回归系数,是回归系数的标准误差。检验统计量服从自由度为1的卡方分布。2)(ISWaldiiiISSPSS将自动计算各解释变量的的观测值和相伴概率值。如果概率值小于给定的显著性水平,则应拒绝零假设,认为某解释变量的回归系数与零有显著差异,该解释变量与Logit之间的线性关系显著,应保留在模型中;反之,如果概率值大于给定的显著性水平,则不应拒绝零假设,可以认为某解释变量的回归系数与零无显著差异,该解释变量与Logit之间的线性关系不显著,不应保留在模型中。3、回归模型的拟合优度检验在Logistic回归分析中,拟合优度可以从两大方面考察。第一,回归模型能够解释被解释变量变差的程度。第二,回归模型计算出的预测值与实际值之间吻合的程度,即模型的总体错判率是低还是高。常用的指标有Cox&Snell统计量、Nagelkerke统计量、错判矩阵、Hosmer-Lemeshow统计量。4、残差分析Logistic回归中可以利用一下残差指标进行残差分析,主要包括:非标准化残差、标准化残差、Logit残差等。二、二项Logistic回归分析在SPSS中的实现1.建立或打开数据文件后,进入Analyze→Regression→BinaryLogistic对话框,如图9-1所示。图9-1Logistic逻辑回归分析主对话框2、选择被解释变量放入Dependent框,选择一个或多个解释变量放入Covariates框。也可以将不同解释变量组放在不同的块(Block)中,进而分析不同解释变量组对解释变量的贡献。3、在Method框后选择解释变量的筛选策略,包括Enter选项、Forward:Conditional选项、Forward:LR选项、Forward:Wald选项、Backward:Conditional选项、Backward:LR选项、Backward:Wald选项。4、SelectionVariable框,根据指定变量的取值范围,选择参与分析的观察量。5、单击Categorical按钮,展开如图9-2对话框,设置处理分类变量的方式。适用于解释变量(协变量)为非定距的品质变量。图9-2定义分类协变量对话框(1)在Covariates框中包含了在主对话框中已经选择好的全部协变量及交互项。(2)CategoricalCovariates框中列出了所选择的分类变量。(3)ChangeContrast栏,设置分类协变量中各类水平的对比方式。有Indicator选项、Simple选项、Difference选项、Helmert选项、Repeated选项、Polynomial选项、Deviation选项。(4)ReferenceCategory选项,如果选择了Deviation、Simple、Indicator对比方式,可选择First或Last,指定分类变量的第一类或最后一类作为参考类。(5)如果改变了ChangeCovariates的设置,单击Change按钮以示对选项的确定。6、单击Save按钮,激活储存新变量对话框,如图9-3所示。选择在数据文件中保存的新变量。图9-3保存新变量对话框(1)PredictedValue栏,预测值选项。其中,Probability复选项,表示每个观测量发生特定事件的预测概率;Groupmembership复选项,表示依据预测概率得到的每个观测量的预测分组。(2)Residual栏,保存残差,包括Unstandardized非标准化残差、Logit残差、Studentized学生化残差、Standardized标准化残差和Deviance偏差。(3)Influence栏,保存每一个观测量的影响力指标,包括Cook距离、Leveragevalues杠杆值和Dfbeta(s)统计量。7.单击Options按钮,展开如图9-4所示对话框。图9-4Options选择项对话框(1)StatisticsandPlot栏,输出统计量和图形。包括Classificationplots复选项、Correlationsofesti复选项、Hosmer-Lemeshowgoodness-of-f复选项、Iterationhistory复选项、Casewiselistingofresiduals复选项、CIforexp(B)复选项。(2)Display栏中,Ateachstep选项,表示对每一步计算过程输出表、统计量和图形。Atlaststep选项,表示只输出最终方程的表、统计量和图形。(3)ProbabilityforStepwise栏,设置变量进入模型及从模型中删除的判据。(4)Classification栏,被解释变量分类界限。(5)Maximum栏,设定最大迭代次数。(6)Includeconstantinm:模型包含常数项。8、图形诊断模型,包括:(1)使用Graphs图形功能,对保存在数据文件中的Deviance统计量做P-P图。(2)将保存的StandardizedResiduals,DfBeta(s)和Leverage统计量,用SPSS图形功能做散点图(横坐标为变量ID,纵坐标为各种保存的新变量)。第三节判别分析一、判别分析的概念和基本步骤(一)判别分析的概念判别分析是根据观察到的若干变量值,判断研究对象如何分类的方法。判别分析能够解决两组或者更多组的情况,当包含两组时,称做两组判别分析;当包含三组或者三组以上时,称做多组判别分析聚类分析和判别分析都是分类学的基本方法,但它们也有很大的不同。(二)判别分析的基本步骤1、判别分析的研究设计(1)解释变量和被解释变量的选择。判别分析中,被解释变量为定性变量。解释变量可以为定量变量,也可以为定性变量。(2)样本容量。在判别分析中,最小的组的大小必须超过解释变量的个数。(3)样本的分割。在实际研究中,很多时候样本需要分割为两个子样本,一个子样本用于估计判别函数,另一个子样本用于验证判别函数,每个子样本都要有适当的样本容量来支持结论。分割样本有很多种方法,最常用的是将整个样本随机的分为两组,这种验证方法称为分割样本法或者交叉验证法。2、判别分析的假定(1)每一个判别变量(解释变量)不能是其他判别变量的线性组合,即不能出现多重共线性问题。(2)各组变量的协方差
本文标题:第9章 定性数据的建模分析(含SPSS)
链接地址:https://www.777doc.com/doc-3972376 .html