您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 多元回归和logistic回归原理
我们要讨论的是•SPSS建立方程•检验方程总体和各自变量的统计学意义•自变量的筛选•Case的剔除(强影响点)•共线性诊断多元统计方法线性回归Logistic回归注:完全可以用于单因素分析,从这一点也可以看出统计学的方法是相通的。SPSS无法进行条件Logistic回归,就像sas没有专门针对配对资料的语句一样,任何统计软件均有局限性。建立方程的计算量很大,一般需软件完成。前人手工计算这两种回归(借助科学计算器),精神可嘉80年代,一个Logistic回归即使用计算机,计算的时间也以天计。调整或控制多变量的控制或调整法就是同时记录可能有影响的因素,把他们与可能的危险因素一起作分析单因素分析有统计学意义,多因素分析没有意义的解释,举例Inunivariateanalysis,thefamilyhistoriesofSAHandICHwerepositivelyassociatedwitheachofthesubtypesofstroke.whereasafteradjustmentforpotentialriskfactors,familyhistoryofICHnolongershowedasignificantassociationwithhaematoma.单因素分析有意义,多因素没有意义的解释Familyhistoryofintracerebralhaematomawasnotanindependentriskfactorforhaematoma,butitmightbeagoodpredictor,whichindirectlyinfluencesthepathogenesisofintracerebralhaematomaviacertainhereditarycomponentssuchashypertension,andevenlifestylefactorssuchasalcoholconsumption.Isfamilyhistoryanindependentriskfactorforstroke?JNeurolNeurosurgPsychiatry.1997Jan;62(1):66-70.多元线性回归(简单步骤)指标多,难以理解。在计算自动化时代,这是回归的难点,我们不懂如何判断我们的模型的好坏回归的实际应用在影响因素分析中一种是探索模式,在回归模型中探索所有可能的自变量与应变量的关系一种是控制模式,即控制混杂因素的影响后者对回归模型的要求要小的多,不出现异常情况,可仅对模型拟合稍作考虑。SPSS菜单analyze-regression-linear变量的数量化(1)自变量为连续型变量:必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男=1,女=0(4)自变量为名义分类:需要采用哑变量(dummyvariables)进行编码名义分类变量的哑变量化假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:数据格式回归的一些定义应变量(dependentvariable)自变量(independentvariable)偏回归系数pertialregressioncoefficient常数项b0决定系数determinationcoefficient,Rsquare共线性collinearity:自变量间存在着线性关系yi=b0+b1x1i+b2x2i+…+bnxni回归方程的建立就是求解b0和bi的过程矩阵的各种计算(求解线性方程)SPSS的实现:analyze-regression-linear将回归方程中的所有自变量作为一个整体来检验他们于应变量之间是否具有线性关系,P0.05,说明所拟合的方程具有统计学意义,但并不说明模型拟合的好坏各自变量的假设检验与评价,检验各自变量和应变量是否有线性关系,P(可放宽)说明有线性关系,同样t值不说明线性关系的强弱,这样,一个回归方程就建立了,回归方程的建立就是如此easy。线性与拟合优度有线性关系拟合优度不一定很好上述F和t检验有统计学意义,只是说明自变量与y有线性关系,但未能表示“关系有多大”举例:上述方程的R2很小,但因为样本量大,F值很大R2的意义:可以由BMI,age和膳食口味解释SBP的4.3%变化我认为,因素分析可以只考虑线性关系的有无。特别是在控制模式中。自变量的选择全局择优法:求出所有可能的回归模型(共有2m-1个)对应的准则值;按R2,Cp准则,AIC准则等统计量选择最优模型。求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型缺点:如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。全局择优法决定系数(R2)和校正决定系数(R2c),可以用来评价回归方程的优劣。【R2随着自变量个数的增加而增加,所以需要校正】校正决定系数(R2c)越大,方程越优。Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。Cp无法用Spss直接计算,可能需要手工。其中p为方程中自变量的个数,m为自变量总个数的模型为最佳接近提出年残残残残1)p()2()())(1()2()()(MallowsCL1964pmpmppCpnMSMSpnpnMSSSCCp准则的计算公式AIC准则的计算公式越小越好最小二乘法年由日本学者赤池提出AICpSnpnnAICpy)(2]/)ln[(1973212.自变量的选择逐步选择法逐步选择法:(一)前进法(forward)(二)后退法(backward)(三)逐步回归法(stepwise)小样本检验水准定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。自变量到底如何选择两种方法结合手工选择,逐步选择法选择后手工增减变量看校正决定系数(R2c)等方程拟合优劣指标的好坏放宽或限制进入方程的标准,特别是在逐步回归的时候硬性进入方程最感兴趣的研究变量统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响强影响点,记录的选择变量记录强影响点,记录的选择从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。判断强影响点的指标SPSS软件中的指标analyze-regression-linear-saveSave中的选项均进入数据库,而不出现在output中各种残差越大,单一记录对方程的影响越大判断强影响点的指标(2)距1越远,越是强影响点其余指标绝对值越大越是强影响点多重共线性自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。容易出现:回归系数的符号与由专业知识不符变量的重要性与专业不符整个方程决定系数R2高,但各自变量对应的回归系数均不显著。多重共线性的诊断SPSS中的指标容许度:越近似于0,共线性越强特征根:越近似于0,共线性越强条件指数:越大,共线性越强Spss的实现与结果analyze-regression-linear-statistics实例以BMI为应变量,SBP,DBP和年龄为自变量进行回归。结果如图极端例子:以SBP为应变量,BMI和复制BMI为自变量,结果为其中之一无法进入方程从第四个特征根看,特征根小,条件指数大,从变量的方差比例来看,SBP和DBP在其中贡献最大,可以说两者有近似共线性不过两者的共线性对方程的影响并不大容许度越近于0共线性越大,等于0,完全共线复制的BMI根本无法进入方程后面讨论交互作用的时候我们还要提到共线性一、应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量影响因素分析,控制混杂因素在医学研究中最为长用,个人认为对模型拟合要求较低,特别在控制混杂的控制模式中后两种用途对模型要求严格二、应用条件回归系数符号反常与主要变量选不进方程的原因分析有重要影响的因素未包括在内某些变量个体间的差异很大样本内突出点上数据误差大变量的变化范围较小样本数太少上述各项在用最小二乘法求解方程过程中对残差等重要中间指标的影响大,造成最小二乘法的失效。线性回归的注意事项应变量为连续变量,自变量可以为连续变量、分类变量或有序变量样本含量:一般要求样本量n至少是方程中自变量个数m的5-10倍逐步回归不是万能的,一个goodoffit好的模型建立需要多方面考证。多重共线性:自变量存在较强的线性关系检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。但共线性的问题会因此而突出,举例共线性很大SPSS菜单在处理回归中选项较少,但完全可以满足一般模型的拟合。其syntax模式应该有更多选项,但鉴于介绍这方面内容的书籍文献较少。如确实需要严格的模型拟合,SAS可能是更好的选择回归的发展加权回归有重复测量的回归分析:对每一个回归变量x的y有多次重复的测量值。岭回归分析:改进的最小二乘方,用于自变量相关性大,或某些变量变化范围太小。可用sas实现。Logistic回归实际上属于判别分析,因拥有很差的判别效率而不常用。适用于流行病学资料的因素分析实验室中药物的剂量-反应关系临床试验评价疾病的预后因素分析二、Logistic回归模型Logistic回归的分类二分类多分类其中二分较为常用条件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者者针对成组研究,前者针对配对或配伍研究。26例冠心病病人和28例对照者进行病例对照研究(变量赋值表)自变量为连续变量,最好变为等级或计数资料有统计学家持反对意见认为损失信息26例冠心病病人和28例对照者进行病例对照研究(数据格式)Logistic回归方程的建立建立方程就是求解b0,b1…bpLogistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。参数意义回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时,logitP的平均变化量。多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。调整与控制流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数Odds=P/(1-P)比数比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RR根据Wald检验可知,Logistic回归系数bi服从u分布。因此其可信区间为进而,优势比e(bi)的可信区间为iibbus()ibibuse参数估计似然函数计算方法最大似然法迭代法1.初始值2.迭代次数3.人为精度4.可能不收敛总体来说,解比较稳定。SPSS的实现analyze-regression-binarylogisticanalyze-regression-binarylogistic-option模型拟合优度指标,2值越小,P值越大表明模型越好迭代过程,可以监察方程计算的过程参数估计
本文标题:多元回归和logistic回归原理
链接地址:https://www.777doc.com/doc-1560286 .html