您好,欢迎访问三七文档
医学统计(11)——多重线性回归——logistic回归季聪华2012.12.13回归分析的分类•多个因变量•(y1,y2,…yk)•路径分析•结构方程模型分析•一个因变量y•连续型因变量(y)---线性回归分析•分类型因变量(y)---Logistic回归分析•时间序列因变量(t)---时间序列分析•生存时间因变量(t)---生存风险回归分析多重线性回归logistic回归多重线性回归logistic回归直线回归(linearregression)又称简单线性回归(simplelinearregression),是描述两变量的线性依存关系,它的任务就是找出一条最能描述变量间非确定性关系的一条直线,此直线为回归直线,相应的方程为直线回归方程。直线回归的概念如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,那么就可以用一个直线回归方程来定量地描述它们之间的数量关系,这就是直线回归分析。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为反应变量(dependentvariable)和自变量(independentvariable),习惯上分别用Y和X来表示。xybxaY+=ˆ两种变量自变量(independentvariable)应变量(dependentvariable)两种关系函数关系——函数方程:回归关系——回归方程:bxay+=x,y呈确定性关系x,y呈非确定性关系直线回归是分析两变量间线性依存变化的数量的关系多元(多重)线性回归在医学研究中常常会遇到一个应变量与多个自变量间的关系问题。某种流行病的发生受温度、湿度、气压等多个气象因素影响。人的体重受身高、胸围等因素影响人的心率与年龄、体重、肺活量等多个因素有关。多个因素与应变量间线性依存关系的统计方法,采用多重线性回归。多元线性回归分析数据格式例号X1X2XmY1X11X12X1mY12X21X22X2mY2nXn1Xn2XnmYn多元线性回归模型一般形式为:Y=β0+β1X1+β2X2+…+βmXm+ε•β0:常数项,又称为截距。•β1,β2,…,βm:偏回归系数,表示在其它自变量保持不变时,Xi(i=1,2,…,m)每改变一个单位时,应变量Y的平均变化量。•ε:残差,是指去除m个自变量对Y的影响后的随机误差。多元线性回归模型的应用条件:1.线性趋势:Y与Xi间具有线性关系。2.独立性:应变量Y的取值相互独立。3.正态性:对任意一组自变量取值,因变量Y服从正态分布。4.方差齐性:对任意一组自变量取值,因变量y的方差相同。多元线性回归的分析步骤:1.根据样本数据求得模型参数的估计值,得到应变量与自变量数量关系的表达式:•2.对回归方程及各自变量作假设检验,并对方程的拟和效果及各自变量的作用大小作出评价.mmxbxbxbby......ˆ2211014多元线性回归方程的建立:模型参数的估计:(最小二乘法,使残差平方和最小)Ymmlblblbl11212111Ymmlblblbl22222121mYmmmmmlblblbl2211)(mmXbXbXbYb22110•多重线性回归方程的检验•整体回归效应的检验——方差分析法•决定系数R2•R2在0-1之间,说明自变量能够解释Y变化的百分比。•R为复相关系数,可用来度量应变量Y与多个自变量间的线性相关程度。•偏回归系数的t检验【例1】观察30名儿童血中血红蛋白、钙、镁、铁的含量。试研究血红蛋白与微量元素的关系?•1.求多重线性回归方程•2.对回归方程进行检验•3.计算决定系数•4.偏回归系数检验SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:线性回归(1)•选择分析→回归→线性(L)•第3步:线性回归(2)•将X1-3和Y分别移入自变量和因变量,方法选择进入•结果解读:回归方程的方差分析•第3步:线性回归(3)•结果解读:全部自变量的偏回归系数•第3步:线性回归(4)•X2的t检验结果没有统计学意义•第3步:线性回归(2)•将X1-3和Y分别移入自变量和因变量,方法选择逐步•第3步:线性回归(5)•将X1-3和Y分别移入自变量和因变量,方法选择逐步•第3步:线性回归(6)•设置选项•设置进入、删除的概率。•第3步:线性回归(7)•结果解读:逐步回归指标进入的过程•第3步:线性回归(8)•结果解读:复相关系数和决定系数•第3步:线性回归(9)•结果解读:回归模型的方差分析•第3步:线性回归(10)•结果解读:回归方程:•血红蛋白=1.129+0.031*血铁-0.043*血钙自变量选择的常用算法2、删除法(Remove):根据设定的条件直接剔除部分自变量。1、进入法(Enter):预先选定的自变量全部进入回归模型,这是系统默认方式。3、向前引入法(Forward):自变量由少到多一个一个引入回归方程,将与因变量的相关系数最大的第一个自变量选入方程并进行检验,如果F值Fa,拒绝H0;将其余的变量中与因变量的相关系数最大的第二个自变量选入方程,当F值Fa,拒绝H0;如此下去,不断引入新的自变量,直到不能拒绝H0,再没有变量被引入为止。4、向后剔除法(Backward):自变量由多到少一个一个从回归方程中剔除,首先,对预先选定自变量全部进行回归,然后把对因变量影响不显著的自变量从方程中剔除并进行检验,如果F值Fa,接受H0,一个一个剔除对因变量不显著的自变量,直到再不能剔除为止。5、逐步引入—剔除法(Stepwise):向前引入法与向后剔除法的结合。【例2】27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。•。。。。。。。。。SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:线性回归(1)•选择分析→回归→线性(L)•第3步:线性回归(2)•将X1-3和Y分别移入自变量和因变量,方法选择逐步•第3步:线性回归(2)•将X1-4和Y分别移入自变量和因变量,方法选择逐步•第3步:线性回归(3)•设置选项•设置进入、删除的概率。•第3步:线性回归(4)•结果解读:逐步回归指标进入的过程•第3步:线性回归(5)•结果解读:复相关系数和决定系数•第3步:线性回归(6)•结果解读:回归模型的方差分析结果•第3步:线性回归(7)•结果解读:回归方程:•y=1.310+0.732*X4+0.678*X1多元线性回归的应用1.影响因素分析:通过自变量对应变量有无影响的分析,从而分析出影响因素及其重要程度年龄(X1)饮食习惯(X2)吸烟状况(X3)工作紧张度(X4)家族史(X5)高血压(Y)2.估计与预测:实际工作中某些指标是难以测定的,此时可通过建立这些指标与另一些容易测量指标的多重线性回归模型,用易测指标估计难测指标。心脏表面积(Y)=b0+b1心脏横径(X1)+b2心脏纵径(X2)+b3心脏宽径(X3)新生儿体重(Y)=b0+b1胎儿孕龄(X1)+b2胎儿头径(X2)+b3胎儿胸径(X3)+b4胎儿腹径(X4)3.统计控制:利用回归方程进行逆估计,确定Y后控制X。采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径(Y)=b0+b1射频温度(X1)+b2照射时间(X2)多元线性回归应用的注意事项1.指标的数量化应变量Y为连续变量自变量X可为连续、有序分类或无序分类变量(1)连续变量:X(2)有序分类变量:1轻X=2中3重(3)无序分类变量自变量为二分类变量:自变量为多分类变量:假定有n类,则用n-1个取值为0或1的哑变量来表示这些类别。X=0男1女哑变量文盲小学中学大学X11000X20100X300102.样本含量:n至少是X个数m的5~10倍3.关于逐步回归:不要盲目信任,结合专业知识。4.多重共线性:指自变量之间存在较强的线性关系提示可能存在多重共线性的情况:整个模型的检验结果为Pα,但各自变量的偏回归系数的检验结果Pα。专业上认为应该有统计学意义的自变量检验结果却无统计学意义。自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释。增加或删除一个自变量或一条记录,自变量回归系数发生较大变化。消除共线性的方法:剔除、定义新变量、逐步回归…多重线性回归logistic回归•logistic回归(logisticregression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。•在医学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。常用的分析方法有:(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。(3)logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。logistic回归的分类:(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。•队列研究(cohortstudy):也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。•研究人群•+•-•+•+•-•-•调查方向:追踪收集资料•比较•疾病•人数•暴露•a•b•c•d•a/(a+b)•c/(c+d)•队列研究原理示意图病例非病例合计发病率暴露组abn1=a+ba/n1非暴露组cdn0=c+dc/n0相对危险度(relativerisk,RR)也称危险比(riskratio)或率比(rateratio)。010//ncnaIIRRe、1/naIe、20/ncI•RR(相对危险度relativerisk):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(riskratio)。反映了暴露与疾病发生的关联强度。•RR表明暴露组发病或死亡的危险是非暴露组的多少倍。•病例对照研究(case-controlstudies):一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(control)两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。•+•-•病例•+•-•对照•调查方向:收集回顾性资料•a•b•c•d•a/(a+b)•c/(c+d)•比较•人数•暴露•疾病•病例对照原理示意图是否暴露病例对照合计暴露组aba+b(n1)未暴露组cdc+d(n2)合计a+cb+dn比数比(oddsratio、OR):病例对照研究中表示疾病与暴露间联系强度的指标,也称比值比。比值(odds):某事物发生的可能性与不发生的可能性之比。病例组暴露的比值)/()/(babbaa、对照组暴露的比值)/()/(dcddcc该暴露因素的优势比:OR=/()/()/()/()aabc
本文标题:医学统计(11)
链接地址:https://www.777doc.com/doc-4226513 .html