您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 流行病学常用多因素回归统计分析
Epidemiology&Statistics流行病学资料的多因素回归分析郑卫军流行病学与卫生统计学教研室diseasesourcegeneenvironmenthealthhabitSESgenderage???ExampleofcomplexityofmedicalstudyExampleofcomplexityinmedicalstudyphysicalactivityeatingdrinkingsmokingsocialeconomicstatusenduredglucosebloodpressureweightcholesteroldiabetescoronaryheartdiseaseenvironmentlifestyleendogeneousfactorsdiseases流行病学多变量分析工具回归多因素、多元线性回归多因素、多元logistic回归COX比例风险模型主成分分析因子分析聚类判别分析路径分析结构方程模型本章我们来交流点什么?多因素线性回归多因素logistic回归多因素COX回归本讲学习目标掌握多因素回归的技巧及注意点一、多因一果的回归分析方法比较研究实验因素与疗效实验组VS对照组:t检验、卡方、秩和、方差分析相关性研究相关分析回归分析多因素问题常见情况常见于观察性研究探讨多个因素作用模式分析由于分组不均衡造成存在着混杂因素实验性研究也可以遇到。基本的处理方法:多因素回归举例关于胰脏癌病人生存时间的研究。该研究的终点为死亡,包括很多可能影响生存的因素变量名变量说明变量类型分类变量的编码caseno患者编号time生存时间(月)连续censor删失2分类0:死亡、1:删失age手术时的年龄连续trt处理组别(有无手术中放疗)2分类0:无术中放疗、1:有术中放疗sex性别2分类0:男、1:女bui占位处2分类0:胰脏头部、1:头部以外ch胰胆管浸润程度有序多分类1:ch0、2:ch1、3:ch2、4:ch3p有无腹膜转移2分类0:无、1:有stageTNM分类2分类3:Ⅲ期、4:Ⅳ期本例目标分析影响生存的多个因素,因素间地位平等变量名变量说明变量类型分类变量的编码caseno患者编号time生存时间(月)连续censor删失2分类0:死亡、1:删失age手术时的年龄连续trt处理组别(有无手术中放疗)2分类0:无术中放疗、1:有术中放疗sex性别2分类0:男、1:女bui占位处2分类0:胰脏头部、1:头部以外ch胰胆管浸润程度有序多分类1:ch0、2:ch1、3:ch2、4:ch3p有无腹膜转移2分类0:无、1:有stageTNM分类2分类3:Ⅲ期、4:Ⅳ期举例关于胰脏癌病人生存时间的研究。该研究的终点为死亡,探讨术中放疗对生存的影响变量名变量说明变量类型分类变量的编码caseno患者编号time生存时间(月)连续censor删失2分类0:死亡、1:删失age手术时的年龄连续trt处理组别(有无手术中放疗)2分类0:无术中放疗、1:有术中放疗sex性别2分类0:男、1:女bui占位处2分类0:胰脏头部、1:头部以外ch胰胆管浸润程度有序多分类1:ch0、2:ch1、3:ch2、4:ch3p有无腹膜转移2分类0:无、1:有stageTNM分类2分类3:Ⅲ期、4:Ⅳ期本例目标探讨术中放疗较未放疗是否影响生存,其它为混杂因素,需要排除混杂干扰变量名变量说明变量类型分类变量的编码caseno患者编号time生存时间(月)连续censor删失2分类0:死亡、1:删失age手术时的年龄连续trt处理组别(有无手术中放疗)2分类0:无术中放疗、1:有术中放疗sex性别2分类0:男、1:女bui占位处2分类0:胰脏头部、1:头部以外ch胰胆管浸润程度有序多分类1:ch0、2:ch1、3:ch2、4:ch3p有无腹膜转移2分类0:无、1:有stageTNM分类2分类3:Ⅲ期、4:Ⅳ期COX回归分析结果多因素回归多因素线性回归:因变量定量资料多因素logistic回归:因变量是分类资料(常见二分类)多因素Poisson回归:因变量是泊松分布资料多因素COX比例风险模型:因变量是时间生存资料多因素回归的自变量:可以是定量,也可以是分类资料不同方法的应用场合病例对照研究?队列研究?实验性研究?不同方法的应用场合线性回归队列/实验性研究Logistic回归病例对照/队列/实验性研究Poisson回归队列COX模型队列/实验性研究思考:什么样的设计?采用什么样的方法?例1某研究者跟踪随访已发病冠心病病人,研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca复发是否有关。例1某研究者希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca发病是否有关。横截面研究可以做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数横截面研究可以做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数哪些因素可以做呢?横截面研究可以做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数固有的因素,理论上和结局时间逻辑明确的因素可以开展多因素回归分析多因素回归的注意点样本量回归方程中,因素的筛选多重共线性问题样本量线性回归:纳入回归模型变量数的5-10倍Logistic回归:阳性数纳入模型变量数的5-10倍,总样本量至少乘以2样本量过少,则导致抽样误差增加,回归模型拟合效果变差因素筛选1.常见方法单因素加多因素方法即单因素回归P值0.05,0.1,0.2的纳入模型分析。此举是为了减少变量个数,提高拟合效果最优子集方程法(逐步回归法)向前法向后法逐步法单因素加多因素逐步回归法24(1)前进法(2)后退法(3)逐步法自变量从无到有、从少到多先将全部自变量放入方程,然后逐步剔除双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)最优方程筛选25逐步回归分析的基本思想-拟合效果线性回归保证纳入因素后,模型的R2值最大Logistic等回归方法AIC值、SC值或-2loglikelihood值越小好26因素筛选注意事项如果有变量的引入导致具有关键作用的因子其统计学意义发生改变(从无到有,或从有到无),必须发现原因!是否由于样本量过少,变量过多导致是否存在多重共线性是否属于混杂因素是否属于中间变量:回归模型不能同时纳入影响因素及其中间变量27多重共线性是指在进行多因素回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。多重共线性问题28多重共线性的表现在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释出现以上情况,提示存在多重共线性问题,应进行多重共线性诊断。回归案例分析(logistic)某妇幼保健院采用病例对照研究探索乳腺增生的影响因素。随机抽取某年在本院就诊的200名乳腺增生患者及200名非乳腺增生患者,采用问卷调查法对各种可能的影响因素进行调查,以探索乳腺增生的危险因素。回归案例分析表8.2各因素的变量名及编码表因素变量名编码乳腺增生Y1=是;0=否年龄Age0=<30;1=≥30初产年龄Chage0=<25;1=≥25妊娠次数Rs1=1次;2=2次;3=3次及以上流产次数Lc0=0次;1=1次;2=2次及以上是否母乳喂养Mr0=是;1=否1:单因素分析回归案例分析单因素分析初步结论:由于年龄的影响在单因素分析中无统计学意义,且OR值也较为接近1,在多因素分析中不再考虑年龄因素,仅对其它4个因素进行分析。回归案例分析多因素分析结果:回归案例分析多因素分析小结:为什么rs变得无统计学意义了?相关分析结果显示,妊娠次数与流产次数具有较强的相关性(r=0.55,P0.001)。回归案例分析多因素分析小结:可以设想,妊娠次数对乳腺增生可能并无影响或影响很小,单因素中的影响可能主要是通过流产次数这一因素起作用的,当多因素分析中校正了流产次数的影响后,妊娠次数的影响变得无统计学意义。将妊娠次数这一变量去掉,重新拟合方程。回归案例分析模型中所有变量均有统计学意义。与含rs变量的模型相比,AIC和SC均降低,似然比差别很小。说明去掉rs后模型更优含rs模型不含rs模型回归案例分析初产年龄与母乳喂养可能存在一定的交互效应为什么mr和chage变得无统计学意义?(注意:即使有统计学意义,也无法反应真实的情况)一旦模型中加入交互项,变量便不再反映主效应,而是单独效应。此时mr反映的是chage=0时的效应,同样,chage反映的是mr=0时的效应。回归案例分析交互项的进一步解释:对于母乳喂养的人(mr=0),初产年龄=25与初产年龄25岁的人相比,其效应(参数估计值)为0.2717。对于非母乳喂养的人(mr=1),初产年龄=25与初产年龄25岁的人相比,其效应(参数估计值)为0.2717+1.4587=1.7304。回归案例分析本例结论:流产次数多是乳腺增生的危险因素,初产年龄和是否母乳喂养的交互作用对乳腺增生的影响也有统计学意义。初产年龄≥25且非母乳喂养的人,其乳腺增生的危险明显增高。而单纯初产年龄25的人,或单纯非母乳喂养的人,发生乳腺增生的危险并不高。这提示可针对不同人群开展不同的干预措施。回归案例分析当混杂混入流行病学匹配分层多因素回归多因素回归+匹配多因素回归+倾向得分多因素回归+倾向得分回归中的混杂因素混杂因素的识别:(1)该因素对结局有影响,可利用单因素回归或χ2检验来验证。(2)该因素在分析因素中的分布不均衡,可用χ2检验验证一下。(3)从专业角度来判断,即该因素不能是分析因素与结局关系的一个中间环节。也就是说,不能是分析因素引起该因素,通过该因素再引起结局。这一点主要根据专业知识来确定。如果同时满足这三个条件,基本可以断定是混杂因素。如果有一条不满足,该因素就不是混杂因素。回归中的混杂因素例2:分析性别、吸烟对幽门螺杆菌(HP)的影响,判断吸烟是否是混杂因素性别吸烟状况HP阴性HP阳性男不吸烟146343吸烟64178女不吸烟211吸烟110530回归中的混杂因素(1)判断吸烟是否对Hp有影响:单因素logistic回归提示:吸烟对Hp的发生有一定影响,吸烟发生的危险更高一些回归中的混杂因素(2)判断吸烟在不同性别中分布是否不同:卡方检验提示:吸烟在性别中分布不同,男性中比例更高回归中的混杂因素未校正吸烟因素,性别分析结果校正吸烟因素后,性别分析结果回归中的混杂因素不吸烟的人之中,性别的分析结果吸烟的人之中,性别的分析结果胰岛素治疗的2型糖尿病患者中胰岛素和胰岛素类似物的剂量与癌症之间的关系混杂因素分析案例研究方法及设计本研究克服了以往相关研究的不足1-4-巢式病例对照研究-多因素logistic回归分析-纳入每种胰岛素平均日用剂量作为变量入选标准-2型糖尿病;入选前5年未用过胰岛素;无恶性肿瘤史患者平均随访75.9月,在此期间患者暴露于甘精胰岛素、地特胰岛素、赖脯
本文标题:流行病学常用多因素回归统计分析
链接地址:https://www.777doc.com/doc-4077284 .html