您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 11流行病学方法I(交互作用)-2013
交互作用基本概念交互作用模型交互作用与混杂现象的区别交互作用的统计分析方法交互作用分析实例•个体暴露于单个的危险因素时不会患病,仅当同时暴露两个或多个危险因素时才患病。这是关于多危险因素在生物学机理上的定性概念。联合作用的类型分为4种:相加作用、协同作用、拮抗作用、独立作用。•暴露单个危险因素作用的总和或乘积是否等于同时暴露两个或多个危险因素的作用,若同时暴露两个或多个危险因素的作用明显大于暴露单个危险因素作用的总和或乘积,称为正交互;反之,同时暴露的作用效应明显小于暴露单个危险因素作用的总和或乘积,则为负交互。这是关于多危险因素的统计模型和参数的定量概念。•生物学交互作用与统计学交互作用概念完全不同。生物学交互作用是指实际存在的两种或多种因素之间真实的生物学作用。而统计学交互作用是关于基于统计模型和参数的定量概念。•假定暴露或干预的效益可以通过它们所致的新增病例的增减来衡量,新增病例(发病数)或发病率的可加性偏离即为公共卫生交互作用。•如果由各因素所致的超额新增病例不是可加的,说明存在公共卫生交互作用影响。以两因素为例,假设两个因素X与Z为二分变量,用R00表示X和Z两因素均不存在时的效应,R11表示X和Z两因素均存在时的效应;R01表示X因素不存在而Z因素存在时的效应,R10表示X因素存在而Z因素不存在时的效应。Z=1Z=0X=1R11R10X=0R01R00危险度差R11-R01R10-R00危险度比R11/R01R10/R00相加模型•如果同时暴露两个或多个因素的效应等于单独暴露单个因素作用的总和,则交互作用不存在。•X与Z无交互作用的条件为:Z=1时的率差(R11-R01)等于Z=0时的率差(R10-R00)R11-R01=R10-R00式1可以把这个等式写成:R11-R00=(R10-R00)+(R01-R00)式2•如果符合式2,表明X与Z符合以率差为测量指标的加法模型。乘法模型•如果同时暴露两个或多个因素的效应等于单独暴露单个因素作用的乘积,则交互作用不存在。即:R11/R00=(R10/R00)(R01/R00)式1式1表示X、Z均暴露时的效应等于二者分别暴露时效应的简单相乘。进一步,如果式1两边取自然对数,则得到等式ln(R11/R00)=ln(R10/R00)+ln(R01/R00)式2•如果符合式1、2,表明X与Z符合乘法模型。交互作用指标交互作用指数(thesynergyindexS,S):S=(A-1)/[(B-1)+(C-1)]当S=1时,无交互作用;S1时,两因子间有正交互作用;S1时,两因子间有负交互作用。交互作用归因比(attributableproportionofinteraction,AP):表示总效应中有多大比例归因于两因子交互作用AP=[A-(B+C-1)]/A。纯交互作用归因比:AP*=[A-(B+C-1)]/(A-1)表示由基因和环境两因素引起的效应中归因于两因子交互作用的比例。交互作用超额相对危险度(relativeexcessriskofinteraction,RERI):表示两因素联合作用与其单独作用之和的差值,RERI=A-(B+C-1),同时也表示交互作用与两因素以外的因素作用之间的关系(这里公式是假定后者OR=1),如果未知因子作用很大,则所研究的交互作用就变得十分次要而没有意义。这里,RERI即为基于相加模型的两因素交互作用值。实例说明相加模型R11-R00=(R10-R00)+(R01-R00)34.72-1=33.726.94-1+3.70-1=8.64符合相加模型,有交互作用相乘模型R11/R00=(R10/R00)(R01/R00)34.72/16.94/1*3.70/1=25.7符合相乘模型,有交互作用交互作用指数:S=(A-1)/[(B-1)+(C-1)]=3.90,A-1(B-1)+(C-1)表明两者之间存在基于相加模型的正交互作用,有Leiden因子Ⅴ基因突变者再口服避孕药可能增加静脉血栓栓塞的危险。该指数是否具有统计学意义需要进行假设检验。交互作用归因比:AP=[A-(B+C-1)]/A=0.7224=72.24%,表明有上述基因突变的口服避孕药者,其产生的静脉血栓栓塞患者中,有72.24%是由该两因子的交互作用所致。纯交互作用归因比:AP*=[A-(B+C-1)]/(A-1)=0.7438=74.38%,在有上述基因突变的口服避孕药者所产生的全部静脉血栓栓塞患者中,当除去其他或未知因子产生的病例后,因这两因子交互作用占有的与两因子有关的病例总数比例为74.38%。交互作用超额相对危险度:RERI=A-(B+C-1)=25.08,表明归因于有Leiden因子Ⅴ基因突变者口服避孕药两者交互作用所致的静脉血栓栓塞危险性是其他或未知因子(其OR=1)的25.08倍。•流行病学研究中,由于一个或多个外来因素的存在,掩盖或夸大了研究因素与疾病的联系,从而部分或全部地歪曲了两者间的真实联系,称之为混杂偏倚或混杂。引起混杂的因素称为混杂因子。•混杂因子的特点:它必须与所研究的疾病的发生有关,是该疾病的危险因素之一;必须与所研究的因素有关;必须不是研究因素与疾病病因链上的中间环节或中间步骤。•混杂因子导致混杂偏倚的条件:混杂因素在各比较组间分布不均。对混杂偏倚的识别可以根据混杂偏倚产生的机理,结合专业知识,并运用定量分析的方法进行判断。一般来说识别混杂偏倚的方法有下面几种:1、根据专业知识提出研究中可能存在的混杂因子。常见的混杂因子分为两类,一类是人口统计学指标如年龄、性别、种族、职业、经济收入、文化程度等;另一类是除研究因素以外的危险因素,如研究氡气与肺癌关系时,吸烟就是一个可能的混杂因素。2、利用分层分析进行判断某队列研究资料的分层分析分层前分层1分层2DDDDDDEab有FEab无FEabEcdEcdEcdcRRaRR1aRR2当cRR(cOR)≠分层后的aRRi(aORi),各分层RRi(ORi)相等或相近,则混杂偏倚存在。但外来因素的作用并非仅为混杂,cRR(cOR)≠分层后的aRRi(aORi)也可以是由于因素间的交互作用所致。在cRR(cOR)≠分层后的aRRi(aORi)的情况下,理论上,当样本足够大时,如各分层的RRi(ORi)相等,则主要是混杂所致;如果分层的RRi(ORi)不等,则以因素间的交互作用为主。类型cRRaRR1aRR2结果判定12.362.482.33无混杂、无交互作用22.363.563.49负混杂、无交互作用32.361.081.16正混杂、无交互作用42.361.135.06无混杂、负交互作用52.362.636.23无混杂、正交互作用62.360.560.64正混杂、无交互作用72.362.890.58无混杂、正交互作用实例长期服用维生素E与心肌梗死队列研究心肌梗死+—长期服用维生素E400600不服用维生素E600400RR=0.67长期服用维生素E与心肌梗死按是否吸烟的分层分析吸烟组不吸烟组心肌梗死心肌梗死+—+—长期服用维生素E24030160570不服用维生素E58030020100RR=1.32RR=1.27分层前的cRR=0.67,分层后的aRR1=1.32、aRR2=1.27;分层前后的RR值不等,且分层后各层的RR值相近,可以认为混杂偏倚的存在,吸烟在该研究中是一个混杂因子(负混杂、无交互作用)。•概念•混杂:与所研究的暴露因素和疾病都有联系的外部因子,可以歪曲(掩盖或夸大)暴露因素与疾病之间真正联系。•交互:与所研究的暴露因素和疾病都有联系的外部因子,它的存在使得暴露因素和疾病之间的效应发生真实的改变。•性质•混杂:造成偏倚,影响结果的真实性。不是一个因素固定不变的特性,即在一项研究中它起混杂作用,而在另一项研究中却不是混杂因子。•交互:是一种真实的效应。所产生的效应是恒定的,从数学上来说是常数。•处理的方法•混杂:应尽量避免与消除。它存在与否取决于研究设计,可以通过设计的更改进行防止。•交互:应尽量去发现,评价。它的存在与否与研究设计无关。交互作用的统计方法包括参数法和非参数法。1.参数法Logistic回归模型。2.非参数法(主要是数据挖掘方法)。(1)降维法;多因子降维法。(2)基于树的方法;分类回归树和随机森林法。(3)模式识别法;包括神经网络、支持向量机。(4)贝叶斯法:贝叶斯上位效应关联图谱。参数法和非参数法分析交互作用时各有优缺点;低维数据的分析可采用参数法和非参数法,高维数据的分析则主要采用非参数法,以吸烟与饮酒两个两分类变量为例,它们有四种可能的组合(如下表):不饮酒饮酒不吸烟β0β0+βa吸烟β0+βsβ0+βa+βs+βsa•我们可以形成一个四分类的变量,再用四个二分类变量X00、X01、X10、X11指示这四组,形成回归方程:•方程I:f(Y)=β0+β1X10+β2X01+β3X11β1是吸烟不饮酒组与不吸烟不饮酒组的差,β2是不吸烟但饮酒组与不吸烟不饮酒组的差,β3是吸烟又饮酒组与不吸烟不饮酒组的差。•方程II:f(Y)=β0+βaalcohol+βssmoke+βsasmoke*alcohol回归系数的βs不能简单地解释为吸烟的作用,而应确切地说是对不饮酒者吸烟的作用(等于方程I的β1)。βa不能简单地解释为饮酒的作用,而应确切地说是对不吸烟者饮酒的作用(等于方程I的β2),因为βs、βa、β0三者间有相互依赖的关系。•方程I与方程II是等同的,方程I中的β3等于方程II中的βa+βs+βsa。方程I和II都有3个自变量(自由度),都没有假定βsa等于零,又称为饱和(Saturated)模型。从方程II中我们可以观察βsa是否显著。如果我们假定吸烟与饮酒无交互作用,βsa等于零,则方程II变为:•方程III:f(Y)=β0+βaalcohol+βssmoke•只用βa、βs来拟合这四组,如果得到的似然数与方程I(II)没有显著差别,表明βsa是多余的,或者说βsa与零无显著性差异,吸烟与饮酒对f(Y)无交互作用。反之,吸烟与饮酒对f(Y)有交互作用。•上面讲了交互作用的两种检验方法:•方法I:模型中乘积项回归系数的检验(又称WALDTEST)。如上例βsa的检验,如显著表示有交互作用;•方法II:似然比检验(Loglikelihoodratiotest),具体方法为:•计算卡方值:X2=2*(LL1-LL2)。如上例,LL1表示从方程I(或II)得出的似然对数;LL2表示从方程III得出的似然对数。•计算自由度差。如上例,方程I(或II)有3个自变量,方程III只有2个自变量,差为1。•按卡方检验,得出P值。•一般来说,似然比检验效率高于回归系数的检验。•优点:(1)分析某个自变量的效应时,可以同时控制多个协变量的影响;(2)可以处理自变量对因变量的非线性效应;(3)可以在模型中引入交互作用项;(4)回归系数的可解释性。•缺点:(1)维度困扰的问题。维度困扰是指样本量有限而自变量较多(高维数据)时,分析交互作用时会使得观测数相对于自变量数过少,数据分布在高维稀疏的列联表中,此时维度困扰的问题会导致Logistic回归模型中参数估计的错误,或使回归系数的标准误过大,从而导致I类错误或II类错误增加。(2)自变量之间的相关性会导致不同的建模策略(前进法或后退法),并得到不同的结果。(3)Logistic回归不能很好地解决遗传异质性的问题。Logistic回归分析多因子降维法(multifactordimensionalityreduction,MDR)是2001年开发出的一种非参数、无需遗传模式的高阶交互作用分析方法,在2007年又提出了一种基于MDR基本原理的扩展方法——广义多因子降维法(generalizedmultifactordimensionalityreduction,GMDR),又称基于计分的多因子降维法(score-basedMDR)。该法可以通过将广义线性模型的概念引人到MDR中,使其不但能够分析连续变量
本文标题:11流行病学方法I(交互作用)-2013
链接地址:https://www.777doc.com/doc-4063631 .html