您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 20140930.高级医学统计学:混杂因素及其控制
混杂因素及其控制研究生《医学统计学2》课程主要内容混杂因素的概念常见的混杂因素混杂因素的处理方法设计阶段分析阶段混杂因素的定义混杂因素与研究因素和疾病均有关,而且在各比较组人群中分布不均,可以掩盖或夸大研究因素与疾病之间真正联系的因素。混杂因素的基本特征在非暴露个体中,该因素必须是疾病的危险因素之一;在受试者来自的人群中,该因素必须与暴露因素存在关联性;该因素必须不能被暴露或疾病所影响,不是研究因素与疾病因果链上的中间环节或者中间步骤。Rothman,Greenland&Lash《ModernEpidemiology》混杂因素示例Age55Age≥55合计(粗)TPTPTP死亡8522163021生存981157669174184合计1061209885204205平均风险0.0760.0420.2240.1880.1470.102RD0.0340.0360.045RR1.811.191.44T:Tolbutamid,甲苯磺丁尿P:Placebo,安慰剂甲苯磺丁尿和安慰剂组死亡情况,UGDP(1970)如何识别混杂从混杂的定义上看年龄在研究因素两组间不均衡:106/98vs120/85年龄与结局(生存/死亡间)有相关:213/226vs145/183通过比较调整和不调整年龄后药物效应的估计上看若不进行调整,粗RD估计为0.045;若进行调整,以合计作为标准组,调整RD估计为0.0352260.0761830.2242260.0421830.1880.035226183226183如何识别混杂根据效应估计值的变化幅度和一个cutoff值(5%,10%,…);借助假设检验(α适当增加)考察混杂因素和结局变量的关联性;比较调整和不调整时效应值(collapsibilitytesting)多个混杂因素时向后删除法(backwarddeletion)向前选择法(forwardselection)如何识别混杂:向后删除法调整所有的潜在混杂变量;逐个删除对效应估计影响小的混杂变量;当效应估计值的尺度的总变化和可信限的增加超过了事先选择的界限时停止;Miettnen(1976)Kleinbaumetal.(1984)选择混杂时要注意的统计学问题变量较多时,数据可能较稀疏。基于较大样本的统计学方法可能不适用。是否需要针对变量选择进行调整。考虑采用较大的α考虑采用确切概率法计算的可信限来识别混杂。专业上可以纳入重要的变量,尽管其混杂作用不明显。如何识别混杂:向前选择法从模型中包括最简单的调整变量开始;调整或利用对效应估计值改变最大的混杂变量来分层;选取候选混杂中导致最大改变者纳入模型;当没有因素能导致重要改变时停止。混杂因素与效应修饰效应修饰(effectmodification)异质性(heterogeneity)一个因素的效应尺度在另一个因素不同水平下不同。混杂与效应修饰的区别混杂是一种研究中需要控制或从效应估计值中去除的偏移;效应修饰是研究因素的一种性质;对混杂的控制可能会影响对效应修饰的识别!常见的混杂因素年龄、性别、经济水平、地区病情、病程、合并用药遗传流行病学中人群分层……混杂因素的处理:设计随机化限制匹配随机化简单随机化序列改变区组随机化(permutedblockrandomization)分层区组随机化(stratifiedblockrandomization)动态(自适应)随机化(dynamic/adaptiverandomization)随机化:简单随机化抛硬币统计书中的随机数字表计算机随机产生的数列(伪随机数)SAS产生随机数字RANUNI(seed)RANNOR(seed)随机化:简单随机化示例计算机随机产生的数列为4,8,3,2,7,2,6,6,3,4,2,1,6,2,0,…….分两组(奇数vs偶数):AABABAAABAABAAA……分三组{1,2,3}~A,{4,5,6}~B,{7,8,9}~CBCAACABBABAABA……分两组(比例不同{0,1,2,3}~A,{4,5,6,7,8,9}~B)BBAABABBABAABAA……..随机化:序列改变区组随机化适用于小型研究每个区组研究因素水平数相同每个区组内研究因素各水平顺序按照所有水平的序列组合而定随机化:序列改变区组随机化示例区组为4时,A/B共有六种序列1=AABB,2=ABAB,3=ABBA4=BAAB,5=BABA,6=BBAA.随机数字的每一个数字决定选择那个序列(7/8/9/0忽略)67126814…BBAAAABBABABBBAAAABBBAAB有时候不同长度序列组合使用SAS进行区组随机化PROCPLANordered;factorsblocks=24cell=4;treatmentst=4random;run;blocks--cell----t---112341342212343241312343142412341324512341243612342134712343241812343124……随机化:分层区组随机化能进一步限制了由于巧合导致的不均衡;对于每个混杂因素的组合,产生一组序列区组;常常针对年龄、病情、中心的组合例如,性别(男vs女),年龄(~65,65~)四层随机化:动态随机化其他设计都是在研究开始前确定随机分组方案;动态随机化根据受试者的特点以及已经分组的受试者的特征,将受试者分入最能保持组间均衡的分组。偏移硬币法(tosscoins)和最小随机化法(minimizations)随机化:动态随机化:偏移硬币法Efron(1971)对于第一个受试者,分入两组的概率均为1/2;当k个受试者已经纳入时,第k+1一个受试者的分组概率依赖于前k个人在各组的比例。随机化:动态随机化:最小随机化下一个受试者年龄45,病情重A组B组年龄4556年龄451211病情:轻89病情:重98合计1717限制对研究对象的选择条件加以限制。例:服用利血平对乳腺癌的影响因素研究怀疑社会经济条件是一个混杂因素只选取某一个社会经济条件水平的人做调查限制缺点对暴露因素和疾病的发生范围也做了限制,影响结果的代表性;无法分析混杂因素与疾病或者暴露的关系;匹配(MATCHING)选择病例和对照时,除研究因素外,使两者在潜在干扰因素上一致。个体匹配频数匹配匹配匹配中容易出现的问题过度匹配匹配不足检验匹配是否成功混杂因素的处理标准化分层分析多因素分析:协变量调整propensityscore标准化某市甲乙两院各科出院人数和治愈人数科室甲医院乙医院出院治愈治愈率(%)出院治愈治愈率(%)内87629533.6732910431.61外30529295.7470265793.59妇56449287.2359150184.77儿32930191.4926323388.59合计2074138066.541885149579.31率的标准化以该市甲、乙两院各科室的出院人数合计作为共同标准,即内科1205人,外科1007人,妇科1155人,儿科592人,相应构成比分别为:0.3044、0.2544、0.2917和0.1495,以此为权重,分别求得甲、乙两院的标化治愈率:可见甲院治愈率高于乙院,与分科室比较治愈率结论一致,解决了未标化前出现的矛盾。NpNpNNpwpiiiiii)('%73.739149.01495.08723.02917.09574.02544.03367.03044.0甲p%40.718859.01495.08477.02917.09359.02544.03161.03044.0乙p各种指标的标准化方法标准化率标准化率差标准化风险差'iiIDwID'iiRDwRD'iiIwI标准化风险比标准化率比00'iiiiiwRRRRRwR00'iiiiiwIIRIRwI标准化例子按照吸烟分层,男性医生中年龄别冠心病死亡情况年龄吸烟者不吸烟者率比死亡年率(10000人年)死亡年率(10000人年)35-4432524076.12187901.15.745-541044324824.0121067311.22.155-642062861272.028571049.01.565-7418612663146.9282585108.31.475-841025317191.8311462212.00.9合计63014224710139220举例当采用吸烟者作为标准组时,吸烟者的标化死亡率与未标化相同(630/142247=44.3/104人年);对于非吸烟者40524071.1...5317212ˆ31.2/10142247wI人年分层分析按照混杂因素的水平将数据分层;各层计算检验异质性合并分层分析:病例-对照设计因素A分组因素B暴露(1)未暴露(0)i病例aibi对照cidi212211lnlnkiikiiikiiiwORwORw11111iiiiiwabcd分层分析:队列设计(累积发病率)因素A因素B结果发生(1)未发生(0)i暴露(1)aibi未暴露(0)cidi212211lnlnkiikiiikiiiwRRwRRw1iiiiiiiiibdwaabccd212211kiikiiikiiiwRDwRDw133iiiiiiiiiabcdwabcd分层分析:实例在研究某药物治疗感冒的临床试验中,将受试者按照病情分层后(轻,重)。病情(A)分组(B)疗效合计有效率(%)有效无效轻试验(B=1)5646093.33A=0对照(B=0)30285851.72重试验(B=1)20355536.36A=1对照(B=0)14455923.73分层分析:实例若以RR为效应尺度,对于轻病病人,试验组的病人有效率高于对照组(RR1=1.80,P0.001);对于重病病人,试验组与对照组的病人有效率差异无统计学意义(RR2=1.53,P=0.141);计算得两层的权重分别为w1=57.86,w2=11.59;自由度ν=1,P0.05,故药物效应在病情间不存在异质性。212211222lnln57.86ln1.8011.59ln1.5357.86ln1.8011.59ln1.5357.8611.590.26kiikiiikiiiwRRwRRw分层分析:实例若以RD为效应尺度,对于轻病病人,RD1=41.61%,RD2=12.63%;计算得两层权重分别为w1=187.19,w2=137.46,故根据式(15-22),有计算得两层的权重分别为w1=57.86,w2=11.59;自由度ν=1,P0.05,故药物效应在病情间存在异质性。212211222187.190.4161137.460.1263187.190.4161137.460.1263187.19137.466.66kiikiiikiiiwRDwRDw效应合并(MANTEL-HAENSZEL估计)1001//iiiiMHiiiiabNORabN使用SAS进行分层分析怀孕年龄35怀孕年龄35杀精剂用未用用未用唐氏3913对照1041059586使用SAS进行分层分析DataAA;inputfYMS;cards;31119112104211105921211213122522186222;procfreqdata=AA;tablesM*Y*S/nocolnopercentcmh1;weightf;r
本文标题:20140930.高级医学统计学:混杂因素及其控制
链接地址:https://www.777doc.com/doc-5901820 .html