您好,欢迎访问三七文档
倾向指数目录1、什么是倾向指数2、倾向指数的研究类型4、倾向指数应用的关键问题5、倾向指数的优点和局限性3、倾向指数的应用范围6、案例应用什么是混杂?在流行病中研究中如何处理混杂因素?如果研究人群中存在一个或多个既与观察结局有关,又与处理因素有关的外来因素,那么就可能会掩盖或夸大所研究的处理因素与观察结局之间的联系。这种影响称之为混杂偏倚(confoundingbias)或称混杂(confounding)。这些外来因素称为混杂因素(confoundingfactors)。临床随机对照试验(randomizedcontrolledtrial)传统的控制混杂偏倚的方法包括在研究设计阶段进行配比,或在数据分析阶段按照混杂因素分层,或采用多因素数学模型进行调整等•倾向指数(propensityscore,PS,倾向评分)的概念由Rosenbaum和Rubin在1983年首次提出。2000年之后,这一方法日益受到人们的关注。国际上越来越多的研究者将倾向指数法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。在流行病学研究中,该方法可以在分析和设计阶段有效平衡非随机对照研究中的混杂偏倚,使研究结果接近随机对照研究的效果。•通过PubMed检索“propensityscore”,2000年之前共有77篇,到2010有1691篇,截止到目前为止有4320篇。•在数据库CNKI中检索“倾向指数”或“倾向评分”,2004年之前没有相关文献,截止到目前为止只检索到相关文献17篇。•倾向指数,它是多个协变量的一个函数,通过倾向指数的变化可以表示多个协变量共同作用的结果,来均衡处理组和对照组间的协变量分布。倾向指数是所有协变量的一个函数,在大样本情况下,经过倾向指数调整的组间个体,除了处理因素和结果变量分布不同外,其他协变量应当均衡可比,相当于“事后随机化”,使观察性数据达到“接近随机分配数据”的效果。倾向指数的基本原理•倾向指数的理论值,记为E(X),由以下函数模型产生:E(X)=P(Z=1|X=x)(其中分组变量=Z,Z=1代表样本接受处理组,Z=0代表样本接受对照组,X=x代表除处理因素以外的所有已知的混杂因素,即特征变量。)假定分组变量Z和特征变量Xi相互独立,则P就是所定义的倾向指数,这里倾向指数P是评价两组间特征变量Xi均衡性的近似函数。如果从处理组选出研究对象i,则Pi(Zi=1|Xi=xi),再从对照组选出一个研究对象j,那么Pj(zj=0|Xj=xj);如果Pi=Pj,则必然有xi=xj,如果我们尽量使Pi≈Pj,则xi和xj必然十分接近。由此可见,倾向指数Pi最大限度地概括混杂因素xi的作用,因而可以有效地保持处理组和对照组间xi的均衡性,使两组间各个特征变量均衡一致。•多数情况下Zi均为二分类变量,因此可以运用判别分析或logistic回归的方法,估计出各个研究对象的倾向指数Pi。如果特征变量xi均为正态分布的计量数值,宜于选用判别分析法估计出各个观察对象的倾向指数Pi;在大多数情况下,尤其是医学研究资料,xi中都包含有一些二分类变量或等级变量,多选用非条件logistic回归的方法来估计倾向指数,数学模型如下:其中,e(xi)为倾向指数,α,β为模型参数,其中α即组间效应,β为回归系数,X为协变量。研究步骤•①根据临床经验和实际要求,以处理因素为应变量,混杂因素为自变量来构建logistic或者probit模型;•②由大量观察性数据拟合模型的参数;•③根据拟合的模型计算每个个体的倾向指数,指数范围为0—1之间,反映个体被分到某组的概率;•④以倾向指数为依据,通过倾向指数匹配或分层等方法来均衡组间协变量的分布;•⑤选择合适的方法来评价倾向指数方法应用前后组间协变量的均衡性,均衡性评价是衡量倾向指数方法应用效果的重要指标;•⑥根据数据类型选择相应的传统统计方法进行分析,估计处理效应,但是要考虑到应用倾向指数方法后样本的配对特征。•在实际工作中,倾向指数法需要在统计软件中实现。常用的统计软SAS,SPSS,STATA均可以进行倾向指数的分析。倾向指数主要研究方法匹配分层协变量调整匹配法•倾向指数匹配法在医学研究中应用最为广泛。是指通过模型估计倾向指数后,从对照组中选出与暴露组倾向指数相同或相近的个体进行配对,以达到均衡组问协变量的目的。•从匹配范围上,倾向指数匹配法可分为局部匹配和全局匹配。•局部匹配法也称最近可用匹配,是指暴露组从第一个个体开始,在对照组中寻找倾向指数与其最接近的个体,直到暴露组所有个体都有匹配的个体,其优点在于匹配集的最大化,最大程度保留了研究样本的信息。•全局匹配法是把匹配问题转化为运筹学中网络流(networkflows)问题,把暴露组和对照组个体看作节点(node),把匹配转化为求最小化节点间的总距离,不保证每个处理都能找到最优的匹配,也就是说,与暴露组个体匹配的对照组个体倾向指数的差值并不是最小的。但是能保证匹配集倾向指数总体差值的最小化,这个优势是其他匹配方法无法比拟的。分层法•倾向指数分层法是把倾向指数作为分层的惟一标准,通过模型估计倾向指数后,确定倾向指数界值的范围,然后按倾向指数分为若干区间,视区间为层进行分析,层内组协变量分布应该是均衡的,将各层处理效应赋予权重后相加来估计处理效应,并检验各层内暴露组和对照组闯每个协变量的均衡性。•倾向指数分层法在应用中要注意的问题是分层数和权重的设定。•倾向指数分层法与传统分层法相比,优点在于协变量的增多不会影响层数,因此可以应用于协变量很多的情况,也不受协变量类型的影响。根据文献研究,如果协变量为连续性变量,五层均等分层法,即按倾向指数把样本平均分为五层,能减少90%以上的偏倚,这也是分层法中最常用的方法。协变量调整•匹配和分层法主要用于均衡组间协变量,使组间具有可比性。而协变量调整法是把倾向指数引入模型,直接作为回归分析的一个协变量,或者把代表多个协变量的倾向指数作为回归分析的惟一协变量,以结局变量为应变量来构建模型,估计处理效应。•匹配法、分层法和协变量调整法在医学研究中都有不同程度应用,其中匹配法应用最为广泛。匹配法应用广泛有以下一些原因:首先,在不遗漏混杂因素的情况下,倾向指数匹配法能得到处理效应的无偏估计,但是无论选择何种倾向指数模型,分层法都会产生处理效应的有偏估计,匹配法比分层法能更大程度地减少偏倚。第二,倾向指数匹配法对协变量的均衡能力优于分层法,组间协变量能得到更好的平衡。第三,倾向指数匹配法能直接比较匹配数据集暴露组和对照组间协变量的均衡性,从而确定暴露组和对照组间的可比性,与其他方法相比更为直观,而分层法只能在层内比较,不能直接比较研究样本的均衡性,协变量调整法则无法比较。第四,针对倾向指数匹配法的灵敏度检验方法已经提出并应用,灵敏度检验用来分析潜在混杂因素引起的偏倚对估计处理效应产生的影响,而针对倾向指数协变量调整和加权法的灵敏度检验还没有实质性的进展”。第五,协变量调整法是基于模型的分析,它要求建模正确,增加了结果的不确定性,丧失了倾向指数方法易于理解、结果便于解释的特点,这是倾向指数方法与传统多元方法的最大区别,而匹配法和分层法不需要建模。第六,Rubin研究表明在暴露组和对照组间协变量方差不齐的情况下,协变量凋整法可能会增加偏倚,而组间协变量方差不齐在观察性研究中很常见,所以协变量调整法要谨慎运用。•倾向指数分层法和协变量调整法的优势是没有损失样本,最大限度地保留了原有信息,这也正是匹配法的缺点,匹配后因为排除了无法匹配的样本而减少了样本量,如果暴露组和对照组间样本量差别较大,可能会造成匹配样本占原始样本的比例过小,从而改变样本特征,会降低估计处理效应的准确性倾向指数的应用范围倾向指数法适合于所有非随机化研究的资料,或者说存在混杂偏倚的研究资料的处理。主要包括下面一些资料类型:1.观察性研究资料:包括现况研究、病例对照研究以及队列研究等。2.非随机干预研究资料。3.随机对照方案失败的研究资料倾向指数应用中的关键问题倾向指数模型变量的选择暴露组和对照组间可观测变量均衡性的评价应用倾向指数方法后处理效应的估计倾向指数模型的灵敏度分析。倾向指数模型变量的选择•倾向指数方法应用中,首要步骤就是构建倾向指数模型,而模型的构建涉及变量的选择。变量选择标准是“怎样能更好地控制混杂因素,减少其对处理效应估计的干扰”研究表明,模型变量选择的标准应该是纳入所有与结局变量有关的变量,具体应结合相关学科专业知识进行选择。可观测变量均衡性评价•国外学者提出一些评价组问协变量均衡性的方法,包括标准差异、方差比法和图示法等。•标准差异在近年的研究中应用较多。方差比法主要是针对连续性变量而言,通过组间协变量方差的比较来衡量均衡性。图示法是通过Q-Q图直观地表示,缺点是不能量化。处理效应的估计•倾向指数方法的主要目的就是减少处理效应估计的偏倚,选用何种方法来估计处理效应,显得至关重要。如对于连续性变量资料可以根据数据分布类型的不同,选用配对t检验或者Wileoxon符号秩检验;对二分类变量,比较绝对危险度,可以采用McNemar检验;对于生存数据可以采用Cox比例风险模型进行分析。灵敏度分析•灵敏度分析用来评价潜在的未知混杂因素对研究结论的影响。经过倾向指数调整,均衡了组间协变量分布,排除了可观测变量引起的偏倚,但是不能排除可能有潜在的混杂因素引起的偏倚,因此,需要用灵敏度分析来量化隐藏偏倚。•灵敏度分析虽然不能确定是否存在潜在的混杂因素,但是可以估计隐藏偏倚对研究结论的影响。不同的研究对偏倚的敏感性存在差异,对偏倚不敏感并不表示偏倚不存在,反之亦然。倾向指数灵敏度分析常用的方法是Wiicoxon符号秩检验。倾向指数的优点1.能减少非随机观察性研究中的选择性偏倚。2.通过倾向指数调整组间的混杂因素,使海量的临床观察性数据可以成为循证医学的诊疗证据,而这些数据获取成本低,更能够反映医疗实践中实际存在的疾病谱。3.适用于混杂因素很多,而结局变量发生率很低的情况,而传统多元模型并不适合。4.在无法实现随机化的药物临床试验以及医疗器械临床试验中,可以通过倾向指数方法均衡组问混杂因素;倾向指数的局限1.该方法只能均衡可观测变量,对潜在的未知混杂因素引起的偏倚无能为力;2.样本量较小时,即使通过倾向指数方法调整,组间协变量的分布也不能达到满意的均衡效果;3.如果匹配后样本占匹配前样本的比例过小,会改变样本构成,从而影响对处理效应的估计;4.当处理组和对照组倾向指数没有重叠或者重叠范围较少时,组间缺乏可比性,无法进行合适的匹配总之,倾向指数方法在大样本观察性临床研究中的应用日益广泛,但在运用时,要考虑其适用范围。•倾向指数方法与随机化方法的区别在于,随机化方法均衡了组间已知以及未知的所有因素,而倾向指数方法仅仅均衡了组间的已知因素。在理论上,如果倾向指数模型纳入了所有影响结果的因素,则通过匹配后得到的数据与经过随机化得到的数据性质应相同。但是实际上,这并不可能,也无法证明在倾向指数模型中纳入了所有应当纳入的因素,所以倾向指数方法只是提供了一种在现有条件下能够做到的最好途径。实例分析(一)•某医院欲利用一项“妇女孕期妊娠高血压综合征调查研究”资料迸一步随访研究妇女孕期先兆子痫(PE)对儿童某些发育状况的影响。该项研究包括187例先兆子痫妇女和4722名正常妇女。如果全部随访,随访任务大。因此,需要从中选取部分可比的个体进行随访。•两组人群一些主要特征的分布存在显著差异,影响效应的估计,这些因素包括妇女年龄、怀孕前后BMI、文化程度、产次(初产/非初产)、胎数(单胎/多胎)。现采用单纯的倾向指数匹配法和按产次分层倾向指数匹配法两种方法选取可比的个体作为随访对象。•单纯PS配比首先以PE变量(1=PE,0=正常)为因变量,以需要调整的上述变量为自变量构建1ogistic回归模型,求出每个研究对象的PS值将研究对象按PE变量分为两组,然后用SPSS软件程序进行匹配,配比精度为PS0.01。为了保证较好的配比效果,采用精度由高到低(PS
本文标题:倾向指数
链接地址:https://www.777doc.com/doc-3154577 .html