您好,欢迎访问三七文档
生存分析SurvivalAnalysis公共卫生学院卫生统计学教研室一、概述1.传统方法在分析随访资料时存在困难:(1)时间和生存结局都成为了要关心的因素如果将结局和时间均作为因变量拟和多元模型,由于时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难。(2)存在大量删失资料将失访数据无论是算作死亡还是存活都不合理,时间判定存在难度。①失去联系;②无法观察到结局(死于其他原因);③研究截止。2.生存分析的应用可用于现场追踪研究、临床疗效试验、疾病预后分析等与时间相关的分析,生存时间的涵义也随之扩展到更广义的范围,又称为时间-效应分析(time-effectanalysis)。其研究内容主要包括3方面内容:(1)对生存状况进行统计描述(生存概率、生存率、中位生存期等);(2)寻找影响生存时间的“危险因素”和“保护因素”;(3)估计生存率和生存时间长短,进行预后评价。(1)生存分析(survivalanalysis):是将终点事件(terminalevent)的出现与否及其出现所经历的时间结合起来分析的统计方法。由于通常研究的终点事件为死亡,故而得名生存分析,但生存分析更广泛地用于各学科研究领域的事件分析,如设备的失效、疾病的发生和预后等,因此也被称为可靠性分析(reliabilityanalysis)、失效时间分析(failuretimeanalysis)等。(2)生存时间(survivaltime):指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间,终点事件称为失效,则生存时间也称失效时间(failuretime)。3.基本概念(3)根据是否观察到研究对象的结局,将生存时间数据的分为两类:①完全数据(completedata):观察对象在观察期内出现终点事件,这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。②截尾数据(censoreddata):亦称截尾值、删失数据,指在尚未观察到研究对象出现终点事件时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。常用符号“+”表示。(4)产生删失的原因①失访:生存但中途失访,如拒绝访问、失去联系等。②退出:中途退出试验或改变治疗方案或死于其它与研究无关的原因。③终止:指研究结束时终点事件尚未发生。研究起始研究终点*终点事件+截尾值++**++*(5)生存时间的特点:①同时考虑生存结局和生存时间;②生存时间可能含有删失数据;③生存时间的分布和常见的统计分布有明显不同,如呈指数分布Weibu11分布、对数正态分布、对数logistic分布、gamma分布或更为复杂的分布,因此需有能分析这类数据的特殊的统计方法;④生存时间的影响因素多而复杂且不易控制。(6)死亡概率和生存概率①死亡概率(probabilityofdeath)表示某单位时段开始时存活的个体在该时段内死亡的可能性,如年死亡概率表示年初尚存人口在今后1年内死亡的可能性。②生存概率(probabilityofsurvival)表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性,如年生存概率表示年初尚存人口存活满一年的可能性。某时段初人口数某时段死亡人数q某时段初人口数活过某时段的人数p1pq(7)生存率生存率(survivalrate),又称累积生存概率(cumulativeprobabilityofsurvival),指观察对象经历t个单位时段后仍存活的可能性。累积生存概率随着时间t的变化而变化,它是时间t的函数,称为生存函数(survivalfunction)。①如资料中无删失数据,则直接计算生存率。②若含有删失数据,须分时段计算生存概率。观察总例数时刻仍存活的例数kktttTPSˆk)(ktkktpSˆppptTPSˆkk121)((8)中位生存期中位生存期(mediansurvivaltime)又称半数生存期,表示恰有50%的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;反之,预后越差。估计中位生存期常用图解法或线性内播法。(9)风险函数风险函数(hazardfunction),表示t时刻存活的个体在t时刻的瞬时死亡率。△t=1时,h(t)近似地等于t时刻存活的个体在此后一个单位时段内的死亡概率。ttttTtPlimtht△△△T|0二、生存率估计生存率估计主要有寿命表法和Kaplan-Meier法。1.寿命表法适用于大样本或粗略的生存时间资料;2.Kaplan-Meier法适用于小样本或大样本且有精确生存时间的资料。两者均应用定群寿命表的基本原理,先求出各个时段的生存概率,然后根据概率乘法定理计算生存率。1.寿命表法当样本量较大时,通常将资料先整理成频数表形式,用寿命表法计算样本资料的生存率及生存率的标准误。寿命表法(lifetablemethod)是采用编制定群寿命表的原理来计算生存率,首先求出患者在治疗后或健康者在预防措施后各时期的生存概率,然后根据概率的乘法法则,将各时期的生存概率相乘,即可得到自观察开始到各时点的生存率。序号i确诊后年数期内死亡数ti期内删失数ci期初病例数期初有效例数ni死亡概率qi生存概率pi生存率S(t)生存率标准误SE(1)(2)(3)(4)(5)=ni-1-ti-1(6)=(5)-ci-1/2(7)=(3)/(6)(8)=1-(7)(9)=pi×pi-1(10)10900374374.00.24060.75940.75940.022121760284284.00.26760.73240.55620.025732510208208.00.24520.75480.41980.0255432512157151.00.16560.83440.35030.024854205120117.50.17020.82980.29070.023965799590.50.07730.92270.26820.023576497974.50.05370.94630.25380.023387136664.50.01550.98450.24990.023398356259.50.05040.94960.23730.0232109~10255451.50.03880.96120.22810.0232表1寿命表法估计生存率计算表ijiippse18670.00.10.20.30.40.50.60.70.80.91.0012345678910时间/年生存率图1某恶性肿瘤生存曲线(寿命表法)1.曲线折线形:因不知道时段内生存率的变化规律,故用直线连接各端点,形成一条折线。2.曲线连续:可估计任意时点的纵坐标值(生存率)。3.曲线尾部稳定性好:寿命表法用于大样本,通常最后一个时段仍有一定观察例数,故曲线尾部稳定性较好。2.Kaplan-Meier法图3肿瘤3.0cm组和肿瘤≥3cm组生存曲线(K-M法)寿命表法死亡概率计算为当期死亡数/有效例数。K-M法的死亡概率为当期死亡数/期初例数。生存曲线特点(1)曲线左连续:每一级台阶的右端为断点,当前死亡时点处的纵坐标值在下一个台阶。(2)曲线阶梯形:不能用直线或曲线连接相邻的两个生存率散点。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。(3)曲线尾部不稳定:随着时间的增加,观察例数越来越少,误差越来越大,尾部极不稳定。多组比较时,常发生曲线尾部交叉现象。(4)计算中位生存期:找到与生存率50%相邻的上下两个生存率及其生存时间,利用线性比例关系求解中位生存期。3.生存率的区间估计ijiittjjjjttdnndSˆSˆSEiittSˆSEzSˆ2itiSˆlnlntvˆiiiittttSˆSˆlnSˆSEvˆSEitivˆSEzexptSˆ2避免生存率接近0或100%时,出现超过[0,1]的范围三、生存率的比较生存率比较的假设检验方法有参数法、半参数法和非参数法。因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设检验。非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。常用的非参数检验方法有log-rank检验(时序检验)、Breslow检验和Gehan比分检验等。1.时序(log-rank)检验由Mantel等人于1966年提出。基本思想:在无效假设成立的前提下,根据不同处理各生存时期的期初观察人数和理论死亡概率计算出的理论死亡数应该与实际死亡数相差不大;如果相差较大,则可认为生存曲线间有统计学差异。检验统计量近似服从自由度为(组数一1)的c2分布,ggigiVTd22ciiiiigiigigdndnnnnnV11时间3.0cm≥3.0cm死亡存活合计死亡存活合计死亡合计存活合计总计6014141151612930701414114151282990141411314127281001414112131262711014141111212526…………………………………………表2肿瘤患者生存曲钱比较的log-rank检验计算表组别死亡存活合计3.0cm01414≥3.0cm11516合计12930组别死亡存活合计3.0cm01414≥3.0cm11415合计12829组别死亡存活合计3.0cm01414≥3.0cm11516合计12930NCRT46670301411.T53330301412.T组别死亡存活合计3.0cm01414≥3.0cm11415合计12829NCRT48270291411.T51720301412.TdndnnnnnViii11组别死亡存活合计3.0cm01414≥3.0cm11516合计12930组别死亡存活合计3.0cm01414≥3.0cm11415合计12829dndnnnnnViii11248901.V248902.V249701.V249702.VggigiVTd22c111d5416171.T162d458492.T806451.VVi806451.VVi3707806455416171122...c1120070.PggigiiVTdw22ciiiiigiigiigdndnnnnnwV1122.Breslow检验Breslow检验(又称Wilcoxon检验),c2统计量计算如下。其中,d、T、V等的意义同log-rank检验,wi为权重。Breslow检验取wi=ni,log-rank检验可看作wi=1。ni通常逐渐减小,所以Breslow检验给组间死亡的近期差别更大的权重,即对近期差异敏感;而log-rank检给组间死亡的远期差别更大的权重,即对远期差异敏感。6372.cLog-rankTestandWilcoxonTest由于权重不同,由两种方法得到差别有统计学意义的难易度随生存函数的不同而不同。ALog-rank检验易有统计学意义时间01生存率BWilcoxon检验易有统计学意义时间01生存率C两种检验方法都不易有统计学差异时间01生存率Log-rank检验和Breslow检验也适用于寿命表资料及多组生存率间的比较。实际死亡数A与理论死亡数T之比称为相对死亡比(relativedeathratio),R=A/T。则相对危险度(relativerisk,RR)估计值为两组相对死亡比之比。Log-rank检验属单因素分析方法,应用条件是除比较因素外,影响生存率的各混杂因素组间均衡可比,否则应采用Cox比
本文标题:生存分析
链接地址:https://www.777doc.com/doc-4379610 .html