您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > survival analysis-2009
1流行病与卫生统计学研究所李秀君2009.05.26survivalanalysis2survivalanalysis医学研究中,为了了解某种疾病的预后、评价治疗方法的优劣或观察预防保健措施的效果等,常需对研究对象进行追踪观察,以获得必要的数据,这类资料都属于随访资料。随访资料是指对一批研究对象进行追踪观察所获得的有关其结局以及出现这种结局所经历的时间等方面的资料。由于随访资料的分析最初起源于对寿命资料的统计分析,故称为生存分析,或称为生存时间分析。survivalanalysis3传统方法在分析随访资料时的困难时间和生存结局都成为了要关心的因素•除了生存结局作为判定标准以外,只要能让病人存活时间延长,这种药物也应当是被认为有效的。即时间延长也认为有效。•如果将两者均作为应变量拟和多元模型,因为时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难。survivalanalysis4传统方法在分析随访资料时的困难存在大量失访的资料•失去联系(病人搬走,电话号码改变)•无法观察到结局(死于其他原因)•研究截止显然,将失访数据无论是算作死亡还是存活似乎都不大合理survivalanalysis5研究内容概述几个基本概念生存分析对资料的基本要求生存分析方法生存率估计的非参数方法1.乘积极限法2.寿命表法生存率曲线的比较survivalanalysis6第一节概述生存分析的方法已被广泛应用到医学研究领域,如现场追踪研究、临床疗效试验、疾病预后分析等,生存时间的涵义也随之扩展到更广义的范围,又称为时间-效应分析(time-effectanalysis)。其研究内容主要包括3个方面:①对生存状况进行统计描述(生存概率、生存率、中位生存期等);②寻找影响生存时间的“危险因素”和“保护因素”;③估计生存率和生存时间长短,进行预后评价。survivalanalysis7一、基本概念(一)生存时间(survivaltime):1.定义:广义的生存时间是指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间。也称失效时间(failuretime)。如从疾病“确诊”到“死亡”;从“治疗结束”到“复发”;某电子设备从“开始使用”到“出现故障”,等。由此可见,此处的“生存”是一个广义的概念。根据研究目的不同,可以有不同的“起点时间”和“终点时间”。生存时间的单位可以用年,月,周,日,甚至时,分,秒等表示。survivalanalysis82.特点:(1)分布类型不易确定。一般不服从正态分布,有时近似服从指数分布、Weibull分布、Gompertz分布等,多数情况下往往不服从任何规则的分布类型。(2)生存时间的影响因素多而复杂且不易控制。(3)根据研究对象的结局,生存时间数据可分两种类型:①完全数据(completedata):观察对象在观察期内出现反应(终点事件),这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。②截尾数据(截尾值、删失数据,censoreddata):尚未观察到研究对象出现反应(终点事件)时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。常用符号“+”表示。survivalanalysis(一)生存时间(survivaltime):9截尾值(Censoredvalue)出现的原因截尾的原因主要有3种:①失访:生存但中途失访:包括拒绝访问、失去联系等。②退出:中途退出试验、改变治疗方案、死于其它与研究无关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡,终止随访时间为死亡时间。③终止:指观察期结束时仍未出现结局。survivalanalysis10随访研究中的完全数据与截尾数据观察起点观察终点561234起点事件终点事件失访11起始事件随访时间终点事件疾病确诊死亡疾病确诊痊愈治疗开始死亡治疗开始痊愈症状缓解疾病恶化接触毒物出现毒性反映接触危险因素发病survivalanalysis123.生存时间资料的整理:对于随访资料,需记录的原始数据包括开始观察的时点(起始事件发生的时间)、终止观察的时点、研究对象的结局、考虑的影响因素。生存时间为反映时间长短的指标,属数值变量:生存时间(t)=终止观察的时点–开始观察的时点;结局变量()反映终点事件是否发生,为二分类的变量。通常用(t,)完整地表示一个观察对象的随访结果。survivalanalysis13表15-14例鼻咽癌患者术后随访记录病例号开始日期终止日期结局治疗方法性别…111/29/8011/04/85死亡1F206/13/8206/08/83死亡1M303/02/8312/31/86失访0M408/04/8304/10/86死亡0F表15-24例鼻咽癌患者术后生存时间及相关资料整理表病例号生存时间(天)t结局治疗方法X1性别X2……1180011F236011M31400+00M499010Fsurvivalanalysis14survivalanalysis15(二)死亡概率、死亡率:死亡概率(mortalityprobability):是指某单位时段期初的观察对象在该单位时段内死亡的可能性大小。该时段期初观察人数某单位时段内死亡数q(15.1)若该时段内有删失,则分母用校正人口数:删失数期初观察人数校正人口数21(15.2)死亡率(mortalityrate):指单位时间内研究对象的死亡频率或强度,即平均每千人(或万人、百人等)中的死亡人数。1000该时段平均人口数某单位时段内死亡数m‰(15.3)平均人口数=21(该时段期初人口数+期末人口数)(15.4)survivalanalysis16(三)生存概率、生存率、生存函数、生存率曲线:生存概率(survivalprobability):表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,用p表示,公式如下:qp-1该时段期初观察人数活满某时段的人数(15.5)若该时段内有删失,则分母用校正人口数。生存率(survivalrate):指研究对象经历t个时段后仍存活的概率,即生存时间大于等于t的概率,用tTP表示。生存率随时间t变化而变化,即生存率是相对于时间t的函数,称为生存函数(survivalfunction),记为tS。生存函数在某时点的函数值就是生存率。survivalanalysis17生存函数或生存率计算如下:①若前t个时段没有删失:研究期初观察总人数数时段结束时仍存活的人ttTPtS)()((15.6)如:%100研究期初观察人数年的人数活满年生存率nn。②若观察期内有删失:假定观察对象在各个单位时段内是否生存的事件是相互独立的,其生存概率分别为tpppp,,,,321,则根据概率乘法原理得ttjtjpppppt......)S(321(15.7)故生存函数又称累积生存概率(cumulativeprobabilityofsurvival),即将时刻t尚存活看成是前t个时段一直存活的累计结果。如:11211101np......pppn年生存率。survivalanalysis18(四)生存率曲线(survivalcurve):是指以时间为横轴、生存率为纵轴,将各个时点的生存率连接在一起的曲线图。曲线形状分为两种:1、阶梯形:小样本资料用直接法估计的生存曲线;2、折线形:大样本资料用频数表法估计的生存曲线。(五)中位生存期(mediansurvivaltime):也称半数生存期,即生存时间的中位数,表示生存率等于50%时的时间。反映生存时间的平均水平。survivalanalysis19(六)危险率函数(hazardfunction):指t时刻尚存活的研究对象死于t时刻后一瞬间的概率,为条件概率。即活到了t时刻的条件下在t~tt这一微时段内死亡的概率,用th表示。ttTttTtPtht)(lim)(0ttnttntnt)()()(lim0(15.8)T为观察对象的生存时间,tn为t时刻的生存人数,ttn为t+t时刻的生存人数。危险率函数也称为死亡力(forceofmortality)、瞬时死亡率(instantaneousfailurerate)等。survivalanalysis20th1是一种上升的曲线,危险率随时间变化而增加,如急性白血病患者治疗无效时其危险率随时间呈增加趋势;th2的曲线为下降趋势,表示危险率逐渐减小,如意外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;th3为一种稳定的危险率函数,如某些慢性病患者在稳定期,其危险率基本不变。图15-1三种不同形式的危险率函数曲线21二、生存分析对资料的基本要求1.样本由随机抽样方法获得,要有一定的数量。死亡例数和比例不能太少。2.完全数据所占的比例不能太少,即截尾值不宜太多。3.截尾值出现的原因无偏性。为防止偏性,常需对被截尾的研究对象的年龄、职业、地区、病情轻重等情况进行分析。4.生存时间尽可能精确。因为许多常用的生存分析方法都在生存时间排序的基础上作统计处理,即使小小的舍入误差也可能改变生存时间顺序而影响结果。5.缺项要尽量补齐。survivalanalysis22三、生存分析的方法1.非参数法:其特点是不论资料是什么样的分布形式,只根据样本提供的顺序统计量对生存率进行估计,常用的方法有乘积极限法和寿命表法。2.参数法:参数法的特点是假定生存时间服从于特定的参数分布,根据已知分布的特点对影响生存的时间进行分析,常用的方法有指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法等。3.半参数法:半参数法兼有非参数法和参数法的特点,主要用于分析影响生存时间和生存率的因素,属多因素分析方法,典型方法为Cox模型分析法。survivalanalysis23第二节生存率估计的非参数法一、乘积极限法乘积极限法(product-limitmethod)是由Kaplan和Meier在1958年首先提出,故又称Kaplan-Meier法(K-M法)。主要适用于样本含量较小的资料。步骤如下:(1)将含量为n的样本观察值(生存时间t)由小到大依次排列,秩次ni,,2,1。如遇非截尾值与截尾值相同时,将非截尾值排在前面。(2)列出各时点(实为一短的时间单位)开始时的存活数,即期初观察单位数in。(3)计算各时点死亡概率q及生存概率p(p=1-q)。(4)求活过各时点的生存率itS,等于从开始观察时点到it时点各生存概率的连乘积。survivalanalysis24(5)计算生存率的标准误:1()kikkiiiidSEStStnnd(15.10)(6)绘制生存率曲线。常绘制成阶梯形的曲线,方法是将各非截尾值及其对应的生存率标在直角坐标纸上,然后将各点垂直向下再水平向右连成阶梯形。(7)必要时可按正态近似法估计总体生存率的可信区间。某时点ti的总体生存率%1的可信区间为:2kkStuSESt(15.11)survivalanalysis25例15.1用某中药+化疗(中药组)和化疗(对照组)两种疗法治疗白血病后,随访记录患者死前存活月数,结果如下。试分别估计两组的生存率并绘制生存率曲线。中药组:102+12+13186+19+269+8+6+43+943124对照组:2+137+11+61113177用Kaplan-Meier法分别计算两组的生存率。survivalanalysis26表15-4对照组生存率计算秩次观察月数期初病例数死亡人数死亡概率生存概率活过该月的生存率生存率标准误ixndqpp(xt)s(1)(2)(3)(4)(5)(6)(7)(8)111010.10000.90000.90000.094922+900.00001.00000.9000.33810.12500.87500.78750.134
本文标题:survival analysis-2009
链接地址:https://www.777doc.com/doc-6363699 .html