您好,欢迎访问三七文档
余红梅DepartmentofHealthStatisticsSchoolofPublicHealth,ShanxiMedicalUniversity生存分析SurvivalAnalysisTobeornottobeisonlyapartofthequestion.Thequestionalsoincludeshowlongtobe.生存分析(survivalanalysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。前言第一节生存分析基本概念一、生存时间(survivaltime,failuretime)终点事件与起始事件之间的时间间隔。终点事件指研究者所关心的特定结局。起始事件是反映研究对象生存过程的起始特征的事件。生存时间举例起始事件终点事件服药痊愈手术切除死亡染毒死亡化疗缓解缓解复发终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,不能随意改变。生存时间的类型1.完全数据(completedata)从起点至死亡(死于所研究疾病)所经历的时间。2.截尾数据(删失数据,censoreddata)从起点至截尾点所经历的时间。截尾原因:失访、死于其它疾病、观察结束时病人尚存活等。例如,某肿瘤医院调查了1991-1995年间经手术治疗的大肠癌患者150例,对可能影响大肠癌术后生存时间的因素进行了调查,如性别、年龄、组织学分类、肿瘤大小、Dure’S分期等。随访截止日期为2000年12月30日,随访记录见下表。大肠癌患者的随访记录编号性别年龄…手术日期随访终止日期随访结局生存时间(天)1男45…1991.05.201995.06.04死亡14762男50…1992.01.121998.08.25死亡24173女36…1991.10.241994.03.18失访876+4男52…1994.11.022000.12.30存活2250+5女56…1994.06.251995.03.17死亡2656女60…1993.12.051996.08.16死于其它985+…生存时间生存时间的度量单位可以是年、月、日、小时等。常用符号t表示,截尾数据在其右上角标记“+”。生存资料的主要特点:含有截尾数据。截尾数据的特点:真实的生存时间未知,只知道比观察到的截尾生存时间要长。生存时间的分布一般不呈正态分布。二、条件生存概率、生存率、生存曲线条件生存概率:(conditionalprobabilityofsurvival)表示某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。年条件生存概率表示年初尚存人口存活满1年的可能性。年初观察例数活满一年例数p生存率:(survivalrate,survivalfunction)指观察对象经历t个单位时段后仍存活的可能性。期初观察例数年例数活满年生存率=33期初观察例数年例数活满年生存率=55条件生存概率和生存率的计算例:手术治疗100例食管癌患者,术后1、2、3年的死亡数分别为10、20、30,若无截尾数据,试求各年条件生存概率及逐年生存率。生存率计算方法:直接法概率乘法定理由例子可看出,生存率与条件生存概率不同。条件生存概率是单个时段的结果,而生存率实质上是累积条件生存概率(cumulativeprobabilityofsurvival),是多个时段的累积结果。例如,3年生存率是第1年存活,第2年也存活,第3年还存活的可能性。生存曲线(survivalcurve)以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。某医师收集20例脑瘤患者甲、乙两疗法治疗的生存时间(周)如下:甲疗法组13371015152330乙疗法组57+1313233030+38424245+SurvivalFunctions生存时间50403020100CumSurvival1.0.8.6.4.20.0组别乙疗法组乙疗法组-censored甲疗法组甲疗法组-censored三、中位生存期中位生存期(mediansurvivaltime)又称半数生存期,表示恰好有50%的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。估计中位生存期常用图解法或线性内插法。生存资料统计学处理方法(一)设计目的:专业目的:据专业知识确定。统计学目的:估计:根据样本生存资料估计总体生存率及其它有关指标(如中位生存期等),如根据脑瘤患者治疗后的生存时间资料,估计不同时间的生存率、生存曲线以及中位生存期等。比较:对不同处理组生存率进行比较,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。影响因素分析:目的是为了探索和了解影响生存时间长短的因素,或平衡某些因素影响后,研究某个或某些因素对生存率的影响。如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。预测:具有不同因素水平的个体生存预测,如根据脑瘤病人的年龄、性别、病程、肿瘤分期、治疗方案等预测该病人t年(月)生存率。方法:前瞻性队列研究回顾性队列研究确定起始事件、终点事件、随访终止日期、生存时间、截尾。确定可能的影响因素、水平以及量化方法。大肠癌影响因素量化表变量名因素量化值病例数构成比(%)X1性别女=03248.5男=13451.5X2年龄(岁)40=11015.140-60=23756.1≥60=31928.8X3组织学分类乳头状腺癌=02030.3管状腺癌=14669.7X4肿瘤大小(cm)≤6=02943.9>6=13756.1X5细胞增殖抗原(PCNA)55%=02740.9≥55%=13959.1X6淋巴管浸润无=04466.7有=12233.3X7血管浸润无=05887.9有=1812.1Time手术到观察结束实际天数Event结束时是否死亡未死=02233.3死亡=14466.7设计调查表:一览表:因素较少时。单一表:因素较多时。调查表中应包括可能的影响因素观察起点和终点(年、月、日)生存时间生存结局样本含量:非截尾例数至少是可能影响因素的10倍。三联体数据(二)搜集资料可能的影响因素:从病历获得。生存时间及结局:短期可观察到的结局可从病历获得;长期结局一般不能从病历直接获得,通过信访、电话等得到。(三)整理资料认真检查、核对原始数据,包括影响因素、生存时间和生存结局。尽量避免缺失值。建立数据库FoxBase、Foxpro、VirualFoxpro等专业数据库统计软件数据库(SAS、SPSS等)Office办公软件中的Excel、Access大肠癌生存资料序号X1X2X3X4X5X6X7TimeEvent1021001028960202100109921312110002811040311010205215120100029750612111118561…6501111005841生存资料基本要求样本由随机抽样方法获得,要有一定的数量。死亡例数不能太少。截尾比例不能太大。生存时间尽可能准确。因为常用的生存分析方法都在生存时间排序的基础上作统计处理,即使是小小的舍入误差,也可能改变生存时间顺序而影响结果。缺项应尽量补齐。(四)分析资料估计:Kaplan-Meier法,寿命表法比较:log-rank检验影响因素分析:Cox比例风险回归模型(Cox回归模型),是生存分析中最重要的模型之一。预测:Cox回归模型预测生存率。第二节生存率的估计与生存曲线一、小样本资料生存率及其标准误的计算生存率的计算:Kaplan-Meier法(K-M法、乘积极限法)Kaplan-Meier法由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limitmethod),是一种非参数法,适用于小样本和大样本。生存率的标准误的计算生存曲线二、大样本资料的生存分析生存率的计算寿命表法生存曲线第三节生存曲线的log-rank检验log-rank检验(对数秩检验、时序检验)该检验属非参数检验,用于比较两组或多组生存曲线或生存时间是否相同。检验统计量为卡方。自由度=组数-1。P≤0.05,两组或多组生存曲线不同。P>0.05,两组或多组生存曲线差别无统计学意义。注意以上介绍的是log-rank检验的近似法,计算简便,但其结果较精确法(一般统计软件中输出精确法计算结果)保守。近似法:(手工)精确法:(软件)56.7201.0005.0P75.820031.0P此检验比较两组或多组生存曲线,实为一单因素分析。要求各组生存曲线不能交叉,如交叉提示存在混杂因素,应采用分层分析方法或多因素方法来校正混杂因素。当假设检验有统计意义时,可从以下几方面来评价各组效应大小:生存曲线图目测判断、中位生存期比较等。log-rank检验用于整条生存曲线的比较,若比较两组某时间点处的生存率,则按下式计算:如比较多个时间点处生存率,检验水准应取Bonferroni校正,即,其中k为比较的次数,以保证总的I型错误概率不超过。)]([)]([)()(221221tSSEtSSEtStSukαα/第四节Cox比例风险回归模型Cox比例风险回归模型(Cox’sproportionalhazardsregressionmodel),简称Cox回归模型。该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。其优点:多因素分析方法不考虑生存时间分布利用截尾数据一、Cox模型的基本形式h(t,X)—t时刻风险函数、风险率或瞬时死亡率(hazardfunction)。h0(t)—基准风险函数,即所有变量都取0时t时刻风险函数。X1、X2、…、Xp—协变量、影响因素、预后因素。β1、β2、…、βp—回归系数。)exp()(),(22110ppXXXthXthβ0,RR1,说明变量X增加时,危险率增加,即X是危险因素。β0,RR1,说明变量X增加时,危险率下降,即X是保护因素。β=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。eRR二、参数估计与假设检验(一)参数估计最大似然法(二)假设检验似然比检验(likelihoodratiotest)得分检验(scoretest)Wald检验(Waldtest)三、因素筛选与最优模型的建立变量筛选方法向前引入法(前进法)Forward向后剔除法(后退法)Backward逐步引入-剔除法(逐步法)Stepwise检验水准初步的、探索性的研究,或变量数较少时,可取0.10。设计严谨的、证实性的研究,或变量数较多时,可取0.05或0.01。检验水准包括引入的检验水准和剔除的检验水准。一般地,剔除α≥引入α。分析结果(结果解释)与生存相关的因素因素作用大小及方向:保护因素还是危险因素、相对危险度的大小。因素作用大小排序:标准化回归系数的绝对值。分析结果(结果解释)个体的预后指数及预后分组:预后指数(prognosticindex,PI)=预后指数越小,预后越好;预后指数越大,预后越差。ppXbXbXb2211)exp()(),(22110ppXbXbXbthXth分析结果(结果解释)例如:传统治疗方式,淋巴结转移,PI=2.6929传统治疗方式,淋巴结无转移,PI=1.7616新治疗方式,淋巴结转移,PI=0.9313新治疗方式,淋巴结无转移,PI=0据PI的大小可将病人分为不同的危险组,常见分三组
本文标题:生存分析
链接地址:https://www.777doc.com/doc-3446080 .html