您好,欢迎访问三七文档
医学统计学(12)——生存分析、ROC分析季聪华2012.12.19生存分析ROC分析在医学研究中,常常用追踪的方式来研究事物发展的规律。如:了解某药物的疗效,了解手术的存活时间,了解某医疗仪器设备使用寿命等等。生存资料的特点(1)包含有结局和时间两个方面的信息。(2)结局资料一般为二分类资料,即结局是两对立相互排斥的事件,如生存与死亡、有效与无效等。(3)生存资料一般需经过前瞻性随访观察才能获得,随访往往从某统一的时点开始,到某规定的时点结束,所以生存资料有时也称为随访资料。(4)由于失访等原因使一些研究对象的生存时间难判断,导致部分生存时间数据不完整。生存资料的数据类型•按观察对象生存时间的完整性可分为两种类型。(1)完全数据:指观察起点到发生结局事件的时间明确、完整的资料,即具有明确完整生存时间的数据。(2)截尾数据:指由于其他因素(非研究因素)导致观察对象的生存时间难以明确判断,这种生存时间数据称为截尾数据。也称为截尾值、删失值或终检值。不论截尾数据的产生原因为何,截尾生存时间的计算均为观察起点至截尾点所经历的时间,而且一般情况下其准确的生存时间要长于截尾时间,常在此类数据的右上角标记“+”。生存分析基本概念起始事件是反映生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始、接触毒物等。在生存分析随防研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全;这种事件称为失效事件,也称之为死亡事件、终点事件。生存时间(survivaltime)是指任何两个有联系事件之间的时间间隔,常用t表示。狭义的生存时间指患某疾病的病人从发病到死亡所经历的时间跨度,广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度。如:急性白血病病人从治疗开始到复发为止之间的缓解期,冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟之间的时间间隔,接触危险因素到发病的时间间隔等。生存分析中最基本的问题就是计算生存时间,要明确规定事件的起点、终点及时间的测度单位,否则就无法分析比较。中位生存时间是指寿命中位数,表示有且只有50%的观察对象还可以活这么长时间。由于截尾数据的存在,中位生存期的计算不同于普通的中位数,它可以利用生存函数公式或生存曲线图,令生存率为50%时,推算出生存时间。生存函数生存概率又称为生存率或生存函数,它表示一个病人的生存时间长于时间t的概率,用S(t)表示。以时间t为横坐标,S(t)为纵坐标所作的曲线称为生存率曲线,它是一条下降的曲线,下降的坡度越陡,表示生存率越低或生存时间越短,其斜率表示死亡速率。死亡函数表示死亡速率的大小。如以t为横坐,f(t)为纵坐标作出的曲线称为密度曲线,由曲线上可看出不同时间的死亡速率及死亡高峰时间。纵坐标越大,其死亡速率越高,如曲线呈现单调下降,则死亡速率越来越小,如呈现峰值,则为死亡高峰。生存分析的主要内容:1.描述生存过程(估计生存函数)2.比较生存过程(比较生存函数)3.影响生存时间的因素分析SPSS中的菜单位置生存率的估计方法有参数法和非参数法。常用非参数法,非参数法主要有二个,即乘积极限法与寿命表法。乘积极限法,又称Kaplan-Meier法,主要用于观察例数较少(n50)而未分组的生存资料;寿命表法适用于观察例数较多而分组的资料,不同的分组寿命表法的计算结果亦会不同,当分组资料中每一个分组区间中最多只有1个观察值时,寿命表法的计算结果与乘积极限法完全相同。描述生存过程•乘积极限法:Kaplan-Meier•寿命表法:寿命表•因素分析:Cox回归【例1】某治疗方案治疗晚期肝癌患者7例,随访时间(月)记录如下。试分析其生存过程。=╳SPSS软件操作•第一步:建立变量。•第二步:输入原始数据•第三步:生存分析(1)•第三步:生存分析(2)•第三步:生存分析(3)•第四步:结果解读(1)结果解读:生存表基本描述•第四步:结果解读(2)结果解读:生存表统计描述中位生存时间及95%CI•第四步:结果解读(3)结果解读:生存函数图【例2】某医院对100例胰腺癌切除术后的患者进行随访,得资料如下。试分析其生存过程。•(7)=(6)-(5)/2•(8)=(4)/(7)•(9)=1-(8)SPSS软件操作•第一步:建立变量。•第二步:输入原始数据•第三步:加权个案•第四步:生存分析(1)•第四步:生存分析(2)•第三步:生存分析(3)•第四步:结果解读(1)结果解读:寿命表描述•第四步:结果解读(2)结果解读:生存函数生存曲线的比较•对数秩检验:其基本思想是,在假定无效假设(两总体生存曲线相同)成立的前提下,可根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数。若无效假设成立,则实际死亡数与理论死亡数不会相差太大。•Gehan比分检验:其基本思想是,在假定无效假设(两总体生存曲线相同)成立的前提下,则两样本来自分布相同的总体,两样本的Gehan比分合计V值应为0,若V值偏离0太远,则无效假设成立的可能性就很小。【例3】某医生将20例某恶性肿瘤患者随机分为两组,一组采用纯中药治疗(甲组),另一组采用中西医结合治疗(乙组),观察终点为复发或转移,从缓解出院日开始随访。试分析两种治疗方案的效果有无差别?•(6)/(11)=总死亡率•甲组理论死亡数=(6)*总死亡率•乙组理论死亡数=(6)*总死亡率SPSS软件操作•第一步:建立变量。•第二步:输入原始数据•第四步:生存分析(1)•第四步:生存分析(2)•第三步:生存分析(3)•Log-rank•第三步:生存分析(4)•第四步:结果解读(1)结果解读:基本描述•第四步:结果解读(2)•第四步:结果解读(3)结果解读:生存表统计描述中位生存时间及95%CI•第四步:结果解读(4)结果解读:组间比较的LogRank检验•第四步:结果解读(5)结果解读:生存曲线【例4】20例肺癌患者随机分为放疗组和放疗加中药联合治疗组,从缓解出院日开始随访,随访时间如下。试分析两种治疗方案的效果有无差别?组别随访时间放疗组151719+232835+46525560放+中1926384048+5358+626875•R1:肯定比他生存时间短的病例数•R2:肯定比他生存时间长的病例数•相当于U检验,与1.96比较SPSS软件操作•第一步:建立变量。•第二步:输入原始数据•第三步:生存分析(1)•第三步:生存分析(2)•第三步:生存分析(3)•第四步:结果解读(1)结果解读:寿命表•第四步:结果解读(2)结果解读:中位生存时间•第四步:结果解读(3)结果解读:生存曲线•第四步:结果解读(4)结果解读:组间比较Z=1.706,p=0.191COX比例风险回归模型在医学研究中,观察对象生存时间往往受多种因素的影响,如胃癌手术后的生存时间,除了与治疗方案有关外,还可能与患者年龄、体质、病情轻重、病理类型、用药等情况有关。统计学上将这些因素称为协变量。由于生存时间资料常存在截尾值,生存时间t往往不能满足正态分布和方差齐性的要求,一般不适宜用参数方法(如多元线性回归等)来分析生存时间与各协变量之间的关系。为解决这类问题,英国生物统计学家D.RCox于1972年提出比例风险回归模型用于分析带有协变量的生存时间资料。【例5】50例某恶性肿瘤的生存时间及有关预后因素资料如表。X1为患者年龄、X2为病理类型(0=低分化,1=高分化),X3为有无淋巴结浸润(0=无,1=有),X4为缓解出院后的巩固治疗(0=无,1=有),T为患者的生存时间,S为患者的随访结局(0=截尾,1=死亡)。试进行生存分析。SPSS软件操作•第一步:建立变量。•第二步:输入原始数据•第三步:生存分析(1)•第三步:生存分析(2)•第三步:生存分析(3)•第三步:生存分析(4)•第四步:结果解读(1)结果解读:有意义的因素,相对危险度RR及其95%CI。•X3为有无淋巴结浸润(0=无,1=有),RR1,危险因素•X4为缓解出院后的巩固治疗(0=无,1=有),RR1,保护因素•第四步:结果解读(2)结果解读:生存函数,具体到个案的生存函数估计值。PH(比例风险)假定判断满足前提条件才可以进行Cox回归是否满足前提条件,看以因素为分类依据的生存曲线是否不交叉,若有交叉则表示不满足前提条件•第五步:PH假定判断(1)•第五步:PH假定判断(2)•第六步:结果解读(1)•第六步:结果解读(2)同理将X3改为X4•重复相同的步骤•第五步:PH(比例风险)假定判断(1)•第五步:PH假定判断(2)•第六步:结果解读(3)•第六步:结果解读(4)给每一条记录一个虚拟的生存时间,一般默认病例比对照的生存时间短(两时间差距大小随便)。拟合时病例算失效事件发生,对照则算删失。把配对因素作为分层因素,这样就可以消除配对因素的作用,从而实现配伍(配对)logistic回归。用COX回归过程拟合配伍logistic回归【例6】某研究者采用1:1配对方法研究孕妇服用反应停与婴儿海豹肢样畸形的关系,试用logistic回归进行分析。SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:加权设置•选择数据→加权个案(W)•将f移入频率变量•第4步:构造虚拟变量t(1)•第4步:构造虚拟变量t(2)•第5步:cox回归分析(1)•选择分析→生存函数→Cox回归•第5步:cox回归分析(2)•将t移入时间,y移入状态,x移入协变量•第5步:COX回归分析(3)•设置选项•勾上exp(B)的95CI。•第5步:cox回归分析(4)•结果解读:OR=5.426,p=0.000•OR的95%CI为(4.074~7.225)【例7】为了研究肥胖x1、口服雌激素避孕药x2与子宫内膜癌的关系,某研究组采用1:2匹配,调查了20名病人和40名对照者,结果如下,试用条件logistic回归对此资料进行分析:SPSS软件操作•第1步:定义变量•第2步:输入原始数据•第3步:构造虚拟变量t(1)•第3步:构造虚拟变量t(2)•第4步:cox回归分析(1)•选择分析→生存函数→Cox回归•第4步:cox回归分析(2)•将t、fz和fp、fy分别移入时间、状态和协变量•第4步:COX回归分析(3)•设置选项•勾上exp(B)的95CI。•第4步:logistic回归分析(4)•结果解读:fp:OR=2.270,p=0.080•OR的95%CI为(0.906~5.689)•fy:OR=2.833,p=0.096•OR的95%CI为(0.830~9.668)生存分析ROC分析诊断试验的概念•评价某种疾病诊断方法的临床试验。•诊断试验的用途–诊断疾病–筛选无症状的病人–判断疾病的严重程度–估计疾病临床过程及预后–估计对治疗的反应–判断治疗效果金标准目标人群病人非病人待评价诊断方法评价指标诊断试验原理+-+-确定金标准•当前医学界公认的诊断某疾病最可靠、准确度最高的诊断方法。•常用的金标准包括–病理学诊断(活检、尸检)–外科手术或诊断性操作–特殊的影像学诊断–权威机构颁布的综合诊断标准选择研究对象•要求:代表性好、盲法•试验组–经金标准确诊为某疾病的患者,具有反应该疾病的全部特征,如病情、病程、症状体征、并发症、治疗或未治疗等。•对照组–经金标准证实未患该疾病的患者(可患其它疾病)或正常人。诊断试验结果表诊断试验金标准合计有病(D+)无病(D-)阳性(T+)aba+b阴性(T-)cdc+d合计a+cb+da+b+c+d诊断试验的评价指标•基本指标–灵敏度、特异度、误诊率、漏诊率•预测值–阳性预测值、阴性预测值•综合评价指标–正确率、约登指数、优势比、似然比•阳性似然比、阴性似然比•灵敏度(Sensitivity,Se)–计算公式:Se=a/(a+c)–又称真阳性率–将实际有病的人正确判断为患者的能力•漏诊率(omissiondiagnostic,)–计算公式:=c/(a+c)–又称假阴性率–将实际有病的人错误判断为非患者的比例•高灵敏度试
本文标题:医学统计学(12)
链接地址:https://www.777doc.com/doc-5017095 .html