您好,欢迎访问三七文档
Chapter21生存分析例1:为了解结局与潜在的危险因素关系,在1992年1月1日至2001年12月31日之间的10年中收集了346例肠癌患者。Table1手术后生存时间患者编号性别年龄(岁)确诊至手术(月)手术时间终止随访时间结局生存时间(月)1男32101994.01.231994.12.24死亡112女48121998.02.14199901.01失访10+3女2661992.03.041995.04.12死亡374男5531999.08.202001.09.21死于其他25+5女5882001.03.102001.12.31存活9+……21.1生存时间的特征生存时间(Survivaltime)失效时间(Failuretime)t:从起点开始到终点事件发生为止的时间长度.Rightcensoring(右删失)censored-valuerealtime?Leftcensoring(左删失)realtime?censored-valueIntervalcensoring(区间删失)censored-valuerealtime?censored-value(lastrecord)(currentrecord)生存时间通常不服从正态分布!21.2生存率的估计生存率(survivalrate)的点估计(Pointestimate)乘积极限法(Product-limitmethod)KaplanandMeier(1958),也称K-M法例121例乳癌,10例手术,11例手术+化疗。试分别估计两种治疗的生存率和生存曲线。手术691315181919202224手术+化疗.10141516+19192020+242628Table3生存率的K-M估计(乳癌)序号i(1)时间(月)it(2)死亡数id(3)删失数ic(5)期初数in(4)生存数iidn(6)生存概率iiiindnp(7)生存率)(itS(8)标准误)]([itSSE(9)11010111010/11=0.90910.90910.0867214101099/10=0.90000.9091×0.9000=0.81820.116331510988/9=0.88890.8182×0.8889=0.72730.1343416+01888/8=1.00000.7273×1.0000=0.72730.134351920755/7=0.71430.7273×0.7143=0.51950.156962010544/5=0.80000.5195×0.8000=0.41560.1562720+01444/4=1.00000.4156×1.0000=0.41560.156282410322/3=0.66670.4156×0.6667=0.27710.153792610211/2=0.50000.2771×0.5000=0.13850.1245102810100/1=0.00000.1385×0.0000=0.0000—生存率的区间估计(Intervalestimation)上述第8列是点估计。生存率的标准误(Greenwood1926)生存率的(1-)置信区间:ijjjjjiidnndtStSSE1)()()]([)]([)(2/iitSSEZtS生存曲线和中位生存期生存曲线(Survivalcurve)中位生存期(Mediansurvivaltime):生存时间的中位数.2.19mt21.3生存曲线间的比较--时序检验(log-ranktest)例2检验单纯手术患者的生存曲线和手术+化疗患者的生存曲线之间的差异是否具有统计学意义。0H:两生存曲线相同1H:两生存曲线不相同单纯手术手术+化疗合计IDi(1)时间it(2)id1(4)ic1(5)in1(3)11iiiiDTnN(6)id2(8)ic2(9)in2(7)22iiiiDTnN(10)iN(11)iD(12)iiND(13)1610100.476200110.52382111/21291090.450000110.55002011/203100080.421110110.57891911/194131080.444400100.55561811/185140070.411810100.58821711/176151070.87501091.12501622/16716+0060.00000180.000014008181060.46150070.53851311/139192051.66672072.33331244/1210201030.75001051.2500822/81120+0020.00000140.000060012221020.40000030.6000511/513241010.50001031.5000422/414260000.00001021.0000211/215280000.00001011.0000111/1合计101A6.85671T92A12.14332T19Table4时序检验手术691315181919202224手术+化疗.10141516+19192020+242628222212112)()(TTATTA,1250921433.12)1433.129(8567.6)8567.610(222。查2分布表,25.010.0P,不能拒绝0H.尚不能认为两种处理的生存时间不同.上述方法容易推广到多组比较.为什麽称为log-ranktest?这个方法和“对数”有关系吗?例3从肠癌数据库中随机抽取30例来介绍方法时间状态sexagedtime时间状态sexagedtime时间状态sexagedtime610662331105810161156871067214110539191158981063164400568221154101110661054115262911607151065155910489351155712105910811661944115561510621210116518451151818106491511622256015552010588121164165811506261056714115515600157321.4Cox回归dtime:被耽误的时间(从诊断到手术)21.4Cox回归log-ranktest属于单变量方法:要求两组除处理不同外其他都相同.然而,实践中这一点不容易满足,于是需要采用多变量方法.生存时间是随机变量,不服从正态分布,所以前面学过的多重线性回归不适用.能否用logistic回归分析生存时间资料?----生存时间的长度没法分析.多重线性回归和logistic回归都不能用于生存时间资料的分析.Cox回归模型Cox(1972)比例危险率回归模型(Proportionalhazardsregressionmodel)--Cox回归或或)...exp()(),(22110ppxxxthxthppxxxthxth...)(),(ln22110ppxxxRR...ln2211的估计关于的估计和推断,要考虑每一个死亡时间点上的信息.在时间点tj,的前一瞬间有nj位个体活着,tj,他们的X值分别为x1j,x2j,x3j,…,而在tj时刻死去的那一位记为x1j,nj构成了tj时刻的“历险集”.约去共同的0()ht,我们有(1)(1)12()()12risksetexp(...)exp(...)jiiiXXqXX1212β+βββ在Kaplan-Meier方法中,所有的人都一样,历险集中任何人死亡的概率都是1/nj。但是,现在nj位里闲着各不相同,死亡的概率为(1)(1)012()()012riskset(apersondiedat|risksetat)()exp(...)()exp(...)jjjiiiPtthtXXqhtXX1212β+βββZ在每个“死亡时间点”都有类似的概率,连乘起来就构成了似然函数(1)(1)12()()12risksetexp(...)exp(...)jiijjiXXLikqXX1212β+βββ人们称此为部分似然(partiallikelihood),因为它是在“死亡时间点”和这些“死亡时间点”前一瞬间的历险集的基础上推导出来的。此外,我们并没有用到这些“死亡时间点”的数值,只用到它们的顺序。令上述Lik达到最大,我们可以达到1,2,…,k的估计值,记为1ˆb,2ˆb,…,kbˆ.对于一个二分类变量(0-1变量),)exp(是1x和0x的相对危险度对于一个连续型变量,)exp(是1kx和kx的相对危险度当回归系数0,该变量是一个危险因素;当回归系数0,该变量是一个保护因素;当回归系数=0,该变量与所关心的事件无关。参数的意义回到例3时间状态sexagedtime时间状态sexagedtime时间状态sexagedtime6106623311058101611568710672141105391911589810631644005682211541011106610541152629116071510651559104893511557121059108116619441155615106212101165184511518181064915116222560155520105881211641658115062610567141155156001573Cox回归(-2lnL=104.501)RR(95%CI.)变量DF估计值SE2PRR上限下限age10.217210.0663610.71290.00111.2431.0911.415dtime10.213280.0564714.26670.00021.2381.1081.383危险因素:dtime和age诊断时间耽误1个月,死亡风险增加到1.238倍;患者年长一岁,死亡风险增加到1.243倍。结论:早诊断和年轻会有较好预后。模型比较自变量个数不变的情形下,最好的模型使2=-2ln(L)最小.需要增多变量吗?增加变量数目(代价)减少2(得益)交易:2的增多照过3.84,便值得增多一个变量变量DF-2ln(L)sex1141.928age1119.844dtime1117.011age+sex2119.518age+dtime2104.501sex+dtime2116.348sex+age+dtime3103.7991个变量:dtime最好2个变量:age+dtime最好age+dtime比dtime好吗?3个变量比age+dtime好吗?比例风险假定成立吗?比例风险假定(ProportionalHazards,PH)变量X满足PH假定吗?根据该变量的数值,将个体分成2组(或多组);(1)分别作这2个组的K-M曲线;若这2条曲线彼此交叉,则关于PH的假定不成立.(2)分别作这2个组的曲线和若这两条曲线看似平行,则关于PH的假定成立.)(ˆ),(ˆ21tStS)(ˆ),(ˆ21tStS)(ˆ),(ˆ21tStSttS~)](ˆlnln[1ttS~)](ˆlnln[2SurvivalFunctionsSurvivaltime(months)6050403020100CumSurvival1.0.8.6.4.20.0AGE=60yeas=60yeas-censored60years60years-censoredSurvivalFunctionsSurvivaltime(months)6050403020100CumSurvival1.0.8.6.4.20.0GRADEIII?III?-censoredII?II?-censoredI?I?-censoredSurvivalFunctionsSurvivaltime(months)605040302010
本文标题:Ch21生存分析
链接地址:https://www.777doc.com/doc-4814319 .html