您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 第二十章生存分析实习指导(定)
第二十章生存分析[教学要求]了解:了解生存资料的特点和Cox模型的概念及应用。熟悉:理解中位生存期的概念、生存曲线的特点及解释。掌握:单因素生存曲线的K-M方法和中位生存期的计算;单因素生存曲线比较的log-rank检验及适用条件;Cox模型回归系数与RR的关系及模型适用条件。[重点难点]第一节生存资料的特点生存时间往往不服从正态分布,且资料收集过程中会出现删失值的问题,故需要一些特殊的统计分析方法。一、起始事件与终点事件终点事件(outcomeevent)又称失效事件(failureevent),它是指研究者所关心的特定结局,而起始事件是反映研究对象生存过程的起始特征的事件。这两者是相对而言的,它们都由研究目的决定,必须在设计时就明确规定,并在研究期间严格遵守而不能随意改变。二、生存时间生存时间(survivaltime)也称失效时间(failuretime),它定义为终点事件与起始事件之间的时间间隔,常用符号t表示。三、删失值基本概念:在随访研究中,由于某种原因未能明确地观察到随访对象发生事先定义的终点事件,无法得知随访对象的确切生存时间,这种现象称为删失(censoring)或终检,包含删失的数据称不完全数据(incompletedata)。本章着重讨论右删失(rightcensoring),即从时间轴上看,终点事件发生在最后一次随访观察时刻的右方。虽然删失数据的信息可以利用,但过多的删失很可能会带来分析结果的偏倚。产生右删失的原因:1.随访对象失访或中途退出(withdraw)。2.随访结束时对象仍存活。3.治疗措施改变等。第二节生存率的估计估计生存率有两种非参数方法:用于大样本分组资料的寿命表法(lifetablemethod)和本节介绍的乘积极限法(product-limitmethod),也称K-M法,它既可用于小样本资料,也可用于大样本资料。一、生存率的点估计如数据中无删失,生存率可用下式计算:()tSt时刻仍存活的观察例数总观察例数;如数据中有删失,则需分时段计算不同单位时间的生存概率ip(i=1,2,…,t),然后利用概率乘法原理将ip相乘得到t时刻生存率,即:12()tStppp。二、总体生存率的区间估计总体生存率的1-置信区间为:)]([)(2/iitSSEZtS,其中生存率的标准误为:1[()]()()ijiijjjjdSEStStnnd三、生存曲线及中位生存期生存曲线:将随访时间作横坐标,不同时点生存率作纵坐标绘制生存曲线(survivalcurve)。随时间的增加,该曲线一般呈下降趋势,下降速度快在图形上表现为坡度大、曲线陡峭,意味着生存率较低或生存期较短;下降速度慢在图形上表现为坡度小、曲线平缓,意味着生存率较高或生存期较长。中位生存期:中位生存期(mediansurvivaltime)也称半数生存期,表示恰好有50%个体活过此时间。生存时间通常并不服从正态分布,故常用中位生存期作为某个人群生存过程的概括性描述指标。中位生存期越长,表示疾病预后越好;中位生存期越短,表示疾病预后越差。其数值可借助生存曲线进行图表法估计或用线性内插法求解。第三节生存曲线的比较应用条件:该法不指定生存时间服从特定的某种分布,属于非参数方法。所比较的是单因素设计不同组间整个生存时间的分布,而不是仅仅比较某个特定时间点的生存率。对比组的生存曲线不应有明显的交叉。常用于随机化分组后处理因素的比较,如果有重要的非处理因素在对比组间不均衡或属于未实施随机化的观察性研究,应考虑后述的多因素分析方法。检验统计量:2221()kkkkATT,12。第四节Cox回归模型形式:01122(,)()exp()pphtxhtxxx,其中pxxx,,,21表示研究者认为可能影响死亡率的危险因素,也称协变量(covariates),这些变量在随访期间的取值不随时间的变化而变化;t表示生存时间;(,)htx称为具有协变量pxxx,,,21的个体在t时刻的风险函数(hazardfunction),表示这些个体在t时刻的瞬时危险率或死亡率;0()ht称为基线风险函数(baselinehazardfunction),表示所有pxxx,,,21都取值为0时的个体在t时刻的瞬时危险率或死亡率,0()ht不要求特定的形式,具有非参数的特点;参数(1,2,,)iip为总体回归系数,其估计值ib可以根据样本计算得出。回归系数的意义:回归系数i表示ix每增加一个单位时,相对危险度或风险比(riskratio)的自然对数。当回归系数大于0时,风险比大于1,相应协变量的增加将增大所研究事件发生的可能性;当回归系数小于0时,风险比小于1,相应协变量的增加将减小所研究事件发生的可能性;当回归系数等于0时,风险比等于1,相应协变量与所研究事件的发生无关。自变量筛选:按照Cox模型的参数估计原则,当模型中增加自变量时,现有模型的部分似然函数值L将增大,而-2ln(L)将减小;在自变量个数即模型的自由度一定时,-2ln(L)取值最小的模型较好。需要强调,逐步方法只是一个计算策略,并不能保证总是得到最好的模型。必要时可以更换筛选变量的方法并调整检验水准,多数情况下总是出现在方程中的变量可能是有意义的,最终备选的模型一定要结合专业知识来判断。PH假定条件:Cox模型中假定风险比)(/),(0thxth的大小与时间t无关,称为比例风险(proportionalhazards)假设,简称PH假设。如果某个协变量不同水平的风险函数曲线有明显交叉,或者协变量与时间的交互作用项在模型中有统计学意义,则不能使用本章介绍的比例风险模型。[案例讨论参考答案]案例20-1首先,结果变量的选取应充分考虑专业上的要求。对于白血病等一些难以完全治愈的较为凶险的疾患,延长患者的生存时间在临床上是有现实意义的,故而结果变量应选取结局(病情是否缓解)以及出现结局的时间(缓解时间)。这样,仅以病情是否缓解为结果变量的单因素Fisher精确概率结果以及多因素logistic模型结果就不很恰当。其次,在使用生存分析方法时,应考虑到影响缓解时间的因素,除了研究者所关心的是否存在不良染色体以外,还有其它影响因素无法通过实施随机化达到组间非研究因素的均衡性,那么单因素log-rank检验的结果就无法控制非研究因素的影响,所以应该使用多因素Cox回归分析方法并检查PH假设条件,得出正确研究结论。[电脑实验及结果解释]实验20-1生存过程的统计描述程序20-1生存过程的统计描述实验SAS程序及说明行号程序说明01DATAsurvnoce;建立SAS数据集survnoce;02seed=20021109;设定随机数种子;03DOi=1TO100;设立循环,循环变量i从1增加到100,每次加1;04s=UNIFORM(seed);产生均匀分布的随机数;05t=-LOG(s);产生参数为1的指数分布生存时间t;06cen=1;用指示变量cen表示此数据中无删失;07OUTPUT;将数据写入数据集;08END;结束循环;09PROCUNIVARIATEPLOT;调用UNIVARIATE过程对生存时间进行单变量描述并打印出分布图;10VARt;指定分析变量为t;11PROCLIFETESTMETHOD=PL;调用LIFETEST过程用乘积限法描述生存过程;12TIMEt*CEN(0);指定时间变量为t,cen=0表示删失值;13RUN;运行上述语句;运行结果:Output窗口:对生存时间t的UNIVARIATE过程分析结果:TheUNIVARIATEProcedureVariable:tMomentsN100SumWeights100Mean1.03571168SumObservations103.571168Deviation1.09864257Variance1.2070155Skewness1.90814932Kurtosis4.02632453UncorrectedSS226.764403CorrectedSS119.494535CoeffVariation106.076101StdErrorMean0.10986426BasicStatisticalMeasuresLocationVariabilityMean1.035712StdDeviation1.09864Median0.693335Variance1.20702Mode.Range5.62217InterquartileRange1.12603TestsforLocation:Mu0=0Test-Statistic------pValue------Student'stt9.427194Pr|t|.0001SignM50Pr=|M|.0001SignedRankS2525Pr=|S|.0001Quantiles(Definition5)QuantileEstimate100%Max5.6312134799%5.0958585895%3.4968178890%2.5869765275%Q31.3846639350%Median0.6933351925%Q10.2586377210%0.097284245%0.063381611%0.020396160%Min0.00904492ExtremeObservations-------Lowest------------Highest-----ValueObsValueObs0.00904492213.92317380.03174740154.12442470.05022296864.3378830.05054521834.56050510.06165469895.6312136StemLeaf#Boxplot561*546104132039103012|266674|201114|16667777779|1000000112223333416+--+--+055556666667788888899921*-----*000111111111111122222222333333333344444439+-----+NormalProbabilityPlot5.75+*||*|**|*+++|**+++++|***+++|++**+|++****|+++*****|++******0.25+********************+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+-2-10+1+2乘积限法描述生存过程结果:SummaryStatisticsforTimeVariabletQuartileEstimatesPoint95%ConfidenceIntervalPercentEstimate[LowerUpper)751.384661.031011.70025500.693340.472030.93399250.258640.201550.35810MeanStandardError1.035710.10986SummaryoftheNumberofCensoredandUncensoredValuesPercentTotalFailedCensoredCensored10010000.00实验20-2Cox回归的参数估计程序20-2Cox回归的参数估计实验SAS程序及说明行号程序说明01DATAcox;建立SAS数据集cox;02seed=20021109;设定随机数种子;03DOi=1TO100;设立循环,循环变量i从1增加到100,每次加1;04s=UNIFORM(seed);产生均匀分布的随机数;05x=2+RANNOR(SEED)*.5;产生服从正态分布N(2,0.52)的自变量x;06beta=1;设定总体回归系数beta=1;07lamda=1;设定基线生存时间分布的参数lamda;08t=-LOG(s)/lamda/2.71
本文标题:第二十章生存分析实习指导(定)
链接地址:https://www.777doc.com/doc-2124793 .html