您好,欢迎访问三七文档
癌症临床试验数据研究王云云20160602053目录:研究目的数据介绍描述性分析模型分析:加速失效模型COX等比例模型1、研究目的研究120个参与某临床试验的癌症病例,发现相关影响因素,并对比评估某新治疗方案的疗效(同标准治疗方案对比)2、数据介绍随机抽取某临床试验的120个病人因变量(Y):该病人的生存时间(以天计)同时数据还提供试验结束时病人的生存状态(C)但生存的病人的真实生存时间(Z)未知,因此他们被记录的生存时间是被截断的解释变量:治疗方案(X1):标准方案,新方案癌细胞类型(X2):A,B,C,D临床打分(X3)年龄(X4)变量处理:1、对于试验结束时病人的生存状态(C),观察到的生存时(Y),真实生存时间(Z),有如下关系:C=0,仍然存活,则Z=Y;C=1,已经死亡,则Z=Y所以Z是一个被截断的数据2、对于定性的解释变量,我们设定:X1=0,标准方案;X1=1,新方案X2=1,A;X2=2,B;X2=3,C;X2=4,D3、描述性分析首先,本数据总样本量为120,其中113位病人在观测期间内死亡,而剩下的7位病人的真实生存时间被截断,截断比例为5.83%,整个样本的生存数据如图:从中可以看出,以中位数计,癌症病人的生存时间为100天左右,即3个月左右,这说明,我们的医疗方案对癌症病人的医治并不是很有效,需要进一步的改善和创新。接下来,我们尝试按照各个解释变量分组,然后重新计算生存函数,并作对比分析1、考虑因素X1(治疗方案)分组的生存函数:0—标准方案;1—新方案从中可以看出,对于生存时间比较短(约150天以内)的病人,采用标准方案和新方案的病人生存时间差别很小,而对于存活时间较长(大于150天)的病人,采用新方案病人的生存时间明显高于采用标准方案的。所以,我们初步认为:新方案对于癌症早中期的病人更为有效,而对于晚期的病人并不是很有效2、考虑因素X2(癌细胞类型)分组的生存函数:A,B,C,D从中可以看出,对于存活时间比较短的癌症患者(晚期),A、D类的差别并不明显,但他们存活时间明显高于A、B类;而对于存活时间比较久的患者,不同癌细胞类型的病人生存时间差距较大,其存活时间由多到少一次是:A—D—B—C;因此,我们初步认为:A类癌细胞更容易被控制,而C类则很难被有效的控制。3、考虑因素X3(临床打分)分组的生存函数:因为是连续型数据,我们通过对其进行大致的分组来进行讨论,M1=1,如果-50X3=-20;M1=2,如果-20X3=20;M1=3,如果20X3=50;从中可以看出,临床打分与癌症病人的生存时间之间有着很明显的正相关关系,即打分越高的患者,其生存时间越长。图中很明显:打分在20~50之间的,生存时间最久,-50~-20之间的,生存时间最短,而在-20~20之间的,出于两者之间。3、考虑因素X4(年龄)分组的生存函数:连续数据,所以我们照类似的方法对其进行分组后进行讨论M2=1,如果20X4=30;M2=2,如果30X4=40;M2=3,如果40X4=50;M2=3,如果40X4=50;从中可以看出,我们有四个分组,但最终得到的分组生存函数图中只有3条函数图,这是因为年龄出于20~30之间的只有2个样本,不能反应出函数关系,因为我们所得的数据为随机抽样数据,所以我们认为年龄处于这个区域的人患癌症的概率很低;而对于其他3个分组的生存函数图,我们可以看出,对于存活时间很短的患者,三个年龄段差别并不大,而对于存活时间越长的患者,年龄处于40~50之间的生存时间最长,30~40之间的次之,而处于50~60之间的最短。通过先前对数据简单的描述性分析,我们对各自变量与生存时间之间的相关关系有了初步的了解,但如果要更明确的分析他们之间的具体关系,我们需要建立相应的数学模型,这里,根据数据特征,我们将选用生存回归来进行模型拟合。4、模型分析首先通过加速失效模型进行分析1、全模型分析结果从全模型的分析结果可以看出,解释变量X1(治疗方案)、X4(年龄)并未通过显著性检验,所以这样得到的模型并非最优模型。2、根据AIC准则搜索最优模型:根据AIC准则所得到的最优模型,可以看出,它剔除了变量X1、X4,所以剩余的相关解释变量只有X2(癌细胞类型)、X3(临床打分)与因变量相关;对于X2(癌细胞类型),它的显著性水平并不高,患A、B、C、D型癌症的患者,其生存时间依次越来越短;对于X3(临床打分),它的显著性水平很高,且打分越高,患者的生存时间越久。该模型的优良性要比全模型好。3、根据BIC准则搜索最优模型:而根据BIC准则搜索得到的最优模型,是在AIC模型的基础上,又剔除了显著性并不高的变量X2,只保留了与因变量高度相关的解释变量X3(临床打分),这两个模型得到的因变量与X3之间的相关关系是一致的,即打分越高,患者的生存时间越久。通过COX等比例模型进行分析1、全模型分析结果从全模型的分析中,可以看出,解释变量X1(治疗方案)、X2(癌细胞类型)、X4(年龄)的系数均未通过显著性检验,所以全模型并非最优模型。2、根据AIC准则搜索最优模型根据AIC准则搜索的最优模型,无论是加速失效模型还是COX等比例模型,都是保留了变量X2、X3;在该模型中,对于X2(癌细胞类型),显著性并不高,患A、B、C、D类的病人,其生存风险一次越来越高;对于X3(临床打分),打分越高,其生存风险越低;这里关于生存风险的判断,与先前关于生存时间的判断是一致的。3、根据BIC准则搜索最优模型根据BIC准则搜索得到的最优模型,加速失效和COX都是只保留了与因变量显著相关的变量X3(临床打分);对于该模型,打分越高,生存风险越大,这与之前关于生存时间的分析时一致的。小结:通过模型对个解释变量与因变量之间的关系分析,加速失效模型与COX等比例模型所得到的分析结果基本是一致的;结果表明,与病人的生存时间(或风险)高度相关的变量为临床打分(X3),其次是癌细胞类型(X2),而变量治疗方案(X1)、年龄(X4)与因变量的相关性很低,在搜索最优模型均被剔除了;对于治疗方案:标准方案、新方案,从模型分析中并不能得出相应的关系,但通过前面对生存函数的研究,我们初步认为:对于癌症早中期的病人,新方案更为有效,但效果并不显著,有待改进,而对于癌症晚期的病人,这两种方案的治疗效果并没有大的差别。
本文标题:癌症
链接地址:https://www.777doc.com/doc-6208095 .html