您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > cox比例风险回归模型及其R程序
Cox回归分析刘瑞红)exp(0000expexp,exp,XtttSdtXthdtXthXtSCox模型不直接考察生存函数tS与协变量的关系,而是用风险率函数th作为因变量,并假定:mmXXXexpthXexpthX,th221100j利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出较好地解决截尾值的问题反映了协变量X与生存函数的关系Cox模型的基本形式表示具有协变量X的个体在时刻t的危险率,又称为瞬时死亡率。t为生存时间,mX,,X,X'X21表示与生存时间可能有关的协变量或交互项。其中的因素可能是定量的或定性的,在整个观察期间内不随时间的变化而变化。mmXXXexpthXexpthX,th221100'm,)(21为Cox模型的偏回归系数,是一组未知的参数,需根据实际的数据来估计。所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。mpXXXexpth/X,th22110mmXXXexpthXexpthX,th221100若i0,则RR1,该因素为危险因素;若i0,则RR1,该因素为保护因素;若i=0,则RR=1,该因素为无关因素。偏回归系数i的意义是,当其它协变量都不变时,Xi每变化一个单位,相对危险度的自然对数(lnRR)变化i个单位。相对危险度RR)exp()0exp()()1exp()()(')(00ththththRRimmmmmmmiXXXXXXXXXthXXXthththRRexpexp'''expexp''''2221112211022110相对危险度RR③同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为2121212102100011RRRRththththRRexpexpexpexpexp'Cox回归基本模型的两个前提假设①各危险因素的作用不随时间变化而变化,即不随时间变化而变化;②对数线性假定:模型中的协变量应该与对数风险比成线性关系。)()(thth0Cox回归模型与一般的回归分析不同,它不是直接用生存时间作为回归方程的因变量,协变量对生存时间的影响是通过风险函数和基础风险函数的比值反映的,其中的风险函数和基础风险函数是未知的。另外偏回归系数的估计需要借助于偏似然函数的方法。在完成参数估计的情况下,可对基础风险函数和风险函数做出估计,并可计算每一个时刻的生存率。二、Cox回归分析的一般步骤1.分析前的准备----数据整理2.参数估计,建立最佳模型3.假设检验4.Cox模型的解释及应用5.Cox模型拟合优度的考察1.分析前的准备----数据整理严密的研究设计收集资料:影响疾病的因素、病人的个性及行为特征等资料(如病人的年龄、性别、职业、是否饮酒、是否吸烟及病情、病理类型等资料)、研究对象的生存时间和截尾指示变量(一般用变量t表示生存时间,用变量d表示是否截尾)。资料应尽量避免偏性及主观因素的影响。样本含量:不宜过小。一般情况下,样本例数应为分析因素的5-20倍。数据预处理:如数据的变换、日历数据与生存时间的转化等。同时要对数据进行描述性分析。11x12x13x14x1t1d21x22x23x24x2t2d1nx2nx3nx4nxntnd表16-8Cox模型分析的数据格式协变量编号X1X2X3X4时间,t结局,d111x12x13x14x1t1d221x22x23x24x2t2dn1nx2nx3nx4nxntnd2.参数估计,建立最佳模型(1)参数估计----偏似然估计假定有n个病人,他们的生存时间由小到大排列:t1≤t2≤…≤tn对于每个生存时间ti来说,凡生存时间大于等于ti的所有病人组成一个危险集,记为R(ti)。在危险集内的病人,在ti以前尚生存,但处在危险之中,随着时间的推移,危险集内的病人陆续死亡,逐渐退出观察,直至最后一个病人死亡时,危险集消失。病人处理组号性别(男=1)生存天数结局(死=1)风险函数(因人而异)风险率(随时变化)Namex1x2tdh(t)=h0(t)2211xbxbe18天48天90天王一11181h0(t)21bbeh0(18)21bbe黄二00481h0(t)h0(18)0eh0(48)0e张三01700h0(t)2beh0(18)2beh0(48)2be李四10901h0(t)1beh0(18)1beh0(48)1beh0(90)1be条件死亡概率(第i个死亡时刻))()(ththqjii,1211221121001,,eebbbbibbbbbbeeqeeeeee:偏似然函数(条件概率连乘)kpqqqL21,1211221211001eebbbpbbbbbbbeeLeeeeee图19-1Cox回归结构与原理示意图(4例肺癌)+)(22112211)(2211022110expexpexpexpiitRSsmPssimpiitRSsmPssimpiiXXXXXXXXXthXXXth)t(RSsmPssimpiiniiXXXexpXXXexpL221122111第i个研究对象在it时刻死亡的概率应当是两部分的乘积,一是患者存活到it时刻的概率(与h0(t)有关),二是该暴露人群Ri中恰好第i个患者死亡的概率(qi),L忽略了前者,故称之为偏似然函数。代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体将n个病人死亡的条件概率相乘ni)t(RSsmmssimmiiiiXXXexpXXXexp)(L122112211两边取自然对数有截尾值时,用i来表示数据类型:1i,表示病人在it时刻病人死亡。0i,表示病人在it时刻截尾。其偏似然函数为:ni)t(RSsjjmjimmiiiXexplnXX)(Lln1111求关于m,,,jj21的一阶偏导数,并求其等于0(即0)(lnjL)的解,得到j的最大似然估计值。(2)建立最佳模型为建立最佳模型常需对研究的因素进行筛选,筛选方法有前进法、后退法和逐步回归法。实际工作中要根据具体情况选择使用,最常用的为逐步回归法。因素筛选时需规定显著性水平,一般情况下初步筛选因素的显著性水平确定为0.1或0.15,设计较严格的研究显著性水平可确定为0.05。另外,筛选因素时,还要考虑因素间共线性的影响。当存在共线性时,应考虑消除共线的影响,如采用主成分回归等方法。3.参数的假设检验(1)似然比检验(likelihoodratiotest)(2)得分检验(scoretest)(又称为拉格朗日乘数法)(3)Wald检验是三种基于极大似然法大样本检验方法。似然比检验:用于模型中原有不显著变量的剔除和显著变量的引入,以及包含不同变量数时模型间的比较。检验新增加的协变量是否有统计学意义的统计量为:拉格朗日乘子检验(LM)基本思想:拉格朗日乘子检验(LM),又称为Score检验。该检验基于约束模型,无需估计无约束模型。假设约束条件为,在约束条件下最大化对数似然函数,另表示拉格朗日乘子向量,此时,拉格朗日函数为约束条件下最大化问题就是求解下式根,0:HgC()()()LnLLnLgC()()0()()0gLnLLnLgLnLgCg()其中,是矩阵g=的转置拉格朗日乘子检验(LM)如果约束成立,对数似然函数值不会有显著变化。这就意味着在一阶条件下,第二项应该很小,特别是应该很小。因此,约束条件是否成立检验转化成检验,这就是拉格朗日乘子检验的思想。但是直接检验比较困难,有一个等价而简单的方法。如果约束条件成立,在约束估计值处计算对数似然函数的导数应该近似为零,如果该值显著异于零,则约束条件不成立,拒绝原假设。对数似然函数的导数就是得分向量,因此,LM检验就是检验约束条件下参数估计值的得分向量值是否显著异于零,因而,LM检验又称为得分检验。0=0H:0=0H:拉格朗日乘子检验(LM)在最大似然估计过程中,通过解似然方程,可以求出无约束估计量;如果计算有约束估计量在此处得分,则一般不为零,但是如果约束有效,则趋近于零。在原假设成立条件下,ˆ()0Sˆ()S()Sa12()()()~()LMSISq拉格朗日乘子检验(LM)对于线性约束将有关量代入上式得,拒绝域,''122**'**'**2*()'LM==~()eeReXneXXXXenRqee有约束模型残差平方和;是对回归的拟合优度;22()LMnRq拉格朗日乘子检验(LM)LM统计量另一种表达形式,LR、Wald、LM关系(一般情况下成立):'2**'**'**()~()eeeeneeeeWqee有约束模型残差平方和;无约束模型残差平方和;WaldLRLM4.Cox模型的解释及应用(1)探索结局事件发生的危险因素,分析各因素的作用大小。(2)计算个体预后指数(prognosisindex,PI),对个体进行定性的预后评价。(3)通过估计生存率,对群体定量地进行预后评价。根据各因素对应的偏回归系数大小,可以计算相对危险度(RR):RRi=exp(iˆ)相对危险度%1可信区间为:exp[iiˆSEuˆ](1)探索结局事件发生的危险因素,分析各因素的作用大小。在分析时Cox模型可以给出偏回归系数和标准偏回归系数,标准偏回归系数'i与偏回归系数i的关系为:iii',影响因素Xi的标准差标准正态离差相应偏回归系数的标准误(2)计算个体预后指数(prognosisindex,PI),对个体进行定性的预后评价。定义第j个观察单位的预后指数为:式中为第i个协变量的标准偏回归系数的估计值(),为第j个观察单位(个体)第i个协变量的标准化值。若PIj=0,说明该个体死亡风险处于平均水平;若PIj0,说明该个体死亡风险高于平均水平;若PIj0,说明该个体死亡风险低于平均水平。''''''mmjjjxbxbxbPI12211'ib'iiiisbb''ijx3.通过估计生存率,对群体定量地进行预后评价。由于生存率与基础生存率相关,故只要估计出基础生存率,再结合各因素的偏回归系数就可以估计出生存率,即XtttSdtXthdtXthXtSexpexpexp,exp,0000)t(HexptSˆii00ikItttRsskiXdtH)(0)exp()(ˆiX'expiitSˆtSˆ0ti时刻的基础生存率公式ti时刻的基础累计风险函数公式在tk时刻的死亡人数ti时刻的生存率计算公
本文标题:cox比例风险回归模型及其R程序
链接地址:https://www.777doc.com/doc-3649140 .html