您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 广义加性模型在医疗费用控制中的应用
1广义加性模型在医疗费用控制中的应用天津医科大学柯慧、贾琼、陈金彪摘要医疗费用数据往往受各种因素的影响,关系错综复杂,有可能是非正态性、比较复杂的非线性联系,对于这种情形,传统的线性结构模型很难进行精确拟合。而在实际中,对于住院费用影响因素的分析,多数研究是直接采用多重线性回归进行拟合,而没有考查因变量的分布、自变量与因变量之间的关系,或者有些研究采用一些复杂的统计学方法,使之不能广泛应用。而GAM是建立在广义线性模型和加性模型基础之上,解决了回归模型只能简单考虑线性关系的问题,同时,也避免了一些复杂的数学算法。因此,为探讨广义加性模型对住院费用影响因素研究的可行性,本文利用从天津银海2003-2007年住院参保人群资料库中抽取诊断为白内障的5030例患者的住院费用进行广义加性模型拟合。该模型揭示住院费用的影响因素有医院级别,参保年度,人员类别,年龄,住院天数,耗材比例,其中年龄,住院天数,耗材比例与住院费用呈复杂的非线性关系。关键词白内障住院费用影响因素广义加性模型Bootstrap一、研究背景与意义目前我国的医疗保障制度改革正处于关键时期,而医疗保险制度改革的关键性问题都可以归结为医疗费用的控制和约束问题。但是困扰全世界人民的一个问题——医疗费用上涨的趋势并未得到有效遏制。2009年我国卫生总费用为17541.9亿元,比2008年增加3006.5亿元,增长了20.68%;2009年我国人均卫生费用是1314.30元,比2008年增加了219.8元,增加了20.08%,2009卫生总费用占GDP的5.15%;2010年门诊患者人均医疗费用166.80元,比上年增加14.0元(按当年价格计算,下同),增长9.74%;住院患者人均医药费用6193.90元,比上年增加509.8元,增长8.97%(1990年门诊患者人均医疗费用10.90元,2004年为118元,1990年出院患者人均医疗费用473.30元,2004年为4284.76元)[1]。由上面的数据显示,医疗费用仍然呈快速上涨趋势,然而在医疗费用构成中,往往住院费用所占比例是最大的,住院费用的增加直接导致了医疗服务总费用的2上涨。要有效地控制医疗费用上涨,尤其是住院费用的上涨,首先需要明确住院费用的影响因素。因此探寻住院费用的影响因素,并在此基础上合理开发、利用有限的卫生资源,提高医疗质量,减少不必要的浪费,控制医疗费用的增长和制定医院经营管理对策,己经成为卫生体制改革中亟待解决的问题[2]。近年来,针对医疗费用过快增长的问题,国内外学者对住院费用情况和影响因素以及费用控制措施等展开了多项研究。研究表明,医疗费用数据往往受各种因素的影响,关系错综复杂,有可能是非正态性、比较复杂的非线性联系,比如大多数影响因素会在直接影响费用的同时,通过影响住院天数来间接对费用产生影响,对于这种情形,传统的线性结构模型很难进行精确拟合。而在实际中,对于住院费用影响因素的分析,多数研究是直接采用多重线性回归进行拟合,而没有考查因变量的分布、自变量与因变量之间的关系,或者有些研究采用一些复杂的统计学方法,使之不能广泛应用。而GAM是建立在广义线性模型和加性模型基础之上,解决了回归模型只能简单考虑线性关系的问题,同时,也避免了一些复杂的数学算法。这种新型的统计学方法具有很高的实用性,能够帮助我们提高对数据的分析量,如能较好运用“广义加性模型”,将可大大挖掘科研结果的信息量,更科学、合理解释实际科学研究中所遇到的问题。二、数据来源1.资料来源数据来源于2003年1月1日-2007年12月31日天津银海数据库系统,随机抽取10%,选取抽取后的数据库中诊断为白内障(ICD-10编码为H25与H26.9)的全部出院的病例一共为5030例。所选对象都是入院时诊断为白内障的患者。该住院费用经正态性检验(Skewness=2.179,Kurtosis=15.063,D=0.212,P0.001),为偏态分布。2.调查内容收集患者性别、年龄、人员类别(分为在职与退休)、医院等级、住院天数、有无第二诊断等基线情况,统计患者各单项住院费用,如药品费、检验费、检查费、治疗费、输血费用、住院费用合计、医用耗材(医用耗材是指用于临床实践医疗诊断与治疗的消耗性器材、人体植入物和消毒后可重复使用且易损耗的医疗器械,在医院向患者提供医疗服务过程中,经一次性使用价值即转化为费用)等。3三、模型介绍广义加性模型(GAM)是Hastie和Tibshirani于1990年提出来的,是在广义线性模型和加性模型的基础上发展而来的。GAM模型和GLM模型的应用比较类似,但GAM模型着重在非参数化的数据探索分析,而GLM模型强调的是对模型参数的估计和推断。广义线性模型是线性回归模型的扩展,其x对y的期望的某个函数要求是线性的。但广义线性模型的反应变量的分布和反应变量的连接函数却可以是非常广泛的,这也是它与一般线性回归模型的不同之处[3-5]。可加模型也是线性回归模型的扩展,它只是用预测变量非参数的形式代替了线性回归模型中的参数形式。可加模型在预测变量的效应上是可加的,保留了可加结构的解释性,为分别检验预测变量的效应提供了基础,而且克服了高维度带来的麻烦[6-7]。同时,它不需要严格规定反应变量对解释变量的参数依存关系,可以给出许多灵活多变的回归模型。作为两者的结合,广义加性模型唯一需做的假设是各函数项是可加的且是光滑的,集合了它们的优点[8-9]。GAM与传统的回归方法相比,此模型不需要事先进行线性假设,对因变量的分布不仅仅局限于正态分布,也适合于数据为二项分布、泊松分布等指数分布族的情况,而且对预测变量的形式不作具体要求,而是采用非参数的方法进行拟合,它通过“加性”的假设,将一些与因变量间存在复杂非线性关系的自变量以不同函数加和的形式拟合进入模型,可以探索到变量间的非单调、非线性关系,灵活性非常强,这就决定了它是应对非线性数据的一种灵活而有效的工具[10-11]。广义线性模型的基本形式是:ppg11可加模型的基本形式是:pPxfxfXXYE11,,/广义加性模型的形式如下[12]:pjjjfg1其中,是Y的期望值,即PYE,,/1g是连接函数,是截矩jf是针对每一个预测变量的任意j的单变量函数假定反应变量iy独立取自于某个单参数指数分布,则该分布具有密度函数或4概率密度函数,exp),(iiiiiiycbyyp;,其中i为该指数类分布的自然参数,不同iy对应不同的i,为多余参数或尺度参数,它对所有iy都取相同值,b和c为函数,它们决定了分布的特殊形式。从广义加性模型的形式上可看出,它对预测变量的形式没有规定,体现了其灵活性。由于它适用于很多分布类型的资料,所以对于不同类型的资料,连接函数g的形式也不同。具体对应关系见表1[12]:表1不同类型资料的连接函数形式分布连接函数正态分布单位连接二项分布Logit连接负二项分布倒数连接Gamma分布Log连接Poisson分布Log连接对可加模型的估计,与估计一般的线性模型相似,就是借助最小二乘法追求期望值与观察值间的差距达到最小。不过,可加模型在要求满足最小二乘法的同时,还要求用样条函数拟合的预测变量在结点的连接处要光滑。即用惩罚最小二乘估计方法来估计可加模型。其表达式为pjjjpjijjiniipWdttftfywffS122111)()(),,(其中1,,2,p为各个分函数jf的光滑参数,使上式最小就可得到{jf}。在实际的计算中,广义加性模型求解使用的是由IRLS(iteratively-reweightedleast-squaresalgorithm)和backfitting过程合并而成的局部积分算法(Local-ScoringProcedure)。局部积分算法名称的由来是基于此算法在Fisher积分算法中整合了局部光滑方法,其中外部的Fisher积分过程用于联接函数的估计,而内部的backfitting过程用于估计光滑可加项,局部积分具体计算过程如下[13]:(1)赋初值:NiNyg10/,gffp;0001为连接函数5(2)循环记分步,,2,1,0k:构建工作校正反应变量kikikiikikiyy~,其中,ijpjkjkkixf1,kikig1,权重201kikik,Ni,1(3)Backfitting内循环1)赋初值:,,,1,,,1~11ppjyNNikik2)更新)1(kjf:jhjtkjkhkIkjffySf1)()1(~,pj,,1(4)重复过程(2)和(3),直到0值和光滑项pff1稳定为止。其收敛与否可用以下收敛准则来判断:pjkjpjkjkjkkfff111)(1,对广义加性模型的估计包括连接函数的估计、每个预测变量的单变量函数jf的估计、光滑参数1的选择。四、模型拟合结果1.变量的赋值表2各变量赋值情况说明变量类型影响因素代码单位或量化方法因变量住院总费用(fsje)Y住院总费用原始值自变量性别(xb)X11:男;2:女年龄(nl)X2数据库原始数据人员类别(rylb)X31:在职;2:退休第二诊断(bingfazheng)X41:无;2:有参保年度(nd)X51:2003;2:2004;3:2005;4:2006;5:2007住院天数(zyts)X6数据库原始数据医院等级(yylb)X71:一级医院;2:二级医院;3:三级医院耗材比例(hcbl)X8医用材料费/住院总费用2.广义加性模型的分析结果6表3模型参数部分的参数估计变量参数估计标准误t值P值常数项375.66206300.296931.250.2110性别16.1242236.245070.440.6564二级VS一级-45.91795173.86386-0.260.7917三级VS一级1535.80764156.053939.84.0.0001**2004VS2003-28.4792072.82482-0.390.69582005VS2003290.6867469.089454.21.0.0001**2006VS2003328.9338368.649414.79.0.0001**2007VS2003315.9963770.050394.51.0.0001**人员类别175.5395683.670342.100.0360**第二诊断45.9155441.971411.090.2740Linear(年龄)-0.743752.22696-0.330.7384Linear(住院天数)301.344444.4285668.050.0001**Linear(耗材比例)6526.65208149.1570843.760.0001**表4模型非参数部分的光滑成分分析光滑成分光滑参数自由度广义交叉认证GCV变量取不同值的数目Spline(年龄)0.9999493.00000059600067Spline(住院天数)0.9995093.0000001291610849Spline(耗材比例)1.0000002.99218814564134851表5模型非参数部分的离差分析光滑成分自由度平方和卡方值P值Spline(年龄)3.000001894279112.21560.0067Spline(住院天数)3.00000492233082317.42430.0001Spline(耗材比例)2.992191105043346712.60470.00017图1采用样条光滑法拟合自变量后,SAS输出的光滑曲线图统计结果
本文标题:广义加性模型在医疗费用控制中的应用
链接地址:https://www.777doc.com/doc-2497143 .html