您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 数学建模医保欺诈模型的主动发现
0全国大学生数学建模竞赛选拔赛承诺书我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理,并取消参赛资格。我们参赛选择的题号是(从A/B/C/D中选择一项填写):A参赛队员(打印后再手签)::1.2.3.指导教师或指导教师组负责人(没有可不填写):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。)日期:2015年7月29日1医保欺诈的主动发现摘要医疗保险是关系到国计民生和国家发展的重大问题,医保欺诈问题严重威胁医保基金安全,妨碍医保政策的有效实施,因此医保欺诈行为的主动发现对医疗保险的发展、完善和社会稳定发展有重大的意义。本提出了一种基于BP神经网络的识别的鉴别医保欺诈行为的方法。对于数据的处理,我们选择了Excel和Access根据病人ID将表2.1病人资料和表2.2费用明细表进行了汇总和归一,并剔除了包括记录不完整、格式错误之内的无效数据,在这个过程中我们发现了所有的消费记录只是买药,并且在这个月的消费记录中只有极少数病人存在转科室行为,而且一部分病人是自费的,没有医保欺诈嫌疑,还有一些病人存在多人共用医保卡的现象,直接确定其为医保欺诈,这些病人的消费记录为我们训练BP神经网络提供了样本支持。对于这个问题,我们首先用Excel和Access从大量的数据中筛选出了对欺诈识别有用的信息,其中包括病人的年龄,性别,所在科室,当月总消费以及当月消费频率等等你,又考虑到不同科室的消费情况存在差异因此我们求出了各个科室的平均消费额,并且做出了每个病人当月的消费对对应科室平均消费的相对差。有了这些欺诈因子和自费患者以及共用医保卡患者的消费记录,我们建立了Logistic二元回归模型,来评估各个欺诈因子对欺诈的可能性大小的影响进而剔除了对欺诈可能性无效的欺诈因子,保留了对欺诈可能性影响显著的欺诈因子作为输入向量对BP神经进行训练,并且用训练后的网络对医保病人进行了欺诈识别。最终我们认为输出结果为1的病人具有重大医保欺诈嫌疑。关键词医保欺诈Logistic二元回归BP神经网络数据2一、问题重述1.1问题背景医疗保险是为解决公民或劳动者因为疾病和非因公负伤,丧失劳动能力后的治疗费用及服务,给予物质帮助的一种社会保险制度。医疗保险欺诈行为是指违反医疗保险管理法规和政策,采用虚构事实、隐瞒真相以及其他方法,向医保基金管理机构骗取医保基金或医保待遇的行为。这一行为具有两个基本特征:一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的,二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。我国自城镇职工医疗保险和新农村合作医疗制度实施以来,欺骗医保基金的案件不断发生,事实上,医疗保险欺诈在许多国家每年都有数亿美元的损失,对医保基金安全构成了重大的威胁,妨碍了各国医保政策的实施,因此医疗保险欺诈已成为各国非常重视的社会问题[1]利用数学建模的方法分析医疗保险欺诈行为,建立相应的数学模型可为发现医疗保险欺诈问题提供科学有力的依据。1.2问题描述医疗保险欺诈行为具有两个基本特征:一是主观表现为直接故意,并且以非法占有医保基金或非法获得医保待遇为目的;二是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。骗保人进行医保欺诈时通常使用的手段有冒用他人医疗保险证、卡就医;异地就医人员伪造或虚开医疗票据回来报销;“挂床”住院就医;要求医院开具本人不必要的诊疗项目或药品,由他人代作或代用等。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。二、问题分析BP神经网络是一种按误差你传播算法训练的前馈网络,学习过程由信号的正向传播与误差的逆向传播两个过程组成.正向传播时,模式作用于输入层,经隐层处理后,3传入误差的逆向传播阶段,将输出误差按某形式,通过隐层向输入层逐层返回,并“分摊”给各层的所有单元,从而获得各层单元的参考误差或称误差信号,以作为修改各单元权值的依据.权值不断修改的过程,也就是网络学习过程.此过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止[3][4]。目前BP神经网络已在国内外相关经济研究领域得到广泛应用,在国内的证券、银行等相关领域已有学者开始运用BP网络进行研究,叶明华将该方法运用到机动车保险欺诈的研究当中,并且尝试了统计回归与神经网络的融合,证实了神经网络运用于保险欺诈的识别是可行的,并且通过回归分析精炼后的识别因子能够使神经网络具有更好的识别效果。[2]在这个问题中,数据量巨大,同时自费患者和欺诈患者(共用医保卡)提供了大量的样本,而这些样本恰好可以用于BP神经网络的训练,同时还可以用Logistic二元回归分析筛选出影响显著的欺诈因子,将定量与定性相结合,使结果更准确。因此,对于这个问题,运用层次分析法和Logistic二元回归分析相结合的方法进行医保欺诈的识别。三、模型假设1.自费病人无医保欺诈嫌疑2.消费总额和消费数量为负数的视为记录错误,取绝对值计算3.忽略这个月内极少数病人转科室治疗的情况4.这个月当地没有地震等重大灾难的发生四、模型的建立与求解4.1预处理数据4.1.1样本与欺诈因子选取根据附录表格2.1和2.2中的病人资料和消费记录中使用Excel和Access的数据处理函数,结合相关资料,先做出各个科室的平均消费额,然后提取出包括病人科室,病人所在科室的平均消费额,病人当月总费用,当月拿药频次,年龄,性别在内的6个欺诈因子,并将这些欺诈因子整合到病人ID中,表格见附件1。4表4.1欺诈因子汇总表医保病人ID病人科室各科室平均消费额当月拿药频次当月总费用年龄性别36305015220.1960112942220.0529162769018732.1121484643160.2552116879915220.1960112961018.29462178614203170.46705697510.2496226497218732.1121484651314.2629219905618732.1121484661255.1246252473815220.196011293721.5148240626015220.196011294643.5248116730518732.112148466913.2747133196818732.112148468894.13302161213173151.356301953752.657716126571095.2881589712354.683214.1.2自费病人与医保卡共用病人从题目表2.1病人资料医保卡号一栏中筛选出医保卡号为1的病人,提取出他们的病人ID并确定他们为自费病人。对医保卡号一栏运用COUNTIF函数筛选一卡多用病人发现存在2人共用医保卡以及3人共用医保卡的现象,提取出他们的ID并确定其为共用医保卡病人。分别根据自费病人以及医保卡共用病人的ID作出如表格4.2的欺诈因子汇总表便于进一步分析。4.2欺诈因子的精炼运用二元离散选择模型对选取的6个欺诈因子进行回归分析,从中获取具有显著性的欺诈因子,我们通过IBMSPSSStatistics19软件实现样本数据的Logistic二元回归分析。参数设定为:方法:Enter步进概率:进入=0.05,删除=0.1;最大迭代次数:50Exp(B)的C.I.(X):95%。5表4.2迭代历史记录迭代-2对数似然值系数Constant步骤017647.606-1.93524584.590-2.93133917.985-3.64543832.549-4.01353829.783-4.09563829.779-4.09873829.779-4.098a.模型中包括常量。b.初始-2对数似然值:3829.779c.因为参数估计的更改范围小于.001,所以估计在迭代次数7处终止。表4.3为迭代历史记录,估计在迭代7次后终止,初始的-2对数似然值达到43.927。表4.3分类表已观测已预测欺诈与否百分比校正01步骤0欺诈与否0225850100.013750.0总计百分比98.4a.模型中包括常量。b.切割值为.500在表4.4中可见在输入的样本中有22585例被预测为0,有375例应该为1的也被预测为0,预测正确率98.4%。6表4.4显著性检验得分dfSig.步骤0变量相对差1.6241.202当月总费用7.6071.006当月拿药频次1.4011.237年龄10.6761.001性别(1)63.6741.000病人科室216.1201.000各科室平均消费额18.7101.000总统计量300.1287.000表4.5是对模型的全局检验,为似然比检验,共给出七个结果:sig值0.05表明有统计学意义。从中可见病人当月总费用,年龄,性别,病人所在科室以及病人所在科室的平均消费额对回归具有显著影响,而其他因素没有影响。根据这个结论就可以建立医保欺诈识别的BP网络模型。4.3医保欺诈识别的BP网络模型1)设置初始权值W(0)为较小的随机非零值。2)给定输入/输出样本集合,误差指标总误差指标重复下列过程直至满足收敛条件()a)对于任意一个样本p,计算正向过程:1,,,,,llppppuOxy反向过程:b)修正权值包括两种学习方式:模式(Pattern)学习方式:71,0pllijijlijEwtwtw训练(Epoch)学习方式:1,0llallijijlijEwtwtw[5]网络输入矩阵是由Logistic二元回归分析获取的具有模型显著性的5个欺诈识别因子向量组成,网络输出向量矩阵是由是否欺诈(0和1)组成的一维矩阵,0代表该病人没有欺诈,1代表欺诈。经过反复多次试验,本着误差最小,训练时间最短的原则最终确定了有2个隐藏层的BP神经网络模型。设置目标误差为0.025,最大迭代次数50000等[6]。图4.1BP神经网络训练图8从图4.1中看出我们的BP神经网络经过396个迭代周期,历时2分50秒之后终于达到了目标误差0.025。训练过程如图所示。图4.2模拟训练过程图4.4欺诈病人识别根据训练好的BP神经网络,对不能确定是否欺诈的病人进行欺诈识别,找到可能的欺诈病人ID,并根据其欺诈可能性大小进行了排序,排序越靠前欺诈嫌疑越大。最终结果请看附件5.9五、模型的评价与推广5.1模型的优缺点本文采取采取Logistic回归和BP神经网络结合的方法,运用Spss软件对样本进行Logistic回归分析提取具有模型显著性的识别因子;将所得识别因子作为BP神经网络模型的输入向量进行训练,并选取检验样本对模型的有效性进行预测检验,证明了模型的准确性和用这种方法用于医保欺诈识别的可行性。本模型基于BP神经网络的方法具有很多优点:BP神经网络的非线性映射能力强,数学理论证明三层的神经网络就能够以任意精度逼近任何非线性连续函数。避开了求欺诈因子与欺诈与否之间复杂函数关系的过程,使问题的解决更加简单,其次BP神经网络具有一定的容错能力,BP神经网络在其局部的或者部分的神经元受到破坏后对全局的训练结果不会造成很大的影响,也就是说即使系统在受到局部损伤时还是可以正常工作的。同时本模型也存在着一定的局限性,BP神经网络是一种局部搜索的优化方法,
本文标题:数学建模医保欺诈模型的主动发现
链接地址:https://www.777doc.com/doc-6987748 .html