您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 数学建模练习题医保欺诈的主动发现
-1-医保欺诈的主动发现摘要随着城镇职工基本医疗保险覆盖面的逐步扩大,参保人员结构更为复杂,医疗保险基金在医疗领域面临欺诈的风险也越来越大。防范医疗欺诈问题,是研究社会医疗保险的重要课题之一,以此医疗保险欺诈为背景提出了问题,本文运用聚类分析、等方法成功解决了这个问题,并在大量医保名单中找出了医保欺诈行为。首先根据数据2.1,我们对数据进行了预处理,利用Excel的删除重复项功能对人数进行了识别,然后查找并删除了死亡患者的数据,最后得到58014个不同的ID号,然后利用SPSS分别对身份证号、医保手册号采取标记重复个案的方法,标识出重复数据,其次利用k均值聚类分析法对Userupdate(用户更新次数)进行了分析,确定了主个案和重复个案占的比重,并画出其占比重的饼状图,发现第二类聚类中心数大,以上三种数据特征则表示极可能是医保欺诈行为。另外根据数据2.2,考虑到可能的欺诈行为,将其分为三类,分别为单张处方单价过高,但其与总价、数量之间存在着相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。最后,对所建立的模型和求解方法的优缺点给出了客观的评价,并指出了改进的方法。关键词:医保欺诈SPSSk均值聚类分析标志重复个案-2-一、问题复述1.1问题背景随着我国医疗保险事业快速发展,在保险赔付过程中,存在着一些借助病案进行医疗保险欺诈的事件,医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。1.2问题提出请根据附件中的数据(数据见2.12.22.32.42.52.6),找出可能的欺诈记录。二、模型假设1.;.假设数据来源真实有效;2.假设分析过程中,数据无缺失三、符号说明ijx变量js标准方差)(IZj初始聚类中心))(,(IZxDji样本与聚类中心的距离JC误差平方和准则函数2ijd欧式距离)1(IZj新聚类中心-3-rPearson相关系数tPearson相关系数检验统计量四、模型的建立与求解4、模型建立与求解4.1.1问题的分析为了研究找出医疗欺诈行为,我们根据病人ID利用Excel2007软件的删除重复项功能,对人数进行识别,发现只有58014个不同的ID号,然后利用SPSS软件对身份证号、电话号码、医保卡号的重复项进行标志,并利用聚类分析对其进行分析,最后得出主个案和重复个案所占比例的饼状图,通过饼状图,我们可以清晰的发现医保欺诈为占比重小的那部分4.1.2聚类分析聚类分析的基本思想聚类clustering,简单的讲就是将一个给定的数据集分成若干个不同簇的过程聚类算法中的簇指的是数据对象的集合且这种数据对象集合必须满足条件同一簇中的数据对象间具有较大的相似性而不同簇中的数据对象间具有较小的相似性聚类的主要指导思想就是尽可能使同一簇内对象相似度达到最大且不同簇间对象相异度达到最大。K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标2。4.1.2.1K-means聚类分析方法k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每-4-个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。4.1.2.2K-means聚类分析法]1[的步骤:对Userupdate(变量)的标识重复个案的结果,进行分类主要采用聚类分析法,而求取类之间的距离有多种方法,其中最常用的是欧几里德距离。(1)数据标准化由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,则每个变量可表示为ijx,均值niijjxnx11(1)标准方差niijijjxxns12)(11(2)则标准化后)0(*jjjijijssxxx(3)(2)聚类系统聚类;,将n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。①设有n个样本,令I=1,选取K个初始聚类中心:kjIZj,...2,1),(;②计算每一个数据样本与聚类中心之间距离:niIZxDji,...,2,1)),(,(如果满足niIZxDIZxDjiji,...,2,1))},(,(min{))(,(,则kiwx;③计算误差平方和准则函数JC,公式如下:211)()(kjnkjjkjIZxIJC(4)④判断是否满足聚类算法结束条件:如果)1()(IJCIJC,则表示-5-算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:kjXnIZkijijj,...,2,1,1)1(1(5)距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。令ijx表示第i个重复个案结果的第j个指标,ijd表示第i个重复个案与第j个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离1/2212pijikjkkdxx即为欧氏距离(6)4.4.1.3模型的求解首先我们利用Excel2007的删除重复项得到58014个不同的ID号,得到58014个不同的ID号,由于利用SPSS标志对身份证号有重复个案的记录进行统计,其中有些数据没统计,所以只对统计的数据进行了统计,结果见如下;表一对身份证号有重复个案的记录进行统计表二对身份证号有重复个案的记录进行统计表-6-从表一可以看出,身份证号总记录为35174个(删除无效记录后),其中重复个案为1457个,占4.1%,表二可以看出,重复个案所占比例小,可判断出,同一身份证在一段话时间内多次出现。(2)利用SPSS]3[标志对医保手册号有重复个案的记录进行统计,图表中记录为“1”的数据认为是无医保病人,则不可能出现医保欺诈,将此部分数据算作为主个案,不认为是重复个案,结果见图3。图4为根据统计结果绘制的饼状图。表三对医保手册号有重复个案的记录进行统计表四对医保手册号有重复个案的记录进行统计表从表三可以看出医保手册号总记录有58017个,其中重复个案有22365,个,占38.55%从表四中可以看出,重复个案占比重相对较大,可以判之其为医保欺诈行为。(3)首先运用SPSS对个数、用户更新数据及每个医保手机号用户更新数做了统计,具体数据见附录一二,由于数据过大,以下两个表是所做统计数据的部分截图;-7--8-(3)用SPSS中k均值聚类分析对Userupdate(用户更新次数)进行分类,最终聚类中心结果见图5,图6为每个聚类的案例数,图7为根据最终聚类中心结果绘制的饼状图。表5最终聚类中心统计表表6每个聚类中的案例数统计表表7用户更新次数统计表3)从图5中看出,将Userupdate(用户更新次数)分为两类,最终聚类中心分别为859和4141;图6显示每个聚类的案例数,可以看出第2聚类的案例数很少,表明更新次数过多有可能是欺诈行为。4.2基于费用明细的医保欺诈行为主动发现4.2.1问题分析:考虑到医保欺诈行为,我们将其可能的结果分为三类,分别为单张处方单价过高,然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析]2[;最后,若下医嘱科室与病人科室不一致则可能为欺诈。4.2.2聚类分析:(1)数据标准化-9-由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,则每个变量可表示为ijx,均值niijjxnx11(7)标准方差niijijjxxns12)(11(8)则标准化后)0(*jjjijijssxxx(9)(3)聚类系统聚类;,将n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。①设有n个样本,令I=1,选取K个初始聚类中心:kjIZj,...2,1),(;②计算每一个数据样本与聚类中心之间距离:niIZxDji,...,2,1)),(,(如果满足niIZxDIZxDjiji,...,2,1))},(,(min{))(,(,则kiwx;③计算误差平方和准则函数JC,公式如下:211)()(kjnkjjkjIZxIJC(10)④判断是否满足聚类算法结束条件:如果)1()(IJCIJC,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:kjXnIZkijijj,...,2,1,1)1(1(11)距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。令ijx表示第i个重复个案结果的第j个指标,ijd表示第i个重复个案与第j个重复个案之间的距离,最常见计算距离的方法是:-10-欧几里德距离1/2212pijikjkkdxx即为欧氏距离(12)相关性分析:相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:2_2___)()())((yyxxyyxxriiii(13)Pearson简单相关系数检验统计量为:212rnrt(14)其中t统计量服从2n个自由度的t分布。4.2.3模型的求解:(1)我们对单价、数量、总价进行相关分析,表8是三变量相关性系数表,图9为总的医药费、单价和就诊数量的3D空间散点图。表8三变量相关系数-11-图9总的医药费、单价和就诊数量的3D空间散点图(2)图10最终聚类结果(3)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见图10,图11是这四个变量的单因素方差分析表,图12为每个聚类的案例数-12-图11单因素方差分析表图12每个聚类中的案例数(1)图8的统计表中,可以看出单价与总价的相关性为0.456(弱相关),而数量与总价的相关性为0.11
本文标题:数学建模练习题医保欺诈的主动发现
链接地址:https://www.777doc.com/doc-2332003 .html