您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 医保欺诈行为的主动发现(电子)
1医保欺诈行为的主动发现摘要医保欺诈行为,是指以非法占有为目的,用虚构事实或者隐瞒真相的方法,骗取公私财物的行为。医保欺诈,可以从病人资料,消费明细等数据记录来体现。本文主要通过分析记录的数据,找出可能的医保欺诈行为。总结出欺诈行为的数据特征,以便判断是否是医保欺诈。首先,根据已有文献,对涉嫌诈骗行为进行分析,找出所给数据中对应数据,然后采用多元统计分析方法进行分析,主要使用SPSS软件中标识重复个案、K均值聚类分析、相关分析的方法,若个案重复次数过多以及聚类的案例数较少,则可能为欺诈。针对数据一病人资料,我们从三方面分析,一方面对病人身份证号进行标记重复个案,发现重复个案占总数的4.1%,;另一方面对于医保手册号同样采取标记重复个案的方法,从结果可以看出重复个案占0.3%;最后,对Userupdate(用户更新次数)进行K均值聚类分析,发现第1类的聚类中心数大(即更新次数多)占总案例数的8%。以上三种数据特征则表示极可能是医保欺诈行为。针对数据二费用明细表,我们也从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。最后分析了所建立模型的优缺点,并在所提模型基础上进一步建立预测欺诈的程序框图,以便在真实数据的基础上能快速筛查是否为医保欺诈行为。关键词:医保欺诈k均值聚类标识重复个案相关分析SPSS2一、问题的重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。二、模型的假设在我们的模型中做了如下假设:1.假设数据来源真实有效;2.假设分析过程中,数据无缺失;3.假设对每个聚类分析结果,使用同一评判标准.三、符号说明本文用到的符号及其意义见下表:ijx变量js标准方差)(IZj初始聚类中心))(,(IZxDji样本与聚类中心的距离JC误差平方和准则函数2ijd欧式距离)1(IZj新聚类中心rPearson相关系数tPearson相关系数检验统计量3四、模型的建立与求解因为单张处方药费特别高一张卡及在一定时间内反复多次拿药可能涉嫌医保欺诈,故分别采用标记重复个案、聚类分析、相关性分析的方法对病人资料及费用明细进行分析。4.1基于病人资料的医保欺诈行为主动发现4.1.1问题的分析判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑。对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。4.1.2模型的建立:标识重复个案与聚类分析标识重复个案:当输入大量数据时,有时候会意外地出现输入同一条记录多次;或同一条记录的某部分多次出现,即多个个案具有相同的主标识值,但它们有不同的次标识值(比如,同一个身份证号有多个不同的序列号)。另外一种出现重复个案的情况是,多个个案代表同一个案,但是除这些个案的标识变量取值相同之外,其他变量的取值不同。聚类分析:对Userupdate(变量)的标识重复个案的结果,进行分类主要采用聚类分析法1,而求取类之间的距离有多种方法,其中最常用的是欧几里德距离。(1)数据标准化由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,则每个变量可表示为ijx,均值11njijixxn标准方差2111njijijisxxn则标准化后*0ijjijjjxxxss(2)聚类系统聚类;,将n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。①设有n个样本,令I=1,选取K个初始聚类中心:kjIZj,...2,1),(;4②计算每一个数据样本与聚类中心之间距离:niIZxDji,...,2,1)),(,(如果满足niIZxDIZxDjiji,...,2,1))},(,(min{))(,(,则kiwx;③计算误差平方和准则函数JC,公式如下:211)()(kjnkjjkjIZxIJC④判断是否满足聚类算法结束条件:如果)1()(IJCIJC,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:kjXnIZkijijj,...,2,1,1)1(1距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。令ijx表示第i个重复个案结果的第j个指标,ijd表示第i个重复个案与第j个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离1/2212pijikjkkdxx即为欧氏距离4.1.3模型的求解(1)用SPSS中标记重复个案对身份证号有重复个案的记录进行统计,由于有些数据无记录,因此只统计了有记录的数据,结果见图1。图2为根据统计结果绘制的饼状图。图1病人身份证号重复个案统计表5图2病人身份证号重复个案统计表(2)用标识重复个案对医保手册号有重复个案的记录进行统计,图表中记录为“1”的数据认为是无医保病人,则不可能出现医保欺诈,将此部分数据算作为主个案,不认为是重复个案,结果见图3。图4为根据统计结果绘制的饼状图。所有最后一个匹配个案的指示符为主个案频率百分比有效百分比累积百分比有效重复个案188.3.3.3主个案5783099.799.7100.0合计58018100.0100.0图3医保手册号重复个案统计表6图4医保手册号重复个案饼状图(3)用SPSS中k均值聚类分析对Userupdate(用户更新次数)进行分类,最终聚类中心结果见图5,图6为每个聚类的案例数,图7为根据最终聚类中心结果绘制的饼状图。图5最终聚类中心统计表图6每个聚类的案例数7图7最终聚类中心饼状图4.1.4模型结果分析(1)由图1结果统计表中可知,身份证号总记录为35176个(删除掉无效记录后),重复个案的记录有1437个,所占比例为4.1%;图2直观看出重复个案所占比例的大小。从侧面反应出同一病人在一定时间内多次使用医保。(2)由图3的表中,可以看出医保手册号总记录为58018个,重复个案的记录有188个,占总数的0.3%;图4中可明显看出表示有效重复个案的蓝色区域是极小的。此分析结果表明一定时间内医保手册号重复使用次数过多的占总体的0.3%,这些记录表现极可能是医保欺诈行为。(3)从图5中看出,将Userupdate(用户更新次数)分为两类,最终聚类中心分别为4141和859;图6显示每个聚类的案例数,可以看出第1聚类的案例数很少,占总案例数的8.1%,表明更新次数过多有可能是欺诈行为。4.2基于费用明细的医保欺诈行为主动发现4.2.1问题的分析医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。在附件给出的表2中,通过对各个变量进行K均值聚类分析,可以将数据分为几类,案例数少的则可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响,对此我们使用了SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单3-D散点图。对于病人ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的,若不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图。84.2.2模型的建立:聚类分析与相关性分析聚类分析:(1)数据标准化由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,则每个变量可表示为ijx,均值11njijixxn标准方差2111njijijisxxn则标准化后*0ijjijjjxxxss(2)聚类2系统聚类;,将n个样本结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。①设有n个样本,令I=1,选取K个初始聚类中心:kjIZj,...2,1),(;②计算每一个数据样本与聚类中心之间距离:niIZxDji,...,2,1)),(,(如果满足niIZxDIZxDjiji,...,2,1))},(,(min{))(,(,则kiwx;③计算误差平方和准则函数JC,公式如下:211)()(kjnkjjkjIZxIJC④判断是否满足聚类算法结束条件:如果)1()(IJCIJC,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回②,新的聚类中心计算公式如下:kjXnIZkijijj,...,2,1,1)1(1距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。求取类之间的距离有多种方法,其中最常用的是欧几里德距离。令ijx表示第i个重复个案结果的第j个指标,ijd表示第i个重复个案与第j个重复个案9之间的距离,最常见计算距离的方法是:欧几里德距离1/2212pijikjkkdxx即为欧氏距离相关性分析:相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:22()()()()iiiixxyyrxxyyPearson简单相关系数检验统计量为:221rntr其中t统计量服从2n个自由度的t分布。4.2.3模型的求解(1)考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图8为三个变量的相关性分析统计表,图9单价、数量、总价的简单3-D散点图。图8单价、数量、总价相关性分析统计表10图9单价、数量、总价的简单3-D散点图(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见图10,图11是这四个变量的单因素方差分析表,图12为每个聚类的案例数,图13是根据图12的结果绘制的简单条形图。图10医嘱子类、单价、数量、总价的最终聚类中心11图11医嘱子类、单价、数量、总价的单因素方差分析图12医嘱子类、单价、数量、总价的每个聚类的案例数12图13医嘱子类、单价、数量、总价的最终聚类中心条形图(3)用标识重复个案对病人ID号进行重复个案分析,结果见图14。再用k均值聚类分析对图14中的重复个案进行聚类,结果见图15。图16为病人ID号重复个案的每个聚类的案例数。图14病人ID号重复个案统计表图15病人ID号重复个案的最终聚类中心13图16病人
本文标题:医保欺诈行为的主动发现(电子)
链接地址:https://www.777doc.com/doc-2583743 .html