您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 数学建模医保欺诈行为的主动发现
医保欺诈行为的主动发现摘要对于医保诈骗行为,我们认为仅通过一个模型直接找出所有的欺诈类型既不准确,操作起来又比较困难。所以我们根据题附件中的费用明细表,通过分析费用数据与诈骗行为之间的关系建立模型一;根据各个表中出现的异常值,我们将异常值视为可能是医保欺诈行为,并由此建立模型二。针对模型一,我们从三方面考虑。首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录。针对模型二,建立合理的欺诈评判标准,检测其中的异常数据,进而对医保行为作出识别。首先,构建基于Logistic分析的精炼欺诈识别因子模型。建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。构建无导师学习的自组织特征映射(SOFM)神经网络模型。即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。关键词:医保欺诈标记重复个案相关分析logit模型SOFM神经网络1一、问题重述1.1问题的背景随着我国社会医疗保险体系的不断发展,人民的医保福利水平日益提高,一些医保体系中的问题也日益显著,其中焦点问题之一就是医保诈骗行为。1.2问题的复述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。二、问题分析根据问题中对骗保人进行医保欺诈时的常用手段,以及可能属于医保欺诈行为的情况,经过分析我们可以将问题分为以下几个方面来解决。1、判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑。对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图,可直观看出,所占比例的小的可能为欺诈记录。2、首先第一步,对数据进行分析,构建基于Logistic分析的精炼欺诈识别因子模型。基于第一步处理的欺诈案评判标准数据间的关系,建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。2第三步,构建无导师学习的自组织特征映射(SOFM)神经网络模型。即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,在待检测数据中抽取一部分样本数据训练SOFM神经网络,得到欺诈行为识别模型。第四步,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别。三、问题的假设1、假设医保欺诈只是患者单方面行为,不存在医患合谋和医疗机构“引至欺诈”情况。2、假设数据来源真实有效。3,、假设分析过程中,数据无缺失。4、假设对每个聚类分析结果,使用同一评判标准。5、假设附所有保险的有关规定没各个指标。6、假设所有的相关数据具有独立性相呼影响。四、符号说明ijx变量js标准方差)(Izj初始聚类中心))((IzxDji,样本与聚类中心的距离JC误差平方和准则函数3)2(ijd欧式距离)1(Izj新聚类中心rPearson相关系数tPearson相关系数检验统计量iB2个一级指标i=1,2ijc5个二级指标i=1,2j=1,2,3iw3个成对比矩阵i=1,2,3=矩阵按行求和矩阵的最大特征值W5个指标最终权重CT一致性检验指标RI随机一致性指标CR一致性比率t1欺诈程度阈值五、模型的建立与求解5.1模型一:基于费用明细的医保欺诈行为主动发现5.1.1模型一的分析医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。4在附件给出的表2中,通过对各个变量进行K均值聚类分析,可以将数据分为几类,案例数少的则可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响,对此我们使用了SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单3-D散点图。对于病人ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的,若不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图。5.1.2模型一的建立:(1)数据标准化由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,则每个变量可表示为ijx,均值niijjxnx11(1)标准方差为niijijjxxns12)(11(2)标准化以后的式子为)0(*jjjijijssxxx(3)(2)聚类分析系统聚类,将n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。1、设有n个样本,令I=1,选取K个初始聚类中心:kjIzj,,2,1),(;2、计算每一个数据样本与聚类中心之间距离:5niIzxDji,,2,1)),(,((4)如果满足kijijiwxniIzxDIzxD,,,2,1))},(,(min{))(,(;3、计算误差平方和准则函数JC,公式如下:211)()(kjnkjjkjIZxIJC(5)4、判断是否满足聚类算法结束条件:如果)1()(IJCIJC,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回2,新的聚类中心计算公式如下:kjXnIZkijijj,,2,1,1)1(1(6)距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画。令ijx表示第i个重复个案结果的第j个指标,ijd表示第i个重复个案与第j个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离2/112])([)2(pkjkikijxxd(7)上式即为欧氏距离。(3)相关性分析:相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r的绝对值越接近于1,则表示两个变量间的相关性越显著。双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时用pearson相关系数来判断,其公式为:22)()()()(yyxxyyxxriiii(8)Pearson简单相关系数检验统计量为:6212rnrt(9)其中t统计量服从2n个自由度的t分布。5.1.3模型一的求解(1)考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图8为三个变量的相关性分析统计表,图9单价、数量、总价的简单3-D散点图。表-1单价、数量、总价相关分析统计表7图-1单价,数量,总价的简单3-D散点图(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见表-2,表-3是这四个变量的单因素方差分析表,表-4是运用k-均值聚类分析求出的重复个案数。表-2病人ID号重复个案的最终聚类中心表-3医嘱子类、单价、数量、总价的单因素方差分析表8图-2医嘱子类、单价、数量、总价的最终聚类中心条形图表-4k均值聚类分析中的重复个案聚类上述所有统计结构的分析:(1)从相关分析的统计表中,可以看出单价与总价的相关性为0.456(弱相关),而数量与总价的相关性为0.116(不相关),所以认为,单价与总价有一定的相关性。(2)从图10中看出,将医嘱子类、单价、数量、总价分为10类;图12为医嘱子9类、单价、数量、总价的每个聚类的案例数,发现第1、2、4类的单价过高;第3、10类退药数量大,第8类买药数量大;第1、3类单张处方退药金额大;第2、4、6类单张处方药费高。以上所述的都有可能为医保欺诈记录。(3)图14统计出病人ID号重复个案占总数的77.6%,对此再进行聚类分析,结果见图15;由图16可知,第5、7、8、10类案例数较少,这些类的最终聚类中心大于25,此特征可能为欺诈。(4)根据图17绘制的下医嘱科室与病人科室简单线图,可以看出有个别记录不在y=x线上,即为下医嘱科室与病人科室不一致,因此为医保欺诈行为。(5)在图11的单因素方差分析中,医嘱子类、单价、数量、总价的P值均为0,说明各类在统计学上均有明显差异,将其作为分类标准是合适的。5.2模型二的建立与求解5.2.1logit模型的建立我们把事件发生的情况定义为1,事件未发生的情况定义为0。这样在保险欺诈识别模型中,取值为0、1的因变量可以写作:非医疗欺诈,医疗欺诈,01(10)p表示事件发生的概率(则事件未发生的概率为p-1),并把p看作自变量x的函数。在本论文中,医疗保险是医疗欺诈的概率为p。对于y是0-1型Bernoulli模型,有如下分布:概率的概率,即非医疗欺诈时自变量为率的概率,即医疗欺诈概时自变量为0),/0(-11),/1(yxxyPpyxxyPp(11)通过logistic转换,索赔事件的对数概率发生比写成logit模型:ppInpit1)(log(12)Logit一方面表达出它是医疗欺诈索赔概率p的转换单位;另一方面,它作为回归10的因变量就可以与自变量识别因子之间的依存关系保持传统回归模型:Xxxxitpkk022110log(13)其中kxxx,,,21分别为k个识别因子:0为常数项,k,,,21分别为k个自变量的回归系数。5.2.2logit模型的求解1、欺诈识别因子的选取欺诈识别因子是指可以观测或测量到的,能够刻画保险欺诈特征的有效信息点,用以作为欺诈识别模型的解释变量。根据给出的数据,本文选取了一下13个指标作为识别因子:(1)被保人特征:性别、年龄、是否有固定单位、是否死亡、是否留有手机号。(2)医保单特征:医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。2、选取部分记录进行初步判定由于logist模型的要求,必须先对一小部分记录进行初步判定,利用sql语句(详见附录2)选取每一栏目中异常数据,然后利用统计学分布等知识选取判定这一小部分数据,结果如下表:表-5部分记录判定结果113、欺诈识别因子的精炼运用二元离散选择模型对选取的13个欺诈识别因子经行逻辑回归分析,从中获取具有显著性的因子。本文通过SPSS19.0软件实现样本数据的logit回归分析,所得结果见下表:参数设定为:方法-进入步进概率:进入(N)=0.05,删除(V)=0.1;分类标准值(U):0.5;最大迭代次数:50;Exp(B)的C.l.(X):95%。表-6分类表ba,表-7迭代历史记录cba,,12Block拟合的是只含有常数的无效模型,表3为迭代
本文标题:数学建模医保欺诈行为的主动发现
链接地址:https://www.777doc.com/doc-2331362 .html