您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 医疗保险欺诈的主动识别
答卷编号(参赛学校填写):答卷编号(竞赛组委会填写):论文题目:A医保欺诈的主动发现组别:本科生参赛学校:报名序号:(可以不填)参赛队员信息(必填):姓名专业班级及学号联系电话参赛队员1参赛队员2参赛队员3答卷编号(竞赛组委会填写):评阅情况(省赛评阅专家填写):省赛评阅1:省赛评阅2:省赛评阅3:省赛评阅4:省赛评阅5:11.问题的重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。请根据附件中的数据,找出可能的欺诈记录。2.问题的分析题目的意图很明确,就是要我们通过数学建模的手段找出医疗保险欺诈的记录。通过对给出数据的观察和分析,我们发现这几个表里面有很多栏都是空白,而且有些信息记录与本次建模没有联系,所以首先必须要将到数据库中,通过数据库语言对表进行合理的处理,整合到一张表里。接着应该选取一些欺诈识别因子,即初步选取能刻画欺诈特征的一些可测信息点确定识别指标。为了能对这些因子进行评价判断,应该要抽取一部分记录作为初步的样本。接下来就得通过统计回归方法检验指标的有效性,并从中选取显著有效的欺诈识别因子作为解释变量;通过建立BP神经网络模型进行欺诈识别,选取学习样本训练神经网络,并选取检验样本检验网络模型的有效性,即通过网络计算欺诈概率,并同事先确定的阈值进行比较,当欺诈概率超过该阈值时即视为疑似欺诈案件,在实际中确定为疑似欺诈的案件进入特殊处理程序,进一步调查。3.模型的假设与符号说明3.1模型的假设(1)假设医保手册号为1的病人都是不享受医疗保险的;(2)假设医嘱数量和费用为负数是输入错误,将所有负数变为正数;(3)假设所有数据来源真实不存在篡改的情况。2aix1L0Lbiiy3.2符号说明p事件发生的概率,存在医保欺诈概率为1第i个识别因子回归方程的似然函数值引入解释变量后似然函数N样本容量第i个自变量的回归系数第i个案例的判定概率识别因子中最大值识别因子中最小值M为隐层节点数4.模型的准备通过对附件里的数据进行观察可以很容易发现,有很多表格里的栏目内容为空,还有就是有些信息对本次建模没有帮助,所以在建立模型前,有必要将原始数据进行筛选处理。通过将数据导入数据库,利用数据语言对数据进行处理(详见附录1)具体处理内容如下:(1)对于表2.1病人资料的处理通过查找观察,发现如VIP标志PAPMIVIPFlag、备注PAPMIRemark等栏目为空,可进行删除;利用出生日期,计算出病人在2014年的年龄;将性别PAPMI_SEX_DR为男为1,女为0;对于是否死亡PAPMI_DECEASED,死亡了的病人设为1,未死亡的设为0;对于手机号PAPMI_MOBPHONE,将有手机号的病人设为1,没有手机号的病人设为0;对于医保手册号PAPMI_Name3,将有医保手册的人设为1,没有医保手册号的人设为0,将没有医保手册号的病人删除,因为没有医保手册号的病人是不享受医保。(2)对于表2.2病人资料费用明细此表是所有表中有用信息最多,且是最为重要的表。选取里面下医嘱科室WORKLOAD_RECDEP_DR、医嘱数量WORKLOAD_QUANTITY、执行科室WORKLOAD_RECDEP_DR、下嘱医生WORKLOAD_RESDOC_DR、核算分类WORKLOAD_TAREC_DR、费用WORKLOAD_TOTALPRICE、单价WORKLOAD_UNITPRICE等信息,放入新表中;利用数据库语言,将医嘱日期WorkLoad_OrdDate到结算日期WorkLoad_FlagDate的时间间隔求出来。(3)对于表2.3、2.4、2.5、2.6进行处理由于这四张表里面的信息有些过于详细,有很多都是空的信息,所以在本次建模中这四个表只用于参照和核对,不直接用于建模的数据引用和处理。通过以上的方法可以得出一张新的数据表,表的大概情况如下:3表1数据处理后形成的新表医保对象购药记录年龄病例号医保手册号性别是否死亡17861435963074960600783300工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号019320370132605060035核算分类费用单价时间间隔医嘱子类31.750.025025医保对象购药记录年龄病例号医保手册号性别是否死亡22568436087446440151935000工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号1191133179405066057核算分类费用单价时间间隔医嘱子类……1118118015……5.模型的建立与求解5.1logit回归模型5.1.1模型有效性检验与一般的线性模型类似,logit模型也需要对模型进行检验和评价,同样分为回归的显著性检验、回归系数的显著性检验和模型拟合度评价。5.1.1.1logit模型回归方程整体显著性检验logit模型回归方程的显著性检验用于检验用于检验logitP与所有变量之间的线性关系是否显著,检验的原假设为各回归系数为零,备选假设为各回归系数不同时为零。常用的检验方法有对数似然比检验和Housmer-Lemeshow检验。(1)对数似然比检验假设没有引入任何解释变量,即方程仅包含常数项时,回归方程的似然函数值为0L,引入解释变量后似然函数为1L,则似然比为10LL。显然,似然比值为1~0,且值越接近1表明模型中解释变量对模型总体没有显著影响;反之,越接近0表明引入解释变量对模型具有显著影响。构造如下似然比卡方统计量:10210ln2lnLLLL可以证明,在原假设成立时,该统计量服从自由度为k的卡方分布,k为引入模型变量的个数。SPSS会自动给出似然比卡方统计量及其概率p值。若p值小于给定的显著性水平,则拒绝原假设,认为回归方程整体显著;反之,认为回归方程不显著。(2)Housmer-Lemeshow检验通过二元logit回归计算给定解释变量时被解释变量取值为1时的概率,若实际值为1的样本预测概率相对较高而实际值为0的样本预测值概率的大小将所有样本分为了m组,得到Housmer-Lemeshow检验的随机表。Hosmer-Lemeshow统计量服从自由度为4(m-2)的卡方分布。SPSS能够给出Hosmer-Lemeshow卡方统计量及相应概率p,当p小于给定显著性水平时,拒绝原假设,认为模型整体显著。5.1.1.2回归系数显著性检验在二元logit回归模型中,回归系数的显著性检验是通过构造Wald统计量进行。原假设为0j,Wald统计量数学表达式为:)ˆ(ˆ2jSWaldjj在满足原假设条件时,Wald统计量服从自由度为1的卡方分布。SPSS能够自动计算Wald统计量及其对应概率p值,通过比较第j个Wald统计量对应p值和给定的显著性水平即可以判定第j个回归系数是否显著。当p值小于给定显著水平时,认为第j个回归系数显著不为零,否则,认为其显著为零。5.1.1.3模型拟合优度评价二元logit模型拟合优度评价常用的统计量包括Cox-Snell2R统计量和Nagelkerke2R统计量。其中Cox-Snell2R统计量数学定义为:NLLSnellRCox21021其中,0L为没有引入任何解释变量的回归方程的似然函数值,1L为引入解释变量后的回归方程似然函数值,N为样本容量,类似于一般线性回归的2R统计量,其值越大表明模型拟合度越高。Nagelkerke2R统计量数学定义为:NLSnellRCox20221RNagelkerkeNagelkerke2R统计量是Cox-Snell2R统计量的修正,使得其取值范围限定为0~1,其值越接近于1表明模型拟合度越高。5.2logit模型建立我们把事件发生的情况定义为1,事件未发生的情况定义为0。这样在保险欺诈识别模型中,取值为0、1的因变量可以写作:,非医疗欺诈医疗欺诈0,1我们通常以p表示事件发生的概率(则事件未发生的概率为p1),并把p看作自变量x的函数。在本论文中,医疗保险是医疗欺诈的概率为p。对于y是0-1型Bernoulli模型,有如下分布:5即非医疗欺诈概率的概率时自变量为概率,即医疗欺诈概率时自变量为,0,|011,|1yxxyPpyxxyPp通过logistic转换,索赔事件的对数概率发生比写成logit模型:pppit1lnlogLogit一方面表达出它是医疗欺诈索赔概率p的转换单位;另一方面,它作为回归的因变量就可以与自变量识别因子之间的依存关系保持传统回归模型:Xxxxitpkk022110...log其中kxxx,...,,21分别为k个识别因子:0为常数项,k,...,,21分别为k个自变量的回归系数。5.3欺诈识别因子的选取欺诈识别因子是指可以观测或测量到的,能够刻画保险欺诈特征的有效信息点,用以作为欺诈识别模型的解释变量。根据给出的数据,本文选取了一下13个指标作为识别因子:(1)被保人特征:性别、年龄、是否有固定单位、是否死亡、是否留有手机号;(2)医保单特征:医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。5.4选取部分记录进行初步判定由于logist模型的要求,必须先对一小部分记录进行初步判定,利用sql语句(详见附录2)选取每一栏目中异常数据,然后利用统计学分布等知识选取判定这一小部分数据,结果如下表:表2部分记录判定结果医保对象购药记录年龄病例号医保手册号性别是否死亡17861435963074960600783300工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号019320370132605060035核算分类费用单价时间间隔医嘱子类是否欺诈31.750.0250251医保对象购药记录年龄病例号医保手册号性别是否死亡22568436087446440151935000工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号1191133179405066057核算分类费用单价时间间隔医嘱子类是否欺诈……11181180151……65.5欺诈识别因子的精炼运用二元离散选择模型对选取的13个欺诈识别因子经行逻辑回归分析,从中获取具有显著性的因子。本文通过IBMSPSSStatistics19软件实现样本数据的logit回归分析。(1)参数设定为:方法:进入;步进概率:进入(N)=0.05,删除(V)=0.1;分类标准值(U):0.5;最大迭代次数:50;Exp(B)的C.l.(X):95%。(2)拟合结果(详见附录3、附录4):表3迭代历史记录cba、、-2对数似然值系数constant1825.359.2072825.358.207a.模型中包括常量;b.初始-2对数似然值为825.359;c.因为参数估计的更改范围小于。001,所以估计在迭代次数3处终止。表4分类表ba、已观测医疗保险类型已预测以来哦保险类型是否存在医疗欺诈百分比校正01002690103311a.包括在模型中不变b.切割值为0.5Block0拟合的是只含有常数的无效模型,表3为迭代历史记录,估计在迭代终止,初始的-2对数似然值达到825.358;表4为分类预测表,可见在600例观察值记录中,269例被预测为0,331被预测为1。表5logit回归包含在方程中的变量估计值及检验步骤0BS.EWalsdfSieExp(B)常量.207.0826.3841.0121.230在没有引入任何变量时方程的变量估计值及检验值如表5所示,常变量系数值为0.27,概率为0.082,可见常量对方程有显著性意义。因为回归采用Enter方法,处了检查容忍度之外,没有其他任何进入标准
本文标题:医疗保险欺诈的主动识别
链接地址:https://www.777doc.com/doc-2585916 .html