您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 组织学习教育 > 数据挖掘技术在疾病预防与医保费用控制的
数据挖掘技术在疾病预防与医保费用控制的应用研究---------基于糖尿病卫生观测数据基于糖尿病卫生观测数据基于糖尿病卫生观测数据基于糖尿病卫生观测数据赵茜倩张盼指导教师:李庆提纲提纲提纲提纲问题引入问题引入问题引入问题引入相关研究相关研究相关研究相关研究相关研究相关研究相关研究相关研究实验设计实验设计实验设计实验设计实证研究实证研究实证研究实证研究总结总结总结总结一、问题引入医疗改革在我国是讨论的重点问题之一医疗费用及疾病预防是医改重要内容医疗费用及疾病预防是医改重要内容以糖尿病卫生观测数据为基础,利用数据挖掘的方法来帮助发现该类疾病形成的原因及费用控制二二二二、、、、相关研究相关研究相关研究相关研究数据挖掘技术在医疗保健方面的应用–PeterLucas:贝叶斯分析、模式识别–PeterLucas:贝叶斯分析、模式识别–SEBrossette等:关联规则–郑西川等:决策树分析三三三三、、、、实验设计1、问题分析2、数据分析2、数据分析3、实验方法三三三三、、、、实验设计1、问题分析–(1).得糖尿病的人与年龄或性别是否有关系(2).糖尿病患病几率与哪些变量有关系,如肥胖、–(2).糖尿病患病几率与哪些变量有关系,如肥胖、高血压等–(3).患有糖尿病如何影响病人的医疗总费用三三三三、、、、实验设计2、数据分析样本数据由美国USHETH(TheUnitedStatesHealthExpenseThinkTank)组织提供,共有50788条记录,主要包含个人信息及相关疾ThinkTank)组织提供,共有50788条记录,主要包含个人信息及相关疾病记录。(1)主要变量主要变量主要变量主要变量36个变量。目标变量:DIABETES_DIAG_BINARY(2)变量分类IntervalVariable(区间变量)ClassVariable(类别变量)变量解释1CENSUS_REGION地区-1INAPPLICABLE1NORTHEAST2MIDWEST3SOUTH4WEST2AGE年龄-1INAPPLICABLERealvalue3TOTAL_INCOME收入总额3TOTAL_INCOME收入总额REALVALUE4TOTALEXP医疗保健总额REALVALUE5AMOUNT_PAID_MEDICARE医疗保险支付总额REALVALUE6ADULT_BMI成人体质指数-1INAPPLICABLEREALVALUE7DIABETES_DIAG_BINARY糖尿病诊断1YES0NOBMI(BodyMassIndex)体质指数,是评估体重与身高比例的参考指数BMI分类WHO标准亚洲标准中国参考标准偏瘦18.518.518.5与身高比例的参考指数计算公式:BMI=体重/身高的平方(国际单位kg/㎡)正常18.5~24.918.5~22.918.5~23.9超重≥25≥23≥24偏胖25.0~29.923~24.924~26.9肥胖30.0~34.925~29.927~29.9重度肥胖35.0~39.9≥30≥30极重度肥胖≥40.0三三三三、、、、实验设计2、数据分析样本数据由美国USHETH(TheUnitedStatesHealthExpenseThinkTank)组织提供,共有50788条记录,主要包含个人信息及相关疾病记录。织提供,共有50788条记录,主要包含个人信息及相关疾病记录。(1)主要变量36个变量。目标变量:DIABETES_DIAG_BINARY(2)变量分类变量分类变量分类变量分类IntervalVariable(区间变量):AGE、YEARS_EDUS、TOTAL_INCOME、PRESON_WEIGHT、TOTALEXP、AMOUNT_PAID_MEDICARE、AMOUNT_PAID_MEDICAID、NUMB_VISITS、CHILD_BMI、ADULT_BMIClassVariable(类别变量)三三三三、、、、实验设计3、实验方法使用SAS软件的EnterpriseMiner模块进行数据挖掘。设定目标变量变量交互分析模型训练选择算法结果分析四四四四、、、、实证研究1、控制变量与目标变量交互对比分析2、模型训练3、不同年龄群体患病影响因素分析1、控制变量与目标变量交互对比分析控制变量“年龄”与目标变量对比图2、模型训练对糖尿病卫生观测数据的数据挖掘的模型模型评估提升图2、、、、模型训练模型训练模型训练模型训练(1)决策树分析重要变量树状结构(2)逻辑斯蒂回归分析重要变量2、、、、模型训练模型训练模型训练模型训练(1)决策树分析决策树分析决策树分析决策树分析重要变量树状结构(2)逻辑斯蒂回归分析重要变量NameNameNameNameImportanceImportanceImportanceImportanceNameNameNameNameImportanceImportanceImportanceImportanceAGE1.0000AMOUNT_PAID_MEDICAID0.1327HIGH_BLOOD_PRESSURE_DIAG0.7256LAST_FLUSHOT0.1281TOTALEXP0.6728SERVED_ARMED_FORCES0.0738ADULT_BMI0.6057HIGHEST_DEGREE0.0446YEARS_EDUC0.3540TOTAL_INCOME0.0411CHOLEST_LST_MEDICAID0.1789NUMB_VISITS0.0151决策树变量重要性2、、、、模型训练模型训练模型训练模型训练(1)决策树分析重要变量树状结构(2)逻辑斯蒂回归分析重要变量决策树树状图A2、、、、模型训练模型训练模型训练模型训练(1)决策树分析重要变量树状结构(2)逻辑斯蒂回归分析逻辑斯蒂回归分析逻辑斯蒂回归分析逻辑斯蒂回归分析重要变量EffectNameEffectNameEffectNameEffectNameEffectLabelEffectLabelEffectLabelEffectLabelParameterParameterParameterParameterEstimateEstimateEstimateEstimateEffectTEffectTEffectTEffectT----scoresscoresscoresscoresADULT_BMIADULT_BMI0.046811858.8571002785AGEAGE0.01468363373.2481562207AMOU_9AGLog(AMOUNT_PAID_MEDICAID)0.03358942162.1495647448ASTMA_DIAGNOSIS1ASTMA_DIAGNOSIS12.823189582149.611136897CENSUS_REGION1CENSUS_REGION11.495238394619.021082586CENSUS_REGION2CENSUS_REGION21.602416596922.829773186CENSUS_REGION3CENSUS_REGION31.549834692327.307826199CHOLEST_LST_CHCK1CHOLEST_LST_CHCK10.85225904527.4245643982DENTAL_CHECK_UP1DENTAL_CHECK_UP1-0.316923756-2.546684701逻辑斯蒂回归系数估计与T统计量四四四四、、、、实证研究3、不同年龄群体患病影响因素分析重要影响因素对比1(1)未成年人分析(2)成年人分析ChildrenChildrenChildrenChildrenAdultsAdultsAdultsAdultsNameNameNameNameImportanceImportanceImportanceImportanceNameNameNameNameImportanceImportanceImportanceImportanceTOTALEXP1.0000HIGH_BLOOD_PRESSURE_DIAG1.0000AGE0.9383TOTALEXP0.6597CHILD_BMI0.8125ADULT_BMI0.5810WEAR_SEAT_BELT0.5240AMOUNT_PAID_MEDICARE0.4850ASTHMA_DIAGNOSIS0.0862TOTAL_INCOME0.4058LAST_FLUSHOT0.3524AGE0.2958CHOLEST_LST_CHECK0.2892四四四四、、、、实证研究3、不同年龄群体患病影响因素分析重要影响因素对比1(1)未成年人分析未成年人分析未成年人分析未成年人分析(2)成年人分析6279.5简化的决策树树状图(未成年人数据)四四四四、、、、实证研究3、不同年龄群体患病影响因素分析重要影响因素对比1(1)未成年人分析(2)成年人分析成年人分析成年人分析成年人分析简化的决策树树状图(成年人数据)=10.5四四四四、、、、实证研究4、实证分析小结–随着年龄的变化,糖尿病的产生逐渐增多。患有高血压与糖尿病相关程度高。–身体质量指数可以作为引起糖尿病患病的重要原因。–医疗保健总额与糖尿病的关系并不是简单的因果关系。–个人收入与医疗保健总额比值越低,患有糖尿病的几率越高。受教育年限越低,患病率越高。–糖尿病患病已经不断的低龄化,很大原因是由于身体质量指数偏高造成的。–性别、地区分布等因素并没有成为糖尿病患病的直接原因。五五五五、、、、总结总结总结总结分析结果与医学上形成机理大部分相同(如成年人常见的病状高血压等),在此基础上发现,要加大医保投入费用,尤其是政府提供的医疗保障费用。同时,关注弱势群体、加强全民身体素质锻炼(注意青少年身体素质教育)。锻炼(注意青少年身体素质教育)。根据本文的分析方法,搜集中国关于糖尿病的数据做系统分析,提出切合中国国情的、能够帮助政府不断完善医疗体制改革的建议。
本文标题:数据挖掘技术在疾病预防与医保费用控制的
链接地址:https://www.777doc.com/doc-5325888 .html