您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 评估有指导学习模型(心脏病数据集)
`题目数据挖掘评估技术学院名称信息科学与技术学院专业名称计算机科学与技术学生姓名何东升学生学号201413030119指导教师实习地点成都理工大学实习成绩二〇一六年9月评估有指导学习模型第1章、实验目的及内容1.1实习目的模型的评估是对数据挖掘而过程非常重要的步骤,是模型是否能够最终投入实际应用的重要环节。在抽取某些数据实例和属性,选择某种数据挖掘技术,设置某些参数进行有指导的学习训练和无指导的聚类分析之后,所建立在性能上差强人意,不能满足解决问题的需求,此时,需要对这个过程所有可能对模型性能产生的因素进行检查和评估,找出可能的问题所在加以调整,重复试验,直到模型性能能达到预期的标准。1.2算法的核心思想使用混淆矩阵和分类正确率以及假设检验比较模型。在机器学习领域,混淆矩阵(confusionmatrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matchingmatrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。假设检验(HypothesisTesting)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。1.3实验工具实验软件:Weka3.9数据集来源:配套数据集cardiologynumerical.csv第2章、实验过程2.1数据准备cardiologynumerical.csv数据集说明属性名称数值类型说明AgeNumeric年龄Sex1,0性别ChestPainType1,2,3,4胸痛类型(绞痛,异常绞痛,无绞痛,无症状)BloodPressureNumeric静息血压CholesterolNumeric血清胆固醇FastingBloodSuager0,1空腹血糖低于120?RestingECG0,1,2静息心电图(正常,异常,左心室肥大)MaxiumHertRateNumeric最大心率InducedAngina?1,0诱发心绞痛?OldPeakNumeric峰值Slope1,2,3斜度NumberColoredVessels0,1,2,3,4有色导管编号Thal3,6,7地中海缺血ConceptClassYes,No概念类2.2实验过程2.2.1.建模1.将数据集导入Weka中2.打开Classfy选项选择不同的算法在TestOption选项中选择PrecentageSplit,值为50%(150个为训练集剩下的为验证)(1)J48算法算法的混淆矩阵如下患病不患病患病5617不患病1365===Summary===CorrectlyClassifiedInstances12180.1325%IncorrectlyClassifiedInstances3019.8675%Kappastatistic0.6015Meanabsoluteerror0.2326Rootmeansquarederror0.4367Relativeabsoluteerror46.746%Rootrelativesquarederror86.8754%TotalNumberofInstances151可以看出结果的分类确率到了80.1325%,已经还不错了。(2)ZeroR算法算法的混淆矩阵如下患病不患病患病073不患病078===Summary===CorrectlyClassifiedInstances7851.6556%IncorrectlyClassifiedInstances7348.3444%Kappastatistic0Meanabsoluteerror0.4976Rootmeansquarederror0.5027Relativeabsoluteerror100%Rootrelativesquarederror100%TotalNumberofInstances151可以看出正确率才51.6556%,仅一半的正确率,非常不尽人意。而这个与J48(3)LMT算法算法的混淆矩阵如下患病不患病患病5716不患病969CorrectlyClassifiedInstances12683.4437%IncorrectlyClassifiedInstances2516.5563%Kappastatistic0.6675Meanabsoluteerror0.2263Rootmeansquarederror0.3403Relativeabsoluteerror45.4768%Rootrelativesquarederror67.6917%TotalNumberofInstances151该算法的正确率也到达了83.4437%第三章实验结果及分析3.1结果分析三种模型的混淆矩阵如下J48:算法的混淆矩阵如下患病不患病患病5617不患病1365CorrectlyClassifiedInstances12180.1325%IncorrectlyClassifiedInstances3019.8675%ZeroR算法患病不患病患病073不患病078CorrectlyClassifiedInstances7851.6556%IncorrectlyClassifiedInstances7348.3444%LMT算法患病不患病患病5716不患病969CorrectlyClassifiedInstances12683.4437%IncorrectlyClassifiedInstances2516.5563%以上三种模型中J48和LMT的算法正确率达到了80%以上,比较可信,而ZeroR算法只有50%左右非常不尽人意。利用假设检验检验这三种模型算法的假设检验Z=|𝐸1−𝐸2|√𝑞(1−𝑞)(1/𝑛1+1/𝑛2)1按照上述公式计算J48与ZeroRq=(0.198675+0.483444)/2=0.3410485q(1-q)=0.224719带入公式可得Z=|0.198675−0.483444|√0.224719×(1151+1151)=-5.22设置信区间为0.05Z1.96故存在显著性差异2计算J48与LMTq=(0.198675+0.165563)/2=0.182119q(1-q)=0.149017带入公式可得Z=|0.198675−0.165563|√0.149017×(1151+1151)=0.745设置信区间为0.05Z=0.7451.96故不存在显著性差异第四章心得体会从这次的实验学会了如何使用Weka建立数据集的分类模型,以及如何建立混淆矩阵,去评估这些模型。如何用假设检验去评估两种模型之间的分类正确率。通过实验学会了许多分析方法和技巧,我相信不断的训练和学习,我能从中收获很多,这对以后的学习和工作有巨大的帮助!
本文标题:评估有指导学习模型(心脏病数据集)
链接地址:https://www.777doc.com/doc-5719589 .html