您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 数据挖掘 期末考试知识点复习
2020年6月29日星期一医学数据仓库与数据挖掘1数据挖掘数据挖掘知识点(考点)复习期考知识点第6章的知识点1.哪些学科和数据挖掘有密切联系?(P68数据挖掘关系图)2.数据挖掘的定义(P69)第7章的知识点1.数据挖掘步骤(P74)2.数据选择的内容(包括哪两部分)(P75)3.数据清理的方法(P75)了解小规模数据、大数据集的清理方法。4.常见的模式有哪些(P78)尤其是分类、回归、聚类模式之间的分析比较。2期考知识点5.模式的精确度(P79)训练和测试模式需将数据分成哪两部分以及各自用途?模式准确性的测试方法及其比较。6.数据预处理的任务有哪些?(P83-89)7.空缺值的处理方法(P83-84)8.分箱技术(P84-86)分箱之前要做的工作?P84(1)要求能描述出常见的分箱方法和数据平滑方法(简答)。(2)要求会用等深分箱法和等宽分箱法对数据进行分箱,并对分箱后的数据按指定的平滑技术来平滑。(详见PPT)3期考知识点9.数据规范化方法(最小-最大规范化)P88第8章的知识点关联规则部分1.理解什么是关联规则?P90给定案例,能判断该案例是否属于关联规则挖掘问题。2.关联规则的分类(P92-93)3.掌握项集或规则的支持度和置信度的计算方法(P91)详见ppt4期考知识点4.项集频率、频繁项集的定义,项集频率与项集支持度之间的关系(简答)。(P92)5.掌握Apriori算法(P93-98)(综合计算题)5.1掌握Apriori算法的基本思想和执行步骤。5.2理解Apriori性质5.3能将算法应用到数据进行计算给定支持度,能判断哪些项集需要剪枝?掌握从频繁项集生成候选项集的计算过程。会计算项集的支持度。能将整个算法流程对指定数据集完成关联规则的挖掘过程。6.能根据排好序的事务集构造FP树(P100)5期考知识点7.能比较FP树算法和Apriori算法的异同点分类与预测部分1.训练集与验证集的定义,以及二者的用途。P104-1052.类标号属性与训练属性的定义,以及二者区别。P1053.学过的决策树分类算法有哪些?P108决策树包括哪些结点?P106-1074.决策树递归划分终止的条件有哪些?(3点)P1096期考知识点5.对于决策树递归过程需要注意哪两种情况?P1096.什么是过适应问题?如何解决过适应问题?(简答)P1107.决策树分类规则的生成方法?(简答)P111-112或见PPT8.决策树构造过程中当前结点的训练属性是如何选择的?P1099.k-最临近算法的基本思想?P119k-最临近算法的两个基本步骤?P119k-最临近算法中参数k的大小对分类结果的影响?P1207期考知识点聚类分析部分1.什么是聚类?聚类与分类的比较或异同点?(简答)P1302.聚类分析常用的两种数据结构?P130-1313.数据矩阵与相异度矩阵的比较,以及二者每行每列表示的意义?P130-1314.相异度矩阵中各个元素d(i,j)的大小(趋于0或者值很大)表示的意义?P1315.数据的属性类型有哪些?(5种)P131-1356.属于定量的数据属性类型?P1318期考知识点7.非对称二元变量的相异度计算公式及其应用?(综合计算题)P133-1348.在聚类算法研究和应用过程中,对其能力有哪几种典型要求?P136-1379.聚类分析算法有哪几类?每类的大体思想是什么?P137-143(4类)10.基于划分思想的聚类算法有哪些?P137-13811.层次聚类算法分类哪两种?基于层次法的聚类算法有哪些?P13912.基于密度方法的聚类算法有哪些?P14213.基于网格方法的聚类算法有哪些?P1439期考知识点14.k-平均算法的输入、输出及聚类过程(流程)?(简答)P13815.k-平均算法与k-中心点算法的比较或异同点?P137-13816.DBSCAN算法中涉及的一些概念:对象的r-领域、核心对象、直接密度可达、密度可达、密度相连。P142-143(要求理解)第9章的知识点(以选择题形式来考)1.什么是结构化医学数据和非结构化医学数据?P14710期考知识点2.中医学结构化数据一般以什么形式存在?P1473.举例非结构化数据?P1474.中医药领域的数据挖掘有哪些?P150-1515.文本数据挖掘的主要关键技术?P1566.文本预处理的目的?P1567.什么是文本分类?P1588.什么是文本聚类?P1599.什么是硬聚类?什么是软聚类?P15910.医学文本数据挖掘的应用研究有哪些?(2点)P161-16311
本文标题:数据挖掘 期末考试知识点复习
链接地址:https://www.777doc.com/doc-6207563 .html