您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > DSS第5章:基于数据仓库的决策支持系统(3)
1第5章基于数据仓库的决策支持系统(3)第(3)部分5.4数据挖掘5.5数据挖掘的决策支持5.5.1数据挖掘的决策支持分类5.5.2决策树与决策规则树的挖掘及其应用5.4数据挖掘5.4.1知识发现与数据挖掘概念5.4.2数据挖掘方法和技术5.4.3数据挖掘的知识表示5.4.1知识发现与数据挖掘概念知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。KDD过程定义:从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。“模式”可以看成是“知识”的雏形,经过验证、完善后形成知识。数据源数据数据集成目标数据预处理后数据转换数据模式知识数据选择预处理数据挖掘数据转换结果表达和解释数据准备数据挖掘结果表达和解释KDD过程5.4.2数据挖掘方法和技术(一)归纳学习方法(二)仿生物技术(三)公式发现(四)统计分析方法(五)模糊数学方法(六)可视化技术5.4.3数据挖掘的知识表示主要有:规则、决策树、知识基、网络权值、公式。1、规则规则知识由前提条件和结论两部分组成前提条件由字段项(属性)的取值的合取(与)和析取(或)组合而成。结论为决策字段项(属性)的取值或者类别组成。2、决策树例如:上例的人群数据库,按ID3方法得到的决策树如下:红3、知识基(浓缩数据)例如上例的人群数据库,通过计算可以得出身高是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:5.5数据挖掘的决策支持5.5.1数据挖掘的决策支持分类5.5.2决策树与决策规则树的挖掘及其应用5.5.3关联规则的挖掘及其应用5.5.1数据挖掘的决策支持分类数据挖掘的分类:关联分析、时序模式、聚类、分类、偏差检测、预测。1、关联分析若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。2、时序模式通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。3、聚类:在数据库中找出一系列有意义的子集,即类。4、分类:对数据库中的类,找出该类别的概念描述规则。5、偏差检测:在数据库中找出异常数据。6、预测:利用历史数据找出变化规律的模型,并用此模型预测未来。5.5.2决策树的挖掘及其应用(一)1、决策树概念:决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。某天早晨气候描述为:天气:多云气温:冷湿度:正常风:无风在一实体世界中,每个实体用多个特征来描述。每个特征限于在一个离散集中取互斥的值。例如,设实体是某天早晨,分类任务是关于气候的类型,特征为:天气取值为:晴,多云,雨气温取值为:冷,适中,热湿度取值为:高,正常风取值为:有风,无风它属于哪类气候(能否打高尔夫球)呢?每个实体属于不同的类别,为简单起见,假定仅有两个类别,分别为P,N。在这种两个类别的归纳任务中,P类和N类的实体分别称为概念的正例和反例。将一些已知的正例和反例放在一起便得到训练集。下表给出一个训练集。由ID3算法得出一棵正确分类训练集中每个实体的决策树,见图。NO.属性类别天气气温湿度风1晴热高无风N2晴热高有风N3多云热高无风P4雨适中高无风P5雨冷正常无风P6雨冷正常有风N7多云冷正常有风P8晴适中高无风N9晴冷正常无风P10雨适中正常无风P11晴适中正常有风P12多云适中高有风P13多云热正常无风P14雨适中高有风N天气湿度风晴雨多云高正常有风无风PNNPPID3决策树用图来判本节开始处的具体例子,得该实体的类别为P类。ID3方法就是要从表的训练集构造出这样的决策树。实际上,能正确分类训练集的决策树不止一棵。Quinlan的ID3算法能得出结点最少的决策树。
本文标题:DSS第5章:基于数据仓库的决策支持系统(3)
链接地址:https://www.777doc.com/doc-5081720 .html