您好,欢迎访问三七文档
§1引言§2数据挖掘的定义§3数据挖掘的内容和本质§4数据挖掘的功能§5数据挖掘的流程§6关联规则挖掘方法第五章数据挖掘§1引言1.背景2.网络之后的下一个技术热点3.数据爆炸但知识贫乏4.支持数据挖掘技术的基础5.从商业数据到商业信息的进化6.KDD的出现7.数据挖掘的分类8.数据挖掘工具CH51.背景人类已进入一个崭新的信息时代;数据库中存储的数据量急剧膨胀;需从海量数据库和大量繁杂信息中提取有价值的知识,以提高信息的利用率;产生了一个新的研究方向:数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase),以及相应的数据挖掘(DM,DataMining)理论和技术的研究;CH5随着大数据库的建立和海量数据的不断涌现,出现了“数据十分丰富,而信息相当贫乏”的现象,所以,迫切需求强有力的数据分析工具;快速增长的海量数据存在大型数据库中,没有强有力的工具,理解它们已远远超出人的能力。故,有人称之为:“数据坟墓”;由于ES过分依赖用户或专家人工地将知识输入KB中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。CH52.网络之后的下一个技术热点大量信息在给人们带来方便的同时也带来了一大堆问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理等。面对这一挑战,数据挖掘和知识发现技术(DMKD)应运而生,并显示出强大的生命力。CH53.数据爆炸但知识贫乏随着数据库技术的迅速发展以及数据库管理系统的广泛应用,应用中积累的数据越来越多。目前的数据库系统可高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,导致出现了“数据爆炸但知识贫乏”的现象。CH54.支持数据挖掘技术的基础DM使DB技术进入了一个更高的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在DM技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟:海量数据搜集强大的多处理器计算机数据挖掘算法CH55.从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBM,SGI其他初创公司提供预测性的信息其中,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。CH56.KDD的出现数据库中的知识发现(KDD)一词,首次出现在1989年举行的第十一届AAAI学术会议上。1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD’95)。由KluwersPublishers出版,1997年创刊的《KnowledgeDiscoveryandDataMining》是该领域中的第一本学术刊物。CH5KDD泛指所有从源数据中发掘模式或联系的方法,用来描述整个DM的过程,包括最开始的制定业务目标到最终的结果分析;DM用来描述使用挖掘算法进行数据挖掘的子过程;最近人们逐渐开始把统计方法用于DM中的许多工作,并认为最好的策略是将统计方法与DM有机的结合起来;数据仓库技术的发展与DM有着密切的关系,是促进DM越来越热的原因之一。但数据仓库并不是DM的先决条件,因为有很多DM可直接从数据源中挖掘信息。CH57.数据挖掘的分类数据挖掘是多学科的产物,如下图所示:数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化CH5一般,数据挖掘可以分为以下三类:传统分析类相应的数据挖掘模型主要包括:线性分析和非线性分析回归分析逻辑回归分析变量分析多变量分析时间序列分析最邻近算法聚类分析等利用这些模型,可以检查并解释那些异常数据,给出隐含在这些数据内的市场规律和商业机会。CH5知识发现类知识发现类有别于传统分析类——它可以从数据仓库的大量数据中筛选信息,寻找并发掘人们所不知道的事实和规律。主要包括:人工神经网络决策树遗传算法粗糙集关联规则等CH5新近出现的挖掘技术主要包括:文本数据挖掘——针对非结构化信息;Web数据挖掘——针对大批量网络信息;可视化系统——分为数据可视化、挖掘过程可视化、结果可视化和交互式数据可视化;空间数据挖掘——基于GIS的数据挖掘;分布式数据挖掘——基于分布式DB的数据挖掘。CH58.数据挖掘工具一般,数据挖掘工具可以从使用方式、挖掘技术和应用范围进行分类。基于使用方式的分类——包括三种决策方案生成工具——针对某个特定行业或特定问题而开发的一类挖掘工具,如,金融业的欺诈检查工具,零售业的客户流失分析工具等。CH5商业分析工具包含“黑箱”式的和“非黑箱式的”两类。前者,用户把分析对象及环境因素提供给工具,工具将自动给出结果(不展示内部的复杂模型);后者则把数据挖掘模型展示给用户,用户可以选择挖掘模型以及适当地控制模型(如决策树)。前者适用于管理人员;后者适用于管理顾问或商业分析人员。CH5研究分析工具该种工具为用户提供了更大的数据挖掘应用的空间,包含了数据挖掘领域的最新研究成果,如文本挖掘、WEB挖掘及可视化工具等。基于挖掘技术的分类——包括四种:基于神经网络的工具;基于规则和决策树的工具;基于模糊逻辑的工具;综合性数据挖掘工具。CH5基于应用范围的分类专用型数据挖掘工具——针对某一特定领域。通用型数据挖掘工具——不考虑挖掘对象的实际意义,只提供各种挖掘算法,用户可自定义数据源进行多模式挖掘。如IBM的IM,SPSS的SPSS以及RedBrick的RedBrick等。CH5§2数据挖掘的定义1.技术上的定义及含义2.商业角度的定义3.数据挖掘与传统分析方法的区别4.数据挖掘和数据仓库5.数据挖掘和在线分析处理(OLAP)6.数据挖掘、机器学习和统计分析CH51.技术上的定义及含义——DM就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括以下几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。CH5若干说明:知识——概念、规则、模式、规律和约束等。数据——是形成知识的源泉。原始数据可以是结构化的,如RDB中的数据;也可是半结构化的,如文本、图形数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。CH52.商业角度的定义——数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析以及其他模型化处理,从中提取辅助商业决策的关键性数据。因此,从企业的角度讲,数据挖掘可描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。CH53.数据挖掘与传统分析方法的区别DM与传统数据分析(如查询、报表、联机应用分析)的本质区别是:DM是在没有明确假设的前提下去挖掘信息、发现知识;DM所得到的信息应具有预先未知、有效和可实用三个特征。CH54.数据挖掘和数据仓库大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中(见下图)。数据源数据仓库各分公司数据集市分析数据集市数据挖掘数据集市CH5从数据仓库中直接得到进行数据挖掘的数据有许多好处:数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次,而且所有的数据不一致的问题都已经解决。数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但,如果数据仓库的计算资源已经很紧张,那最好还是建立一个单独的数据挖掘库。CH5当然,为了数据挖掘也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在它上面进行数据挖掘。CH55.数据挖掘和在线分析处理(OLAP)传统的查询和报表工具是告诉你数据库中都有什么;OLAP则告诉你下一步会怎么样,或者如果采取这样的措施又会怎么样——用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确;DM不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型——其本质上是一个归纳的过程;CH5DM和OLAP具有一定的互补性——在利用DM得出的结论采取行动之前,也许要验证如果采取这样的行动,会给公司带来什么样的影响,那么OLAP工具能回答这些问题;在知识发现的早期阶段,OLAP工具还有其他用途——可以帮助探索数据,找到哪些是对一个问题比较重要的变量、发现异常数据和互相影响的变量。这都能帮你更好的理解数据,加快知识发现的过程。CH56.数据挖掘、机器学习和统计分析人工智能(AI)和统计分析都致力于模式发现和预测;DM不是替代传统的统计分析技术,而是统计分析方法学的延伸和扩展;大多统计分析技术都基于完善的数学理论,预测的准确度令人满意,但对使用者的要求很高;CH5一些AI技术,如,神经元网络和决策树,在足够多的数据和计算能力下,几乎能自动完成许多有价值的知识发现功能;DM就是利用了统计和人工智能技术的应用程序,它把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。CH5§3数据挖掘的内容和本质随着DMKD研究逐步走向深入,其研究工作已经形成了三根强大的技术支柱:DB、AI和数理统计。DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。DM所发现的知识最常见的有以下五类:CH51.广义知识(Generalization)广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。CH5数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算,如最大值、计数、求和、平均等,并将这些实现视图储存在多维数据库中。归约方法以类SQL语言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。CH52.关联知识(Association)关联知识反映了一个事件和其他事件之间依赖或关联的关系,以关联规则表示。关联规则的发现分为两步:一是迭代识别所有的频繁项目集,要求频繁项目集的支持度不低于用户设定的最低值;二是从频繁项目集中构造可信度不低于用户设定的最低值
本文标题:第五章数据挖掘.
链接地址:https://www.777doc.com/doc-2084299 .html