您好,欢迎访问三七文档
第1章绪论《数据挖掘与知识发现》(第2版)内容简介本章综合讨论数据挖掘的一般知识,介绍如下几个方面的内容:数据挖掘的基本概念KDD与数据挖掘数据挖掘的对象与环境数据挖掘方法与相关领域数据挖掘系统与应用为何进行数据挖掘数据存储量急剧上升NASA轨道卫星上的EOS每小时向地面发回50GB的图像数据美国零售商系统Wal-Mart每天产生2亿交易数据人类基因组项目已经搜集数以GB计的基因编码数据存储技术的发展大容量、高速度、低价格的存储设备相继问世数据仓库技术VLDB技术面临的问题信息量过大,超过了人们掌握、消化的能力一些信息真伪难辨,难以正确运用信息组织形式的不一致性,增加信息处理难度新的认识隐藏在数据之后更深层次、更重要的信息能够描述数据的整体特征,可以预测发展趋势,在决策中具有重要价值。数据挖掘技术发展里程面对海量数据库和大量繁杂信息,如何从中提取有价值的知识,提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现KDD(KnowledgeDiscoveryinDatabase)以及相应的数据挖掘(DataMining)理论和技术的研究。1989年第十一届AAAI学术会议上首次出现KDD一词其后,在VLDB(VeryLargeDatabase)及其他与数据库领域相关的国际学术会议上也举行了KDD专题研讨会。1995年召开第一届KDD国际学术会议(KDD’95)之后,每年召开一次这样的会议。1997年《KnowledgeDiscoveryandDataMining》该领域的第一本学术刊物,由KluwersPublishers出版发行。1999年召开第三届亚太地区知识发现和数据挖掘国际会议这次北京会议将国内数据挖掘的研究推向新的高潮。随后,KDD的研究工作蓬勃展开KDD的定义公认的定义是1996年Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。Thenontrivialprocessofidentifyingvalid,novel,usefulandultimatelyunderstandablepatternsindata.KDD中的术语数据:指一个有关事实F的集合,用以描述事物的基本信息。模式:语言L中的表达式E,E描述的数据是集合F的一个子集。表明集合FE中的数据具有特性E。作为一个模式,E比枚举数据子集FE简单。非平凡过程:指具有一定程度的智能性和自动性,不仅仅是简单地数值统计和计算。有效性(可信性):从数据中发现的模式必须有一定的可信度,函数C将表达式映射到度量空间MC,c表示模式E的可信度,c=C(E,F)。其中EL,E所描述的数据集合FEF。新颖性:用一个函数来表示模式的新颖程度N(E,F),函数值是逻辑值或是对模式E的新颖程度的一个判断数值。新颖性从两个方面衡量:当前得到的数据与以前的数据或期望得到的数据之间比较对比发现的模式与已有模式的关系来判断潜在作用:指提取出的模式将来会实际运用,通过函数U把L中的表达式映射到测量空间MU,u表示模式E的有作用程度,u=U(E,F)。可理解性:发现的模式应该能够被用户理解,这主要体现在简洁性上。用s表示模式E的简单度(可理解度),s=S(E,F)。KDD的过程知识目标数据已预处理数据变换后数据模式数据筛选预处理变换数据挖掘解释/评价KDD过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。KDD过程数据准备了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。数据选取根据用户的需要从原始数据库中选取相关数据或样本。数据预处理检查数据的完整性及一致性,消除噪声,滤除与数据挖掘无关的冗余数据,填充丢失的数据。数据变换通过投影或利用数据库的其他操作减少数据量。确定目标根据用户的要求,确定KDD要发现的知识类型。选择算法选择合适的知识发现算法,包括选取合适的模型和参数。数据挖掘运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。模式解释对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,剔除冗余或无关的模式。知识评价将发现的知识以用户能理解的方式呈现给用户。这期间包含对知识一致性的检查,以确信发现的知识不会与以前发现的知识相抵触。数据挖掘技术发展历程高级数据库管理系统(80年代中期到现在)高级数据模型:关系扩展,面向对象,面向关系,演绎数据模型等面向应用的数据库系统空间,时态,多媒体,主动,科学,知识库等数据收集和数据库创建(六十年代或更早)原始的文件系统数据库管系统(70年代~80年代早期)层次、网络数据库系统关系数据库系统数据建模工具:实体-关系模型等索引、数据组织技术:B+树,哈希等查询语言:SQL等用户接口:forms和reports查询处理和查询优化事务管理:并发控制、数据恢复等在线事务处理(OLTP)基于Web的数据库管理系统(90年代到现在)基于XML的数据库系统Web挖掘数据仓库与数据挖掘(80年代后期到现在)数据仓库和OLAP技术数据挖掘与知识发现新一代信息系统集成(21世纪)数据与系统的特征KDD和数据挖掘可以应用在很多领域,KDD系统及其面临的数据具有一些公共特征和问题:海量数据集。数据利用非常不足。在开发KDD系统时,领域专家对该领域的熟悉程度至关重要。最终用户专门知识缺乏。数据结构与类型事务数据库由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务标识(trans_ID),多个项目组成一个事务。事务数据库可以用额外附加的关联表记录其他信息。面向对象数据库基于面向对象程序设计的范例,每一个实体作为一个对象。与对象相关的程序和数据封装在一个单元中。对象通过消息与其他对象或数据库系统进行通信。对象机制提供一种模式获取消息并做出反应的手段。数据结构与类型1234170高度(cm)160185高度(cm)小学中学大学研究生教育(a)连续的定量特性(b)基于编码的顺序特性服装(c)树型结构社会服务政府雇员个体职业(d)无定性特征外衣夹克滑雪衫衬衫布鞋旅游鞋鞋类数据结构与类型数据库系统分类关系数据库由表组成,每个表有一个唯一的表名。属性(列或域)集合组成表结构,表中数据按行存放,每一行称为一个记录。记录间通过键值加以区别。关系表中的各个属性域描述了表间的联系。是目前最流行、最常见的数据库之一,为数据挖掘研究工作提供了丰富的数据源。数据库系统分类数据仓库把来自不同数据源的信息以同一模式保存在同一个物理地点。数据仓库是面向问题的、集成的、随时间变化的、相对稳定的数据集,为管理决策提供支持。根据多维数据库结构建模,每一维代表一个属性集,每个单元存放一个属性值,并提供多维数据视图,允许通过预计算快速地对数据进行总结。数据库系统分类事务数据库由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务标识(trans_ID),多个项目组成一个事务。事务数据库可以用额外附加的关联表记录其他信息。数据库系统分类面向对象数据库基于面向对象程序设计的范例,每一个实体作为一个对象。与对象相关的程序和数据封装在一个单元中。对象通过消息与其他对象或数据库系统进行通信。对象机制提供一种模式获取消息并做出反应的手段。数据库系统分类关系对象数据库构成基于关系对象模型。为操作复杂的对象,该模型通过提供丰富数据类型的方法进一步扩展了关系模型。空间数据库包含空间关系信息。比如,地理(地图)数据库、VLSI芯片设计数据库、医学图像数据库和卫星图像数据库等。数据库系统分类时态数据库通常存储与时间属性相关的数据,这些属性可以是具有不同语义的时间戳。时间序列数据库时间序列数据库存储随时间顺序变化的数据,比如股市中的变化数据等。数据库系统分类文本数据库文本数据库是包含用文字描述的对象的数据库。文本数据库可以是无结构的,也可以是半结构的。多媒体数据库在多媒体数据库中存储图像、音频、视频等数据。多媒体数据库管理系统提供在多媒体数据库中对多媒体数据进行存储、操纵和检索的功能,特别强调多种数据类型间的同步和实时处理。知识的分类预测(prediction)预测一个(将来的)事物的性质。描述(description)用一些变量体现事物的主体特征,使之容易理解。解释(explanation)用深层的知识(概念)形成一个事物的描述。优化(optimization)寻求一个复杂问题的最佳解决方案。探索(exploration)用于支持进一步发现知识的过程。数据挖掘相关领域知识发现与数据挖掘数据库统计学基于规则的系统可视化技术高性能计算模糊集知识表示机器学习粗糙集模式识别人工神经网络知识发现领域充分体现了各种方法论的相互交叉、渗透和协作。数据挖掘方法统计方法回归分析:多元回归、自回归等。判别分析:贝叶斯判别、费歇尔判别、非参数判别。聚类分析:系统聚类、动态聚类。探索性分析:主成分分析、相关分析。机器学习方法归纳学习方法:决策树、规则归纳。基于范例学习遗传算法数据挖掘方法神经网络方法前向神经网络:BP算法等。自组织神经网络:自组织特征映射、竞争学习等。数据库方法多维数据分析OLAP技术此外还有面向属性的归纳方法等。KDD系统与应用Berry等人研制的数据挖掘系统成功地应用到商业领域数据库中的知识发现,商家通过发现顾客的购物习惯来决定营销策略。SKICAT是由MIT喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的工具。Health-KEFIR是用于健康状况预警的知识发现系统。KDD系统与应用TASA是为预测通信网络故障而开发的通信网络预警分析系统。R-MINI运用分类技术从噪声中提取有价值的信息。KDW是大型商业数据库中的交互分析系统。DBMiner是加拿大SimonFraser大学开发的多任务KDD系统。Clementine是SPSS的数据挖掘应用工具。Darwin包含三个数据挖掘方法:神经网络、决策树和K邻近。KDD系统与应用DMW是一个用在信用卡欺诈分析方面的数据挖掘工具,支持反向传播神经网络算法,并能以自动和人工的模式操作。DecisionSeries为描述和预测分析提供了集成算法集和知识挖掘环境。IntelligentMiner是IBM开发的包括人工智能、机器学习、语言分析和知识发现领域成果在内的复杂软件解决方案。KnowledgeSEEKER是一个基于决策树的数据挖掘工具。
本文标题:数据挖掘绪论.
链接地址:https://www.777doc.com/doc-2333597 .html