您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > (第二版)第01章数据仓库与数据挖掘概述
数据仓库与数据挖掘技术数据仓库与数据挖掘技术((第二版第二版))主编:夏火松普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述第二章数据仓库的分析第三章数据仓库的设计与实施第四章信息分析的基本技术第五章数据挖掘过程第六章数据挖掘基本算法第七章非结构化数据挖掘第八章离群数据挖掘第九章数据挖掘语言与工具的选择第十章知识管理与知识管理系统普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论数据仓库早在20世纪90年代起就开始流行。由于它为最终用户处理所需要的决策信息提供了一种有效方法,因此数据仓库被广泛应用,并且得到很好的发展。1.1.1为什么要建立数据仓库普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论两个主要作用:一是从各信息源提取决策需要的数据,加工处理后,存储到数据仓库中;二是提供用户的查询和决策分析的基础。数据仓库的作用需求:(1)从大量的数据中得出结论并以大量的数据为依据来做出决策的人。(2)以定制方法实现有用的信息与知识获取的人,而这类人不必(或者不能够)为了这个目的而进行数据的寻找与组织操作。(3)希望以简单的信息技术就能访问数据库的人。(4)科学的决策对企业是非常有价值的,而基于数据仓库能为企业做出更好科学决策的人。普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论建立数据仓库的好处可以产生如下的好处:有形的好处是改善产品库存控制;降低产品推广费;更加高效的制定决策;能提供一个关于整个企业的整体构架。无形的好处是通过把所有的数据放在一个地方,方便存取,提高生产效率;减少重复数据处理和分析;DW提高用户对数据的应用程度;为商务流程再造提供支持。普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论1.1.2什么是数据仓库定义1W.H.Inmon在《BuildingtheDataWarehouse》中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。定义2“DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。”定义3“DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。”定义4数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论1.1.2什么是数据仓库定义5数据仓库是大量有关公司数据的数据存储。定义6数据仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driverofbusinessreengineering)。定义7综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论与数据仓库相关的几个概念查询响应汇总数据原子数据操作数据图1.1数据层次普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述数据收集和数据库创建((20世纪60年代或更早)数据库管理系统(20世纪70年代)层次和网状数据库系统关系数据OLTP原始处理数据建模工具:ER模型索引和数据组织技术:B+树,散列查询语言:SQL等用户界面:表单、报告等查询处理和查询优化事务处理:恢复和并发控制等联机事务处理高级数据库管理系统(20世纪80年代中期~现在)数据仓库与数据挖掘(20世纪80年代后期~现在)基于Web的数据库系统(20世纪90年代~现在)新一代综合信息系统(2000年~现在)高级数据模型:扩充关系、面向对象、对象关系、演绎面向应用:空间的、时间的、多媒体的、主动的、科学的知识库基于XML的数据库系统Web挖掘数据挖掘和知识发现数据仓库技术和OLAP图1.2数据库系统及相关技术的演化数据库系统及相关技术的演化普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论1.1.3数据仓库的特点特点1特点2特点3特点4主题与面向主题数据的集成性数据的不可更新性DW数据的时态性普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤1.数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程提取变换净化加载汇总提取是从操作型数据库中选择并提取出所需要的字段变换是为所有来自数据源的数据指定常用的格式和名称净化是尽量地更正错误的数据加载是把净化过的数据载入到数据仓库数据里汇总是提前计算出任何期待的数据仓库数据的汇总供以后使用普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤2.建立数据仓库的步骤1)收集和分析业务需求;2)建立数据模型和数据仓库的物理设计;3)定义数据源;4)选择数据仓库技术和平台;5)从操作型数据库中提取、转换和净化数据到数据仓库;6)选择访问和报表工具;7)选择数据库连接软件;8)选择数据分析和数据展示软件;9)更新数据仓库;普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.1数据仓库引论1.1.4分析数据仓库的内容表1.1操作型数据和分析型数据的区别操作型数据分析型数据细节的综合的,或提炼的在存取期间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期(CLDS)对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一人集合事务驱动分析驱动面向应用面向分析一次操作数据最小一次操作数据量大支持日常操作支持管理需求普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论1.2.1为什么要进行数据挖掘1.数据挖掘的作用数据挖掘对许多领域都起到重要的的作用。数据挖掘的应用领域非常广泛,比如金融(风险预测)、零售(顾客行为分析)、体育、电信、气象、电子商务等。数据挖掘可以适用于各种行业,并且为解决诸如欺诈甄别(frauddetection)、保留客户(customerretention)、消除摩擦(attrition)、数据库营销(databasemarketing)、市场细分(marketsegmentation)、风险分析(riskanalysis)、亲和力分析(affinityanalysis)、客户满意度(customersatisfaction)、破产预测(bankruptcyprediction)、职务分析(portfolioanalysis)等业务问题提供了有效的方法。普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论1.数据挖掘的作用数据挖掘项目有五种方式:1)购买记分模型(purchasingscores)2)购买数据挖掘软件3)购买固定模型系统4)购买创建模型的开发工具5)数据挖掘咨询普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论2.数据挖掘的背景(3)数据挖掘的社会背景(2)数据挖掘的技术背景(1)数据挖掘的商业背景普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论3.数据挖掘对企业的影响表1.2数据挖掘对企业的影响业务问题增加对直接信函(directmail)的响应率解决方案销售人员通过数据挖掘建立的预测模型以了解哪些人最有可能对直接信函作出响应获得的收益由于将直接信函发送给正确的客户而增加了销售额业务问题减少保险欺诈案件的发生数量解决方案业务人员通过数据挖掘建立预测模型识别出哪些赔偿要求最可能具有欺诈性获得的收益由于减少欺诈造成的费用而增加了利润业务问题改进预测市场波动的能力,在金融市场建模中得到广泛应用。如何采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型。解决方案金融分析员通过数据挖掘建立预测模型以识别出历史上曾引起过市场被动的因素所具有的模式获得的收益由于投资更加准确而增加了收入金融业保险业零售业普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论1.2.2什么是数据挖掘1.数据挖掘概念数据挖掘(datamining,DM)在1989年8月美国底特律市召开的第十一界国际联合人工智能学术会议上正式形成。从1995年开始,每年举行一次知识发现(knowledgediscoveryindatabase,KDD)国际学术会议,把对DM和KDD的研究推入高潮。DM还有被译为数据采掘、数据开采、和数据发掘等,但DM还未有一致的定义。对DM有如下定义:定义1G.PiatetskyShapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。定义2有人简单认为,数据挖掘就是数据库中知识的发现。定义3有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论1.2.2什么是数据挖掘1.数据挖掘概念定义5Fayyad等在“知识发现96国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。定义6数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。定义7综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论2.数据挖掘的分类表1.3数据挖掘的分类分类标准类别按数据挖掘方法的直接性直接数据挖掘、间接数据挖掘按数据分析的角度分类描述式数据挖掘、预测式数据挖掘按挖掘的数据库分类关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库按挖掘的规则类关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则按采用的技术分类模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术按挖掘知识的抽象层次分类原始层次、高层次和多层次按挖掘知识的反映事物之间的性质分类同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识、普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论3.与数据挖掘相关的几个概念1)直接数据挖掘2)间接数据挖掘3)描述式数据挖掘4)预测式数据挖掘5)数据库查询工具和数据挖掘工具之间的差异6)信息7)知识(knowledge)8)数据、信息与知识的转化关系普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论3.与数据挖掘相关的几个概念8)数据、信息与知识的转化关系识别、检测、表达转变、处理获取、创造数据知识信息对象图1.3数据、信息与知识的关系普通高等教育“十一五”国家级规划教材第一章数据仓库与数据挖掘概述1.2数据挖掘引论1.2.3数据挖掘的特点数据挖掘有如下
本文标题:(第二版)第01章数据仓库与数据挖掘概述
链接地址:https://www.777doc.com/doc-5940571 .html