您好,欢迎访问三七文档
第六章数据仓库和数据挖掘第一节数据仓库的原理第二节数据仓库体系结构第三节数据仓库的开发第四节联机分析处理OLAP第五节数据挖掘技术第六节数据挖掘的方法和工具2第一节数据仓库的原理一、数据仓库的基本定义1.基本定义数据仓库专家W.H.Inmon的描述:数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、随时间不断变化(TimeVariant)的数据集合,用于支持管理决策。3第一节数据仓库的原理一、数据仓库的基本定义Informix公司的负责人定义数据仓库为:数据仓库将分布在企业网络中不同职能部门的业务数据集成,并存储在一个单一的集成关系型数据库中。利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间的历史数据进行分析,研究事物发展走势。4第一节数据仓库的原理2.数据仓库中的一些基本概念①粒度粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别;②分割就是将数据分散到各自的物理单元中去,使它们能被独立地处理;③维是人们观察数据的特定角度,是数据的视图。5第一节数据仓库的原理二、数据仓库的特点①面向主题的②集成的③相对稳定的④随时间变化的6第一节数据仓库的原理①面向主题的数据仓库中的数据是按一定的主题进行组织的,为按主题进行决策的过程提供信息。②集成的数据仓库中数据是来源于分散的数据库数据,它们进入数据仓库中时必须通过一定的方法来使之在数据仓库中有统一的形式和含义。T或F转换T、F是、否0、1(a)集成7第一节数据仓库的原理③相对稳定的也称为非易失性。数据仓库的数据主要供企业决策分析之用,某个数据一旦进入数据仓库,只要它没有数据仓库的数据存储期限,一般就不会被更新。插入删除访问修改数据库抽取、载入时间维数据仓库(b)非易失性8第一节数据仓库的原理④随时间变化的数据仓库随着时间的变化,不断增加新的数据。⑤支持决策系统数据仓库组织的根本目的在于对决策的支持。9第一节数据仓库的原理三、数据仓库中的层次结构一个典型的企业数据仓库系统3层结构:数据获取层、数据存储与管理层、数据访问层10第一节数据仓库的原理①数据获取层对MIS、网管和其他外部数据源中的数据进行抽取、清洗、转换,并加载到数据仓库。②数据存储与管理层实现对数据仓库中数据和源数据的集中存储与管理,进行抽取、清理和有效集成,按照主题进行组织,并可根据需求建立面向部门和主题的部门级数据仓库,或称为数据集市。采用在线分析处理(OnLineAnalysisProcessing,OLAP)服务器技术对数据进行有效集成和组织,以便进行多角度、多层次的分析,并发现趋势。11第一节数据仓库的原理③数据访问层通过多样化的前端分析展示工具(主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具),实现对数据仓库中数据的分析和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。12第一节数据仓库的原理四、数据仓库与数据库的区别13第二节数据仓库体系结构一、数据仓库的体系结构通常包括4个部分:源数据、管理部分、数据仓库和应用部分。14第二节数据仓库体系结构二、数据仓库体系结构中的重要组件1.数据抽取、转换、装载工具ETL(Extract/Transformation/Load)它是把数据从不同的操作型数据库中拿出来,进行必要的转化、整理,再存放到数据仓库内。15第二节数据仓库体系结构2.元数据元数据在数据仓库中的用途有:①起到辅助决策分析过程中定位数据仓库的目录作用②数据从业务环境向数据仓库环境传送时数据仓库的目录内容③指导从近期基本数据到轻度综合数据和到高度综合数据的综合算法选择16第二节数据仓库体系结构3.数据集市(DataMarts)为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(Subjectdata)4.数据仓库管理工具数据仓库管理工具的主要内容有:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理17第三节数据仓库的开发一、数据仓库的数据模式1.星式模式一个简单的星式模式(StarSchema)是由一个事实表和多个维表组成。复杂的星式模式包含若干个事实表和维表。18第三节数据仓库的开发2.雪花模式雪花模式(SnowFlakeSchema)是对星式模式的扩展,它的每个维表都可以向外面连接多个维。19第三节数据仓库的开发二、数据仓库的设计方法在设计数据仓库时一般采用的方法有自顶向下方法、自底向上方法、自顶向下和自底向上综合的方法。1.自顶向下方法自顶向下方法是从商业需求出发直接构建全局数据仓库,即从原来分散存储的已有的企业OLTP数据库中通过数据提取、净化、转换和聚集等处理建立全局数据仓库。20第三节数据仓库的开发2.自底向上方法自底向上方法是从实验和基于技术的原型入手,选择一个部门或特定商业问题的数据集市开始,全局数据仓库则建立在数据集市的基础上。21第三节数据仓库的开发三、数据仓库的设计过程1.需求分析了解用户建立数据仓库的商业目标、使用数据仓库的操作环境、数据仓库应具有的功能、特征和开发投资;2.概念模型设计确定各个主题域的内容以及它们之间的关系,建立E-R图;3.逻辑模型设计将概念模型转换为逻辑模型,主要工作有分析主题域、确定粒度划分层次、确定数据分割策略、确定关系模式、定义记录系统;4.物理模型的设计确定数据的存储结构、索引策略、数据的存储位置和存储分配;22第三节数据仓库的开发四、数据仓库生命周期数据仓库的整个生命周期:调查需求,分析环境,确定体系结构,数据仓库具体设计,数据仓库的运行和数据管理23第三节数据仓库的开发5个过程可分为两大阶段:①数据仓库生成阶段这一阶段的工作主要是将数据从操作型的数据库系统装载到数据仓库中来,如何正确抽取、综合、转换数据是要考虑的主要问题。②数据仓库的运行和维护阶段24第四节联机分析处理OLAP一、OLAP的基本概念联机分析处理:是一种使分析人员能迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的的软件技术。是一种基于关系数据库并对数据进行分析的交互式决策方法。25第四节联机分析处理OLAPOLAP的功能特征:①具有多维数据库OLAP给出了数据仓库中数据的多维逻辑视图,这种视图通过一种更为直观的分析模型,使得模型设计和分析就像是在层次之间与层次内部的计算一样便利。26第四节联机分析处理OLAP②交互式的快速响应查询OLAP采用了细剖较低层的详细数据或统揽较高层的概括性和聚集数据来进行交互式查询,同时为了提高查询和响应速度,它还采用了数据的矩阵存储技术和一系列的数据压缩技术。③动态数据分析OLAP则是侧重于动态数据的分析,并可以在其内部对数据进行自动转换,使得用户可以在交互过程中获得明确的分析结果切片功能、钻探功能27第四节联机分析处理OLAP④多维检索功能OLAP能检索并显示二维或三维表格、图表和图表中的数据,并能容易地变换为基准轴,从而能综合不同角度分析到的数据,更好地支持决策28第四节联机分析处理OLAP二、OLAP实例29第四节联机分析处理OLAP二、OLAP实例30第四节联机分析处理OLAP三、OLAP和OLTP的区别OLTPOLAP数据源数据库原始数据数据库导出数据或数据仓库数据数据类型细节性数据综合性数据更新次数经常更新不可更新,但要周期性地刷新用户数量数量大相对较少面向对象面向操作人员,支持日常操作面向决策人员,支持管理需要31第五节数据挖掘技术一、数据挖掘的基本概念1.数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊和随机的实际应用数据中提取隐含的、目前未知但潜在有用的模式的非平凡过程;数据挖掘作为知识发现过程的一个特定步骤,它是对大容量数据和数据间关系进行考察和建模的方法集;它的目标是将大容量数据转化为有用的知识信息,这些信息对预测趋势和决策行为是至关重要的。32第五节数据挖掘技术2.数据挖掘的过程数据挖掘的过程一般由3阶段组成:数据准备、数据挖掘、结果的解释评估。数据挖掘可以描述为这3个阶段的反复.33第五节数据挖掘技术3.数据挖掘的分类根据数据挖掘的任务分:预测模型挖掘、总结规则挖掘、关联规则挖掘、聚类规则挖掘、趋势分析、偏差分析等;根据数据挖掘的对象分:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产(legacy)数据库,以及Web数据源;根据数据挖掘的方法分:决策树法、人工神经网络方法、统计分析方法、遗传方法和数据库方法。34第五节数据挖掘技术二、数据挖掘的功能自动预测趋势和行为关联分析聚类概念描述偏差检测35第五节数据挖掘技术三、数据挖掘与OLAP数据挖掘和OLAP是两种不同基于数据仓库的应用工具,它们的用途不同,基于的技术也大相径庭;OLAP是验证式的工具,OLAP分析过程是一个演绎推理的过程;数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模型的正确性,而是在数据库中自己寻找模型;数据挖掘过程是一个归纳的过程。36第六节数据挖掘的方法和工具一、数据挖掘的方法数据挖掘的方法大致可分为4类:机器学习方法:归纳学习方法、基于范例的推理CBR、遗传算法、贝叶斯信念网络等统计方法:回归分析、判别分析、探索性分析、以及模糊集、粗糙集、支持向量机等方法神经网络方法:前向神经网络、自组织神经网络数据库方法:基于可视化的维数据分析或OLAP方法37第六节数据挖掘的方法和工具二、数据挖掘的系统1.EnterpriseMiner(SAS公司)2.IntelligentMiner(IBM公司)3.SetMiner(SGI公司)4.Clementine(SPSS公司)5.WarehouseStudio(Sybase公司)6.See5(RuleQuestResearch公司)等。38第六节数据挖掘的方法和工具三、数据挖掘的应用零售/市场识别顾客的购买模式发现顾客人口统计特征方面的关联预测对邮寄促销活动的反映市场购物分析银行发现伪信用卡使用模式识别诚信顾客预测可能更换信用卡的顾客确定不同顾客群使用信用卡消费的情况保险需求分析预测购买新险种的顾客
本文标题:数据仓库和数据挖掘
链接地址:https://www.777doc.com/doc-3475827 .html