您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第二章 数据仓库的概念与体系结构(09)2
系统分析与设计2019/8/1第二章第2章数据仓库的概念与体系结构历史数据的几种处理方式:1)简单删除2)备份后删除3)建立数据仓库系统分析与设计2019/8/1第二章2.1数据仓库的概念、特点与组成•数据仓库的概念–数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)系统分析与设计2019/8/1第二章2.1数据仓库的概念、特点与组成•数据仓库的特点:–面向主题;–集成的;–相对稳定的;–反映历史变化。系统分析与设计2019/8/1第二章2.1数据仓库的概念、特点与组成•数据仓库的组成:–数据仓库数据库(核心部分)(特点:支持海量数据和快速检索);–数据抽取工具(提取、转换、整理),数据转换的内容通常有:1)删除没意义的数据;2)转换到统一的数据名称和定义;3)计算统计和衍生数据;4)填补缺失数据等;–元数据:技术元数据与业务元数据;技术元数据:数据仓库的涉及和管理人员用于开发和管理数据仓库时使用的元数据,包括:数据转换的描述、数据清洗和数据更新时用的规则等等。业务元数据:从单位业务的角度描述数据仓库,如业务主题的描述,即业务主体包含的数据、查询及报表等。系统分析与设计2019/8/1第二章2.1数据仓库的概念、特点与组成•数据仓库的组成:-访问工具:如分析、报表、数据挖掘工具–数据集市(DataMarts):为特定的应用目的,从数据仓库中独立出来的一部分数据,也称部门数据或主题数据。–数据仓库管理:包括安全与权限的管理、数据更新的跟踪、元数据的管理与更新、数据的复制于删除等等。–信息发布系统:将数据发送给不同的地点或用户。系统分析与设计2019/8/1第二章2.2数据挖掘的概念与方法•数据挖掘的概念–数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)系统分析与设计2019/8/1第二章2.2数据挖掘的概念与方法•数据挖掘的方法:–直接数据挖掘–间接数据挖掘。系统分析与设计2019/8/1第二章2.2数据挖掘的概念与方法•数据仓库与数据挖掘的关系–若将数据仓库(DataWarehouse)比作矿井,那么数据挖掘(DataMining)就是深入矿井采矿的工作–数据挖掘是从数据仓库中找出有用信息的一种过程与技术系统分析与设计2019/8/1第二章2.3数据仓库的技术、方法与产品•联机事务处理(OLTP)与联机分析处理(OLAP)的比较;见表1.1•OLAP技术的有关概念:多维数据集、维度、度量值和多维分析(切片、切块、钻取、旋转等);•OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP(混合,低层关系型,高层多维型)•OLAP工具:对特定问题的联机数据访问与分析,一般是前端工具。系统分析与设计2019/8/1第二章2.3数据仓库的技术、方法与产品•数据仓库实施中的三个关键环节–数据抽取;–数据存储与管理:大量数据管理,并行处理,支持查询的优化,支持多维分析的查询模式–数据表现:工具主要集中在多维分析、数据挖掘、统计分析。系统分析与设计2019/8/1第二章2.3数据仓库的技术、方法与产品•数据仓库实施方法论–数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败系统分析与设计2019/8/1第二章2.3数据仓库的技术、方法与产品•常用数据仓库产品比较–常用OLAP工具介绍;–各数据仓库厂商提供的解决方案IBM、Oracle、NCR、Microsoft、SAS等系统分析与设计2019/8/1第二章2.4数据仓库系统的体系结构•数据仓库系统的体系结构的分类(1)两层架构(GenericTwo-LevelArchitecture)。(2)独立型数据集市(IndependentDataMart)。(3)依赖型数据集市和操作型数据存储(DependentDataMartandOperationalDataStore)。(4)逻辑型数据集市和实时数据仓库(LogicalDataMartandReal-TimeDataWarehouse)。系统分析与设计2019/8/1第二章2.4数据仓库系统的体系结构唯一的、企业级的数据仓库数据仓库DataWarehouse外部的内部的源数据系统(SourceDataSystems)数据集结区(DataStagingArea)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)转换(transform)输出到仓库(exporttoDW)抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT两层数据仓库体系结构系统分析与设计2019/8/1第二章2.4数据仓库系统的体系结构多个数据集市导致数据访问复杂性数据集市Datamart外部的内部的源数据系统(SourceDataSystems)数据集结区(DataStagingArea)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdimensions)转换(Transform)输出到数据集市(exporttoDM)抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT数据集市Datamart数据集市Datamart数据集市Datamart加载Load加载Load加载Load基于独立数据集市的数据仓库体系结构系统分析与设计2019/8/1第二章2.4数据仓库系统的体系结构企业级数据仓库外部的内部的源数据系统(SourceDataSystems)数据集结区(ODS:OperationalDataStore)数据存储:关系型的(relational)快速的(fast)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdimensions)转换(Transform)输出到仓库与集市exporttoDW&DMs抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed(ODS提供获得当前数据的选项)查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT数据集市数据集市数据集市数据集市加载填充Feed填充Feed单一的ETL过程对整个企业数据仓库(EDW),依赖型数据集市从EDW加载数据基于依赖型数据集市和操作型数据存储(ODS)的数据仓库体系结构系统分析与设计2019/8/1第二章2.4数据仓库系统的体系结构外部的内部的源数据系统(SourceDataSystems)数据存储:关系型的(relational)快速的(fast)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdimensions)转换(Transform)装载到仓库LoadintoDW抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据数据集结区(ODS)与数据及元数据存储区注:ODS与数据仓库是一个进而是相同的数据展示:查询工具报表生成器终端用户应用(如CRM、SRM等)建模与挖掘工具可视化工具面向运营决策的新业务规则终端用户表示工具(End-UserPresentationTools)ELT加载填充Feed接近实时的ETL过程是面向数据仓库的,数据集市不是分离的数据库,仅是数据仓库的逻辑视图数据集市数据集市数据集市数据集市实时数据仓库转换层接近实时地回流逻辑型数据集市和实时数据仓库的体系结构系统分析与设计2019/8/1第二章2.5数据仓库的产生、发展与未来•数据仓库的产生–联机事务处理系统(业务系统)刚上线时,查询不到数据是因为数据太少了,而几十年后查询不到有关数据是因为数据太多了。针对这一问题,人们设想专门为业务数据的统计分析建立一个数据中心,它的数据从联机事务处理系统中来、从异构的外部数据源来、或从脱机的历史业务数据中来,这个数据中心也是一个联机系统,它专门为分析统计和决策支持应用服务,通过它可获取决策支持和联机分析应用所需要的一切数据。这个数据中心就叫做数据仓库。简单地说,数据仓库就是一个作为决策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的问题就是从数据库中获取信息的问题。系统分析与设计2019/8/1第二章2.5数据仓库的产生、发展与未来•数据仓库的发展–以报表为主–以分析为主–以预测模型为主–以营运导向为主–以实时数据仓库、自动决策应用为主系统分析与设计2019/8/1第二章2.5数据仓库的产生、发展与未来•数据仓库的未来–在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。–在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。–在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备
本文标题:第二章 数据仓库的概念与体系结构(09)2
链接地址:https://www.777doc.com/doc-28081 .html