您好,欢迎访问三七文档
1/七一、数据仓库的基本原理二、数据仓库的数据获取三、数据仓库的数据组织四、数据仓库的数据访问和决策分析第七章数据仓库本章内容1.1数据仓库概念和结构2/七一、数据仓库的基本原理第七章数据仓库数据仓库兴起1.“数据太多,信息不足”的现状2.异构环境的数据源3.事务处理环境不适宜DSS应用(1)事务处理和分析处理的性能特性不同(2)数据集成问题(3)历史数据问题1.1数据仓库概念和结构3/七一、数据仓库的基本原理第七章数据仓库数据仓库概念1.W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。2.Tim.Shelter(Informix公司负责研究与开发公司副总裁):数据仓库将分布在企业网络中不同信息岛上的商业数据集成到一起,存贮在一个单一的集成关系型数据库中。利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间内的历史数据进行分析,研究事物发展走势。有些片面1.1数据仓库概念和结构4/七一、数据仓库的基本原理第七章数据仓库数据仓库概念传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立新型决策支持系统(DSS)的基础。1.1数据仓库概念和结构5/七一、数据仓库的基本原理第七章数据仓库数据仓库的特点1.数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。2.数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。1.1数据仓库概念和结构6/七一、数据仓库的基本原理第七章数据仓库数据仓库的特点3.数据仓库是随时间变化的数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据。4.数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不改变的。1.1数据仓库概念和结构7/七一、数据仓库的基本原理第七章数据仓库数据仓库与操作型数据库系统的比较特性操作型数据(DB数据)分析型数据(DW数据)事务处理数据分析定位DB设计E-R模型,面向应用星型模型,面向主题数据当前的、最新的历史的,具有时间跨度汇总原始的,细节的汇总的,一致的视图详细的,关系的总体的,多维的存取读/写(易变的)读(稳定的)访问记录少量记录记录集合DB规模100MB到GBTB工作单位短的,简单事务复杂查询1.1数据仓库概念和结构8/七一、数据仓库的基本原理第七章数据仓库数据仓库与操作型数据库分离的原因•提高两个系统的性能2.提高操作型数据库的事务吞吐量3.两系统中数据的结构、内容和用法的不同1.1数据仓库概念和结构一、数据仓库的基本原理第七章数据仓库数据仓库的关键技术1.数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。2.存储和管理数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。•数据量很大•并行处理•针对决策支持查询的优化•支持多维分析的查询模式3.数据的表现9/七1.1数据仓库概念和结构10/七一、数据仓库的基本原理第七章数据仓库数据仓库的结构元数据高度综合数据层轻度综合数据层当前基本数据层历史数据层1.1数据仓库概念和结构11/七第七章数据仓库数据仓库的结构一、数据仓库的基本原理从结构的角度看,有三种数据仓库模型:企业仓库、数据集市和虚拟仓库。企业仓库搜集了关于企业主题的所有信息,跨越整个组织,提供企业范围的数据集成,通常数据来自多个业务系统,或外部信息源。数据集市包含企业范围数据的一个子集,对于特定的用户是有用的,其范围限于选定的主题。虚拟仓库是业务数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。缺点是会影响业务数据库系统的能力。1.2数据集市12/七一、数据仓库的基本原理第七章数据仓库DataMarts是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势。13/七一、数据仓库的基本原理第七章数据仓库数据集市与数据仓库关系1.自顶向下的结构1.2数据集市13-2/七一、数据仓库的基本原理第七章数据仓库数据集市与数据仓库关系1.自顶向下的结构1.2数据集市LocalDataMartExternalDataLocalDataMartOperationalDataEnterpriseWarehouse构建企业数据库公共中央数据模型数据再加工减少冗余和不一致性搜集历史的、细节的、全局的数据•基于企业数据仓库构建数据集市选定企业模型下的部门主题聚集数据建立集市数据对企业数据仓库的依赖关系14/七一、数据仓库的基本原理第七章数据仓库2.自底向上的结构1.2数据集市数据集市与数据仓库关系14-2/七第七章数据仓库2.自底向上的结构1.2数据集市数据集市与数据仓库关系LocalDataMartExternalDataOperationalData(Global)&OperationalData(Local)OperationalData(Local)LocalDataMartEnterpriseWarehouse构建建数据集市划定主题区快速实施本地自治易于复制数据再加工允许一定的冗余和不一致•基于数据集市构建企业数据仓库有关问题:Isalldataavailableinthedatamarts?Canthedatamodelsbemerged?Howtoresolveinconsistencies?15/七一、数据仓库的基本原理第七章数据仓库2.自底向上的结构1.2数据集市数据集市与数据仓库关系3.企业级数据集市结构16/七一、数据仓库的基本原理第七章数据仓库1.3数据仓库系统数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。第七章数据仓库数据仓库系统的三层结构17/七18/七一、数据仓库的基本原理第七章数据仓库1.4元数据及其作用元数据的定义元数据:关于数据的数据元数据包括四种元数据1.关于数据源的元数据它是现有的业务系统的数据源的描述信息。这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构;(2)所有数据项的业务定义;(3)每个数据项更新的频率;(4)每个数据项的有效值;(5)其它系统中具有相同业务含义的数据项的清单。19/七一、数据仓库的基本原理第七章数据仓库1.4元数据及其作用元数据的定义2.关于数据模型的元数据3.关于数据仓库映射的元数据用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。元数据包括四种元数据1.关于数据源的元数据4.关于数据仓库使用的元数据19-2/七第七章数据仓库1.4元数据及其作用BusinessInformationAdministrationTransformationToolsBusinessSubjectAreasBusinessViewsMetadataElementsMappingsBusinessViewsTemplatesDataWarehouseOperational&ExternalDataDesign元数据的作用——数据仓库的基石20/七一、数据仓库的基本原理第七章数据仓库1.5粒度粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。数据越详细,粒度越小,级别就越低;数据综合度越高,粒度越大,级别就越高。21/七二、数据仓库的数据获取第七章数据仓库源数据获取过滤验证融合综合装载存档目标数据抽取与转换过程22/七三、数据仓库的数据组织第七章数据仓库3.1多维数据的概念维是相同类数据的集合,也可理解为变量维。利税产值投资3月1月2月实际时间统计项目预算预测度量值:在多维数据集中,度量值是一组值,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据。度量值的选择取决于最终用户所请求的信息类型。一些常见的度量值有sales、cost、expenditures和productioncount等23/七三、数据仓库的数据组织第七章数据仓库数据仓库的数据组织方式共有三种:虚拟存储方式、基于关系表的存储和多维数据库存储方式。虚拟存储方式是虚拟数据仓库的数据组织形式。没有专门的数据仓库数据存储,数据仓库中的数据仍然在源数据库中,只是通过语义层工具(如BusinessObjects软件)根据用户的多维需求,完成多维分析的功能。3.2数据的组织方式24/七三、数据仓库的数据组织第七章数据仓库3.2数据的组织方式由维表-事实表构成的关系型数据仓库数据仓库是以多维表型的“维表—事实表”结构形式组织的,共有三种形式:1.星型模型大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)三、数据仓库的数据组织第七章数据仓库25/七26/七三、数据仓库的数据组织第七章数据仓库3.2数据的组织方式维表-事实表构成的关系型数据仓库2.雪花模型雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,使维表尽可能地规范化。缺点是执行查询需要更多的连接操作,可能会影响查询性能。概念分层:定义一映射序列,将低层概念映射到更一般的高层概念。——允许多种抽象级处理数据。三、数据仓库的数据组织第七章数据仓库27/七28/七三、数据仓库的数据组织第七章数据仓库3.2数据的组织方式维表-事实表构成的关系型数据仓库3.星网模型星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。29/七三、数据仓库的数据组织第七章数据仓库3.2数据的组织方式多维数据库数据组织用于分析的数据从关系数据库或关系数据仓库中抽取出来,被存放到多维数据库的超立方结构中。其数据组织采用多维数据结构文件存储数据,相应有维索引及相应的元数据管理文件与数据相对应。缺点是在数据集稀疏的情况下,存储利用率低下。一些维被称为“稠密维”,这些维构成了数据存储的“多维体”。对于其它的维,称它们为“稀疏维”,可以将这些“稀疏维”存储在类数据库表结构中。最主要的优点是直接把多维视图映射到数据立方体数组结构,而且能够对预计算的汇总数据快速索引。30/七第七章数据仓库3.2数据的组织方式数据立方体1、数据立方体定义及预计算•定义(原语):definecube名称[维1,维2,…,维n]:聚集运算(度量值)SQLSERVER2000提供的MDX(多维表达式的英文首字母缩写词),支持多维对象与数据的定义和操作。1-D时间产品地点0-D2-D3-D•预计算(原语):Computecube名称将会进行至少2n次聚集计算。如果再考虑维的分层,则计算量更大。所以要预先计算并存储所有子立方体,会产生“爆炸”。而且层次之间还可以是偏序关系,形成代数格结构31/七第七章数据仓库3.2数据的组织方式数据立方体2、部分物化:选择计算部分物化应考虑的因素:•确定要物化的立方体子集(查询的频率、计算和存储的开销);•利用查询处理时物化的立方体;•在数据装载和刷新时,有效地更新物化的立方体。它是在联机事务处理OLTP基础上发展起来的,OLTP是以数据库为基础,面对的
本文标题:第七章 数据仓库
链接地址:https://www.777doc.com/doc-6383510 .html