您好,欢迎访问三七文档
数据仓库数据仓库概念、设计及应用概念、设计及应用提纲提纲11..为什么要建立数据仓库为什么要建立数据仓库22..数据仓库的概念及特性数据仓库的概念及特性3.3.数据仓库的结构数据仓库的结构4.4.数据仓库的设计数据仓库的设计5.5.数据仓库的开发过程数据仓库的开发过程6.6.数据仓库的典型应用数据仓库的典型应用事务处理环境不适宜事务处理环境不适宜DSSDSS应用的原因应用的原因事务处理和分析处理的性能特性不同事务处理和分析处理的性能特性不同操作型处理操作型处理对数据的存取操作频率高而每次操作处理的对数据的存取操作频率高而每次操作处理的时间短;时间短;在分析处理环境中,某个在分析处理环境中,某个DSSDSS应用程序可能需要连续几应用程序可能需要连续几个小时,从而消耗大量的系统资源。个小时,从而消耗大量的系统资源。数据集成问题数据集成问题数据动态集成问题数据动态集成问题历史数据问题历史数据问题数据的综合问题数据的综合问题抽取程序抽取程序用抽取程序能将数据从高性能联机事务处理方式中转移出用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生来,在需要总体分析数据时就与联机事务处理性能不发生冲突。冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。的控制方式就发生了转变。蜘蛛网问题蜘蛛网问题数据缺乏可信性数据缺乏可信性数据无时基数据无时基数据算法上的差异数据算法上的差异抽取的多层次抽取的多层次外部数据问题外部数据问题无起始的公共数据源无起始的公共数据源生产率低生产率低根据全部数据生成企业报表根据全部数据生成企业报表定位数据需要浏览大量文件定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。的障碍。数据转化为信息的不可行性数据转化为信息的不可行性数据没有集成化数据没有集成化缺乏将数据转化为信息所需的历史数据缺乏将数据转化为信息所需的历史数据体系结构设计环境的层次体系结构设计环境的层次数据操作层只保存原始数据并且服务于高性能事务处理领域;数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;在;数据的部门层几乎只存放导出数据;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析在数据个体层中完成大多数启发式分析操作层操作层原子原子//数据数据仓库层仓库层部门层部门层个体层个体层数据仓库的概念数据仓库的概念数据仓库是在企业管理和决策中面向主题的、集成的、与数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。时间相关的、不可修改的数据集合。[[WilliamWilliamH.InmonH.Inmon]]与其他数据库应用不同的是,数据仓库更像一种过程,对与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。分布在企业内部各处的业务数据的整合、加工和分析的过程。数据仓库的特性数据仓库的特性面向主题面向主题典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目集成的集成的数据提取、净化、转换、装载数据提取、净化、转换、装载非易失的非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新般意义上的数据更新随时间的变化性随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期数据仓库中的时间期限要远远长于操作型系统中的时间期限(限(5~105~10年);年);数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库的结构数据仓库的结构早期细节级早期细节级当前细节级当前细节级轻度综合级轻度综合级数据集市数据集市高度综合级高度综合级元数据元数据操作型转换操作型转换数据仓库设计中的几个重要概念数据仓库设计中的几个重要概念ETLETLETLETL((ExtractExtract/Transformation/Load/Transformation/Load))——用户从数据源用户从数据源抽取出所需的数据,经过数据清洗、转换抽取出所需的数据,经过数据清洗、转换,,最终按照预先定最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。义好的数据仓库模型,将数据加载到数据仓库中去。元数据元数据关于数据的数据,指在数据仓库建设过程中所产生的有关关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。时元数据还包含关于数据含义的商业信息。粒度粒度数据仓库的数据单位中保存数据的细化或综合程度的级别数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度级就越大。分割分割结构相同的数据被分成多个数据物理单元。任何给定的数结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。据单元属于且仅属于一个分割。典型的元数据包括:典型的元数据包括:数据仓库表的结构数据仓库表的结构数据仓库表的属性数据仓库表的属性数据仓库的源数据(记录系统)数据仓库的源数据(记录系统)从记录系统到数据仓库的映射从记录系统到数据仓库的映射数据模型的规格说明数据模型的规格说明抽取日志抽取日志访问数据的公用例行程序访问数据的公用例行程序数据仓库设计中的几个重要概念数据仓库设计中的几个重要概念((续)续)DataMartDataMart数据集市数据集市----小型的,面向部门或工作组级数据仓库小型的,面向部门或工作组级数据仓库。。OperationDataStoreOperationDataStore操作数据存储操作数据存储——ODSODS是能支持企业日常的全局应用的数是能支持企业日常的全局应用的数据集合据集合,,是不同于是不同于DBDB的一种新的数据环境的一种新的数据环境,,是是DWDW扩展后得扩展后得到的一个混合形式。四个基本特点:面向主题的到的一个混合形式。四个基本特点:面向主题的((SubjectSubject--Oriented)Oriented)、、集成的、可变的、集成的、可变的、当前或接近当前的。当前或接近当前的。datamodeldatamodel数据模型数据模型----((11)逻辑数据结构,包括由)逻辑数据结构,包括由DBMSDBMS为有效进为有效进行数据库处理提供的操作和约束;(行数据库处理提供的操作和约束;(22)用于表示数据的系)用于表示数据的系统(例如,统(例如,ERDERD或关系型模型)。或关系型模型)。artifactartifact人工关系人工关系----在在DSSDSS环境中用于表示参照完整性的一环境中用于表示参照完整性的一种设计技术种设计技术企业数据模型到数据仓库数据模型的转换企业数据模型到数据仓库数据模型的转换除去纯粹用于操作型环境的数据除去纯粹用于操作型环境的数据在企业键码结构中增加时间元素在企业键码结构中增加时间元素增加导出数据增加导出数据创建人工关系创建人工关系数据模型的规范化数据模型的规范化//反规范化反规范化为了减少程序在表中的跳转、节省为了减少程序在表中的跳转、节省I/OI/O,,需将需将多个相关的表合并;多个相关的表合并;引入冗余数据;引入冗余数据;当访问概率有很大悬殊时,要对数据做进一步当访问概率有很大悬殊时,要对数据做进一步分离;分离;在物理数据库的设计中引入导出数据可以减少在物理数据库的设计中引入导出数据可以减少I/OI/O;;建立所谓的建立所谓的““创造的创造的””索引或创造的简要记录(索引或创造的简要记录(如卷中的前十名顾客是如卷中的前十名顾客是————))数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。(元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户从操作型的现存系统到数据仓库中数据从操作型的现存系统到数据仓库中数据转换工作的难点转换工作的难点现有系统缺乏数据集成,跨越不同应用的数据现有系统缺乏数据集成,跨越不同应用的数据集成性很差集成性很差存取现存系统的效率,扫描已有文件成了数据存取现存系统的效率,扫描已有文件成了数据仓库体系结构设计者主要面对的问题仓库体系结构设计者主要面对的问题时基的变化时基的变化数据要浓缩数据要浓缩概念概念::数据周期、简要记录数据周期、简要记录数据周期:数据周期:是指从操作型数据发生改变起,到这个变是指从操作型数据发生改变起,到这个变化反映到数据仓库中所用的时间化反映到数据仓库中所用的时间。。从操作型环境知道数据的改变到这个变化反映到数从操作型环境知道数据的改变到这个变化反映到数据仓库中至少应该经历据仓库中至少应该经历2424小时。小时。简要记录:简要记录:或聚集记录,是把不同操作型数据的详细或聚集记录,是把不同操作型数据的详细信息聚集在一个记录中而形成的记录。信息聚集在一个记录中而形成的记录。好处:①减少数据量;好处:①减少数据量;②为用户的访问和分析提供了一种紧凑的方②为用户的访问和分析提供了一种紧凑的方便的数据组织形式;便的数据组织形式;缺点:信息的详细程度将会降低。缺点:信息的详细程度将会降低。数据仓库的建模数据仓库的建模数据模型数据模型所有的实体都是平等关系。所有的实体都是平等关系。仅仅从数据模型的角度来着手设计数据仓库会产生一种仅仅从数据模型的角度来着手设计数据仓库会产生一种““平面平面””效应。效应。星型连接星型连接事实表:事实表:位于星型连接的中央,它是被大量载入数据的实位于星型连接的中央,它是被大量载入数据的实体。体。维表:周围的其它实体。维表:周围的其它实体。在很多情况下:文本数据与数值数据是分离开的。在很多情况下:文本数据与数值数据是分离开的。通过数据预连接和建立有选择的数据冗余,设计者为访问和通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。分析过程大大简化了数据。星型连接应用于设计数据仓库中很大的实体,而数据模型则星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。应用于数据仓库中较小的实体。VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid数据建模的十条戒律数据建模的十条戒律①必须回答紧迫的问题;①必须回答紧迫的问题;②必须有正确的事实表;②必须有正确的事实表;③将有正确的维表,描述必须按最终用户的业
本文标题:数据仓库概念培训
链接地址:https://www.777doc.com/doc-5834038 .html