您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第十七课--数据仓库和数据集市
Copyright©2007创智新程数据仓库和数据集市Copyright©2007-2009创智新程Copyright©2007创智新程数据仓库和数据集市目标什么是数据仓库数据仓库系统体系结构操作数据库与数据仓库的区别维度建模的相关概念维度建模的基本步骤数据集市Copyright©2007创智新程数据仓库的定义数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volation)、反映历史变化(TimeVariant)的集合数据,用于支持管理决策和信息的全局共享。--W.H.InmonCopyright©2007创智新程面向主题的数据仓库是面向不同的主题域进行组织。一个主题通常与多个操作型信息系统相关。Copyright©2007创智新程集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。Copyright©2007创智新程相对稳定的数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。Copyright©2007创智新程反映历史变化的数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。Copyright©2007创智新程数据仓库系统体系结构数据查询工具数据挖掘工具各类应用系统抽取、清理、装载、刷新服务自由报表工具前端工具和应用系统数据分析工具……OLAP服务器数据集市OLAP服务器数据仓库管理系统元数据管理数据仓库监测、运行与维护工具外部数据现有业务系统文档资料数据源数据存储及管理OLAP引擎前端工具和应用Copyright©2007创智新程数据仓库系统体系结构数据源数据存储及管理OLAP引擎前端工具Copyright©2007创智新程操作数据库与数据仓库的区别操作数据库系统的主要任务是联机事务处理OLTP。数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP。Copyright©2007创智新程维度建模的相关概念数据仓库数据集市事实维度数据挖掘Copyright©2007创智新程维度建模的相关概念分析空间数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。切片一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。星型模型一种使用关系数据库实现多维分析空间的模型。雪花模型不管什么原因,当星型模型的维度需要进行规范化时,星型模型就演化为雪花模型。Copyright©2007创智新程多维数据模型一种非规范化的关系模型。由一组属性构成的表所组成。表跟表之间的关系通过关键字和外键来定义。以良好的可理解性和方便的产生报表来进行数据组织,很少考虑修改的性能。通过SQL或者相关的工具实现数据的查询和维护。Copyright©2007创智新程多维数据模型数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据立方体形式。数据立方体允许以多维对数据建模和观察。一个具有x、y、z维度的方块Copyright©2007创智新程多维数据模型的组成维事实数据立方体Copyright©2007创智新程多维数据模型举例关系表与多维CubeCopyright©2007创智新程多维建模技术星型和雪花模式是主要的存在形式。星型模式包含一个大的包含大批数据的事实表和一系列维表。雪花模式是星型模式的变种,不同的是将某些维表规范化。Copyright©2007创智新程定单号...日期标识..定单号定货日期日期标识日月事实表定货表日期表星型模式Copyright©2007创智新程维表进一步层次化,改善查询性能,增加表数量,增加查询复杂性。定单号...日期标识..定单号定货日期日期标识日月事实表定货表日期表月年年雪花模式Copyright©2007创智新程事实表每一个事实表通常包含了处理所关心的一系列的度量值。每一个事实表的行包括:具有可加性的数值型的度量值。文本事实通常具有不可预见的内容,很难进行分析。与维表相连接的外键。通常具有两个和两个以外的外键。外键之间表示维表之间多对多的关系。Copyright©2007创智新程事实表事实表的特征非常大包含几百几千条甚至几万、几十万的记录。内容相对的窄列数较少经常发生变化现实世界中新事件的发生-〉事实表中增加一条记录。典型情况下,仅仅是数据的追加。事实表的使用各类度量值的聚类计算Copyright©2007创智新程维表每一张维表对应现实世界中的一个对象或者概念。例如:客户、产品、日期、地区、商场维表的特征包含了众多描述性的列维表的范围很宽(具有多个属性)通常情况下,跟事实表相比,行数相对较少通常10万条内容相对固定几乎就是一类查找表Copyright©2007创智新程任务一:设计Northwind数据库的星型模型解题步骤定义OLAP的数据集市:包括使用星型模型或雪花模型。事实的选择:通过事实表的共有特性及四种常见样式来选择适当的事实种类。四种常见的事实样式为:事务事实、快照事实、线性项目事实、事件/状态事实。维的创建。聚合体的设计。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计分析OLAP数据来源:Northwind数据库共有8个表,分别是Orders、OrderDetails、Customers、Products、Categories、Employees、Shippers及Suppliers。Time_Dim时间维Northwind销售系统的日期以Orders的出货日为事实的时间,因此产生一个Time_Dim。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计分析事实表的主轴:Orders和OrderDetails两个表的连接。OrderDetails中包括了数值字段:UnitPrice、Quantity及Discount。可以推算出事实所需要的度量值:运费、销售金额、销售数量和折扣。四个维表Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim的确定。Orders及OrderDetails两个表中的外部键有CustomerID、ProductID、EmployeeID及ShipperID。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计分析Product_Dim具有一个分层结构:产品类别,并且采用的是合并维分层结构。Northwind数据库Categories的CategoriesID与Products的CategoriesID是一对多的关系,因此可以通过连接将Categories的CategoriesName合并到Product_Dim中。Northwind数据库Suppliers的SupplierID与Products的SupplierID是一对多的关系,因此可以通过连接将Suppliers的CompanyName合并到Product_Dim的供应商中。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计实施建立Sales_Fact事实表主键是由时间序号、客户序号、发货人序号、产品序号及员工序号共同组成一个多值键,并且这几个字段的值都是来自维表的外部键。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计实施建立Time_Dim维表。时间序号,是一个由标识(Identity)生成的代理键。出货日,即Orders的ShippedDate。几乎所有的数据仓库中均包含时间维。数据仓库是反映历史变化的允许针对历史的数据进行分析典型的粒度:eachrow=1dayCopyright©2007创智新程任务一:设计Northwind数据库的星型模型设计实施建立Customer_Dim维表客户序号,是一个由标识生成的代理键。其他字段都是由Customers这个表来产生。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计实施建立Product_Dim维表。产品序号,是一个由标识生成的代理键。Product_Dim有一个分层结构:产品类别,并且采用的是合并维分层结构。所以产品类别这个字段从Categories的ProductID与Products的ProductID连接而来。其他字段都是由Products这个表来产生。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计实施建立Employee_Dim维表。员工序号,是一个由标识生成的代理键。员工姓名:由DTS的ActiveXScript将Northwind数据库中的Employees这个表的lastname与firstname合并而成。年龄及年薪由Employees这个表的BirthDate、HireDate产生。年龄层及年薪层是基于分析便利而产生的统计组,当数据由OLTP转换到OLAP时,由DTS的ActiveXScript来负责做建立分组的动作。其他字段都是由Employees这个表来产生。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型设计实施建立ShipperDim这个维表发货人序号,是一个由标识生成的代理键。其他字段都是由Shippers这个表来产生。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型将五个维表Time_Dim、Customer_Dim、Product_Dim、Employee_Dim及Shipper_Dim与事实表Sales_Fact作关联。Copyright©2007创智新程任务一:设计Northwind数据库的星型模型建立星型模型Copyright©2007创智新程数据集市为什么提出数据集市?数据集市中数据的结构数据仓库与数据集市的区别数据集市和数据仓库建模实战分析Copyright©2007创智新程小结在本课中,你学到了:什么是数据仓库数据仓库系统体系结构操作数据库与数据仓库的区别维度建模的相关概念维度建模的基本步骤数据集市
本文标题:第十七课--数据仓库和数据集市
链接地址:https://www.777doc.com/doc-28116 .html