您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库实例(dw3)
数据仓库(三)数据仓库设计大致有如下几个步骤:2.6数据仓库的设计明确主题概念设计技术准备逻辑设计物理设计数据仓库生成数据仓库的运行与维护针对每一个选定的当前实施的主题概念模型设计逻辑模型设计物理模型设计数据仓库生成数据仓库运行与维护2.6数据仓库的设计2.6数据仓库的设计确定系统边界要做的决策类型有哪些?决策者感兴趣的是什么问题?这些问题需要什么样的信息?要得到这些信息需要包含哪些数据源?概念模型设计确定系统边界确定主要的主题及其内容OLAP设计2.6数据仓库的设计确定主要的主题即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括:确定主题及其属性信息描述每个属性的取值情况–固定不变的–半固定的–经常变化的确定主题的公共码键主题间的关系:主题间联系及其属性在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如:2.6数据仓库的设计主题名公共码键属性信息商品商品号固有信息:商品号,商品名,类别,颜色等采购信息:商品号,供应商号,供应价,供应日期,供应量等销售信息:商品号,顾客号,售价,销售日期,销售量等库存信息:商品号,库房号,库存量,日期等供应商供应商号固有信息:供应商号,供应商名,地址,电话,供应商类型等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等顾客顾客号固有信息:顾客号,姓名,性别,年龄,文化程度,住址,电话等购物信息:顾客号,商品号,售价,购买日期,购买量等2.6数据仓库的设计供应商固有信息供应商供应商品信息日期供应商号顾客固有信息顾客号顾客日期顾客购物信息商品采购信息商品销售信息商品商品号日期商品固有信息商品库存信息商品、顾客和供应商之间的E-R图2.6数据仓库的设计逻辑模型设计将E-R图转换成关系数据库的二维表定义数据源和数据抽取规则在逻辑模型的设计过程中,需要考虑以下一些问题:适当的粒度划分合理的数据分割策略定义合适的数据来源等2.6数据仓库的设计逻辑模型设计–粒度划分在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低数据综合度越高,粒度越大,级别就越高。一般将数据划分为:详细数据、轻度总结、高度总结三种粒度,或者采用更多级的粒度划分方法。例如:根据时间跨度进行的统计有:天,周,月,季度,年对于不适合进行统计的属性值,可以采样获取数据粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。2.6数据仓库的设计商品固有信息:商品表(商品号,商品名,类型,颜色,…)/*细节数据*/商品采购信息:采购表1(商品号,供应商号,供应日期,供应价,…)/*细节数据*/采购表2(商品号,时间段1,采购总量,…)/*综合数据*/……采购表n(商品号,时间段n,采购总量,…)商品销售信息:销售表1(商品号,顾客号,销售日期,售价,销售量,…)/*细节数据*/销售表2(商品号,时间段1,销售总量,…)/*综合数据*/……销售表n(商品号,时间段n,销售总量,…)商品库存信息:库存表1(商品号,库房号,库存量,日期,…)/*细节数据*/库存表2(商品号,库房号,库存量,星期,…)/*样本数据*/……库存表n(商品号,库房号,库存量,年份,…)其它导出数据:……2.6数据仓库的设计逻辑模型设计–数据分割数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的数据单元进行存储(关系),以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。选择数据分割的因素有:数据量的大小数据分析处理的对象(主题)简单易行的数据分割标准数据粒度的划分策略通常采用‘时间’属性作为数据分割的依据数据分割技术类似于数据库中的数据分片技术,其目的是为了提高数据仓库的性能。2.6数据仓库的设计逻辑模型设计–定义数据来源及其抽取规则定义数据仓库中数据的来源,以及数据的抽取规则,例如:主题名属性名数据源系统源表名源属性名商品商品号库存子系统商品商品号商品商品名库存子系统商品商品名商品类别采购子系统商品类别…………………………2.6数据仓库的设计物理模型设计在逻辑模型设计基础上确定数据的存储结构、确定索引策略、确定存储分配及数据存放位置等与物理有关的内容,物理模型设计的具体方法与数据库设计中的大致相似。其目的是为了提高数据仓库系统的访问性能。常用的一些技术有:合并表建立数据序列引入冗余表的物理分割生成导出数据建立广义索引2.6数据仓库的设计在常见的一些分析处理操作中,可能需要执行多表连接操作。为了节省I/O开销,可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。这样的技术我们称为合并表。合并表技术与传统关系数据库中的集簇(Clustering)技术类似。物理模型设计–合并表2.6数据仓库的设计按照数据的处理顺序调整数据的物理存放位置,以减少减少系统的磁盘I/O的开销。物理模型设计–建立数据序列17584623page1page2page3page42.6数据仓库的设计物理模型设计–建立数据序列12345678page1page2page3page4调整后的存储组织2.6数据仓库的设计在面向某个主题的分析过程中,通常需要访问不同表中的多个属性,而每个属性又可能参与多个不同主题的分析过程。因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去,从而减少一次分析过程需要访问的表的数量。采用该种数据组织方法回带来大量的数据冗余存储,数据仓库系统必须保证这些冗余数据的一致性。由于数据仓库中的数据是稳定的,很少执行更新操作,不会因此带来过高的数据更新的代价,却可以有效地提高数据仓库系统的性能。物理模型设计–引入冗余2.6数据仓库的设计类似于在逻辑设计阶段的数据分割。可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割。对于访问频率较高的属性,可以单独考虑其物理存储组织,以便选择合适的索引策略和特定的物理组织方式。对于需要频繁更新的属性,也可以单独组织其物理存储,以免因数据更新而带来的空间重组、重构等工作。物理模型设计–表的物理分割2.6数据仓库的设计在原始的细节数据的基础上进行一些统计和计算,生成导出数据,并保存在数据仓库中。采用该方法既可以避免在分析过程中执行过多的统计或计算操作,减少输入/出的次数,又避免了不同用户进行的重复统计操作可能产生的偏差。物理模型设计–生成导出数据2.6数据仓库的设计用于记录数据仓库中数据于‘最’有关的统计结果的索引被称为‘广义索引’。如:当月销售额最高的商店?当月销售情况最差的商品?……这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引。用户可以从已经建立的广义索引里直接获取这些统计信息,而不必对整个数据仓库进行扫描。物理模型设计–建立广义索引2.6数据仓库的设计数据仓库生成建立数据模式根据逻辑设计与物理设计的设计结果建立数据仓库的数据模式。编制数据抽取程序根据数据仓库元数据中的定义信息,编制抽取程序,将数据源中的数据作加工以形成数据仓库中的数据。数据加载将数据源中的数据,通过数据抽取程序加载到数据仓库的模式中去。2.6数据仓库的设计在数据仓库建立后,就可以建立分析、决策型的应用系统。在应用系统的使用过程中不断加深理解,改进主题,依照原型法的思想使系统更趋完善。在系统的运行过程中,随着数据源中数据的不断变化,需要通过数据刷新操作来维护数据仓库中数据的一致性。数据仓库的使用与维护2.7联机分析处理(OLAP)联机事务处理:OLTPOn-LineTransactionProcessing联机分析处理:OLAPOn-LineAnalyticalProcessing2.7联机分析处理(OLAP)OLAP中的几个基本概念:对象(Object)在分析型处理中我们所关心和分析的对象。例如:商品的销售金额维(Dimension)观察分析对象的角度。例如:可以从三个‘维’角度观察‘销售金额’这个对象:–时间维:可按时间角度分析、统计其销售金额。–商品维:可按不同商品分类角度分析、统计。–地域维:可按连锁点不同地域角度分析、统计其销售金额。2.7联机分析处理(OLAP)OLAP中的几个基本概念:层(Layer)在分析型应用中,对对象可以从不同深度分析与观察并可得到不同结果,因此,“层”反映了对对象观察的深度。一般而言,层是与维相关联的,一个维中可允许存在若干个层,并且可以又不同的层次划分方法。例如:–时间维:可以有日、周、月、季、年–地域维:可以有市、省、国、洲–商品维:商品的分类2.7联机分析处理(OLAP)OLAP中的几个基本概念:维成员维的一个取值称为该维的一个维成员。如果一个维是多层次的,则该维的维成员是在不同维层次的取值的组合。例如:对时间维来说,‘某年某月某日’、‘某年某月’、‘某月某日’、‘某年’都是其维成员。对一个数据项来说,维成员是该数据项在某维中位置的描述。2.7联机分析处理(OLAP)OLAP中的几个基本概念:多维数组一个多维数组可以表示为(维1,维2,……,维n,变量),这样可以构成三维、四维及多维的数据表示结构。其中,变量表示我们所观察的数据对象,维1、维2、……、维n分别表示我们观察该数据对象的角度。如(时间,商品种类,商店,销售额),从而构成一个有关商品销售额的三维数组。–(‘2000年’,‘家电’,‘南京市’,‘1亿’)–(‘2000年7月’,‘女性服装’,‘江苏省’,‘10亿’)2.7联机分析处理(OLAP)OLAP中的几个基本概念:数据单元(单元格)多维数组的取值称为数据单元。当多维数组的各个维都选中一个维成员,这些维成员的组合就唯一确定了一个观察对象的值,即(维成员1,维成员2,……,维成员n,对象值)。2.7联机分析处理(OLAP)假设:在一个分析型应用中有若干个分析对象(设为r个),以它们为聚焦点作不同角度(设为m个)与深度(设为n个)的分析,那么可以得到多种不同的统计分析结果(共为(r*m*n)个)。为了方便快速地查到这些统计分析结果,OLAP需要解决以下三个问题:OLAP的基本数据模型OLAP数据构造方式数据立方体(DataCube)与数据超立方体(DataSuperCube)2.7联机分析处理(OLAP)OLAP的基本数据模型–星型模式(StarSchema)星形模式是一种多维表结构,它一般有两种不同性质的二维表组成:事实表(facttable):它存放多维表中的主要事实称为量(Measure)维表(DimensionTable):用以建立多维表中之维成员值一般一个n维的多维表往往有n个维表和一个事实表,它们构成了一个星形结构,称为星形模式。在星形模式中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。2.7联机分析处理(OLAP)产品标识符商店标识符日期标识符销售金额产品标识符类别大类别日期标识符日月季年商店标识符市名省名国名洲名销售表产品表商店表日期表星型模式示意图2.7联机分析处理(OLAP)上述的星型模式可以转化成下面的四个关系:事实表:销售表(产品标识符,商店标识符,日期标识符,销售额)维表1:产品表(产品标识符,类别,大类别)维表2:商店表(商店标识符,市名,省名,国名,洲名)维表3:时间表(时间标识符,日期,月份,季度,年份)2.7联机分析处理(OLAP)OLAP的基本数据模型–雪花模式(SnowflakeSchema)如果每个维表也是一个类似星型的模式结构,则称其为雪花模式。例如:上述的‘产品表’也可以是一个星型结构。产品
本文标题:数据仓库实例(dw3)
链接地址:https://www.777doc.com/doc-27691 .html