您好,欢迎访问三七文档
1第三章数据仓库设计DW设计是一个操作型系统设计方法演变而来的范例。DW设计者不仅要设计一个数据库(DW用DB实现)和一个用户接口(数据展现部分)。而且还必须设计数据与OLTP系统的接口,数据装载策略,数据存取工具,用户培训方案和不间断的维护方案。即必须考虑许多在操作型系统设计中不必考虑的问题。本章的意图就是帮助你完善的理解如何建立和实现DW和在一个完整的DW设计必须考虑的问题。本章的主要内容:1.数据仓库的生命周期2.数据仓库的方法论3.数据仓库的规划4.数据仓库的技术体系结构5.数据仓库的数据模型设计6.数据仓库的粒度设计7.数据仓库的开发8.数据仓库解决方案3.1数据仓库的生命周期。按照生命周期发法可将数据仓库开发的全部过程分成三个阶段:1.数据仓库规划分析阶段2.数据仓库设计实施阶段3.数据仓库的应用阶段这三个阶段不是简单的循环往复,而是不断完善提高的过程。一般情况下数据仓库系统都不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会给系统增加新的功能,这种循环的工作永远不会终结,数据仓库也就一直处于一个不断完善、不断提高的循环玩傅过程中。一.数据仓库开发的生命周期规划分析阶段使用维护阶段设计实施阶段图3-1数据仓库开发的生命周期规划与确定需求开发概念模型数据仓库评价数据仓库维护数据藏库应用数据装载预测试开发中间件确定数据抽取源数据库于远数据设计设计体系结构开发逻辑模型数据仓库开发过程2DW的开发与应用的阶段是对DW开发应用的生命周期描述。按照生命周期法可将DW开发应用的全过程分成:DW规划分析、DW设计实施和DW应用三个阶段,完成这三个阶段并不意味着DW开发的终止,而是DW开发向更高阶段发展的一个转变。一方面通过这三个阶段的DW开发积累了DW开发应用经验,可对原DW提出改进的建议,使原DW通过改进得到提高,另一方面,用户新的需求也会丰富原DW的设计,这就是螺旋式周期性开发方法。1.DW规划分析阶段调查、分析DW环境,完成DW的开发规划,却定DW开发需求,建立包括实体图、星型模型、雪花模型、元数据模型及数据源分析的主题域数据模型,并且根据主题域数据模型开发DW逻辑模型。2.DW设计实施阶段根据DW的逻辑模型设计DW体系结构;设计DW域物理数据库,用武力数据库元数据装载面向最终用户的元数据库;为DW中每个目标字段确定他在业务系统或外部数据源中的数据来源;开发或购买用于抽取、清洗、转换和聚合数据等中间件程序;将数据从数据源加载到DW,并且进行测试。3.DW使用维护阶段DW投入使用,且在使用中改进、维护DW;对DW进行评价,为下一个循环开发提供依据。二.DW开发的特点DW的使用就是在DW中建立决策支持系统应用,这与业务处理系统应用环境有本质的区别,这也导致DW开发与传统的OLTP系统开发载开发出发点、需求确定、开发过程中有相当大的不同。1.数据仓库的开发是从数据出发的创建DW是在原有的数据库系统中的数据基础上进行的,即从存在于操作性环境的数据出发,进行DW的创建工作,我们称之为“数据驱动”。数据驱动设计方法的中心是利用数据模型有效的识别原有的数据库中的数据和DW中主题的数据“共同性”。2.DW使用的需求不能再开发初期完全明确面向应用的数据库系统设计往往有一组教确定的应用需求,这是数据库系统设计的出发点和基础。而在数据仓库环境中,并不存在操做型环境中的固定的且较确切的物流、数据流、和信息流,数据分析处理的需求更加灵活,更没有固定的模式,甚至用户自己也对所要进行的分析处理不能事先全部确定。因而在DW开发初期不能明确了解DW用户的全部使用需求。3.数据仓库的开发是一个不断循环的过程,是启发式的开发DW的开发是一个动态反馈和循环的过程,一方面DW的数据内容、结构、力度、分割以及其他物理设计应该根据用户所返回的信息不断的调整和完善,以提高系统的效率和性能;另一方面,通过不断理解用户的分析需求,不断的调整和完善,以求向用户提供更准确、更有效的决策信息。3.2数据仓库开发的方法论建立一个DW一般需做以下五个方面的工作:1、任务和环境的评估。2、需求的收集和分析。3、构造DW。34、DW技术的培训。5、回顾、总结和再发展。一、任务和环境的评估1、目标:因为数据仓库是建立在原有的运行系统之上的,因此要结合单位的现状来明确数据仓库的目标任务。了解数据源所在系统和其中数据的状况、数据类型、工作平台、数据量、数据质量、DW的环境、网络技术状况。2、目的:⑴看DW的任务是否可行。⑵所建立的DW是否是用户所期望的。⑶有没有不逾越的障碍。⑷确定DW系统成功与否的基本原则。3、组织:高层负责人参加并组织项目组。人员:项目总负责人与DW相关的业务部门负责人计算机软/硬件负责人DBA网络人员4、项目组的任务:初步确定主题主题的层次结构二、需求的收集和分析。1、任务:⑴了解决策者现在的工作目标。⑵现在获得决策支持信息的方法、渠道。⑶和竞争对手的差距。⑷决策者希望DW提供什么。⑸制定系统的逻辑模型。⑹分析数据源的物理存储状况、运行平台、数据质量、硬件、软件和网络的限制条件。2、分析文档。⑴项目概述。⑵差距分析。⑶系统基本架构图示。⑷逻辑模型。⑸物理模型。⑹DW的初始装载和更新策略。⑺DW的运行计划。⑻决策信息展现的希望和需求。⑼DW建成的时限。三、构造DW构造数据仓库包括数据仓库的管理、数据仓库的组织和决策支持信息的展现三部分。设计和编写数据抽取程序/工具。设计和编写数据转换程序/工具。1、DW的管理设计和编写数据更新程序/工具。设计和编写运行的接口程序。建立这一阶段的所有管理的数据(元数据)4程序统一标准命名、建档。初始装载建立索引2、DW的组织建立数据视图DW及工作平台的安全检查装入数据和应用功能建立此阶段的元数据。3、决策支持信息的展现利用多维数据展现、数据挖掘等一些工具可预先制作好许多常规的信息市场项目供支持决策使用,也可以直接操作主题数据以得出新的决策支持信息。四、数据仓库技术的培训。培训内容:1、DW中的数据内容(包括逻辑模型、物理模型)、数据质量。2、元数据的内容、位置,如何使用。3、用户界面和功能介绍。4、数据更新计划。5、DW的安全规则。6、从OLTP到DW的数据流。7、全部的数据转换工作。8、数据装载和更新的策略。五、回顾、总结和再发展。1、哪些地方可以做得更好。2、业务部门对开发的支持是否到位。3、双方如何合作得更好。4、什么是业务部门立竿见影的效益。5、主题选择是否得当。6、阶段成果是什么?反映如何?7、DW采用是否提高了公司的竞争力。8、投资回报率是否达到预计的水平。六、SAS数据仓库方法论见图3-2主要数据模型和DW主题的选择设计DW结构、数据建摸、过程建摸物理的DW组装、应用程序编码,测试、验收、把DW展示给业务用户,培训图3-2SAS数据仓库方法论评估需求调查设计构建部署总结5总结:1、总结早期项目实施成功和失败的经验和公布以后努力的结果。2、应用配置是否如愿实现,如有必要须调整计划。3、评估项目对单位的影响和得益。3.3数据仓库的技术体系结构DWS的技术体系结构如图3-2所示图3-3DataBaseAssociation公司定义的DW技术体系结构一、设计模块功能:是由DW的设计者和管理者来设计和定义的DW的。在设计DW时必须考虑到的其他因素还包括DB和瞬时数据的处理。某些DW数据库还包括星型模型的非规范化DB设计。二、数据获取模块功能:用于开发和运行数据获取应用程序,从源系统中获取数据并加到DW中。内容:1、数据抽取规则——界定数据源。外部数据数据获取模块数据管理员模块DW的数据信息目录模块DW的元数据数据传递模块中间件模块数据访问模块设计模块管理模块数据源外部元数据62、数据情况——记录和字段的重组,增补丢失的字段值,数据的整性和一致性检查。3、数据增强——字段值的解码和转换,增加时间属性(若没有),数据的概括或者衍生值的计算。4、数据传输。5、生成的定义作为元数据存入信息目录模块。三、数据管理员模块。功能:是DW用来生成、管理和访问仓库中数据(很可能还有元数据)的模块。一般使用RDBMS或MDBMS(多维DBMS)。四、管理模块。功能:完成维护DW环境的系统管理服务。内容:1、管理数据获取操作。2、仓库数据归档。3、仓库数据备份。4、仓库数据恢复。5、访问DW的安全及授权等。五、信息目录模块功能:帮助技术用户和业务用户访问DWS,通过一套维护和观察仓库元数据的工具实现这一功能。主要元素:1、源数据管理员:维护、输入/出仓库元数据。2、技术元数据。3、信息助理:为最终用户提供访问元数据的简单方法,有些产品能帮助用户产生、编写、运行查询、报表、分析并预定仓库中找不到数据和信息。六、数据访问模块功能:提供访问工具,使用户访问和分析仓库中的数据。访问工具:1、查询、报表自动生成和数据分析工具。2、能访问RDBMS的多维分析工具。3、能访问MDBMS的多维分析工具。4、运行4GL或可视化程序设计语言的DSS应用程序开发工具。七、中间件模块功能:将DW数据与最终用户工具连接起来,专门中间件:①智能数据仓库中间件——位用户提供从业务角度、数据仓库的视角;并能监视和跟踪对DW的访问情况。②分析服务器——能改善对RDBMS数据进行多维分析的效果。八、数据传递模块功能:将数据集合分布到其他DW和最终用户产品中,如电子报表。数据的传递可以在一天中的某一时刻进行,也可以在一个外部事件结束时进行。3.4数据模型设计在创建DW时需要使用各种数据模型对DW进行描述,DW的开发人员依据这些数据模型才能开发出一个满足用户需求的DW。DW的各种数据模型在DW的开发中作用很大,主要体现在模型终止旱由于设计有关的属性,排除了无关的信息,突出了与任务相关的重要信7息,是开发人员能够将注意力集中在DW开发的主要部分。因此,数据仓库的设计和OLTP系统的设计一样,也需要先进行模型的设计。一、不同层次模型之间的关系.。1、企业数据模型:特点:只包含原始数据。OLTP、DW的数据模型均源于企业模型。2、操作型数据模型特点:①基本等价于企业数据模型。②在数据库设计之前要加入性能因素。3、DW数据模型。特点:①去掉纯操作性数据。②给键码增加时间因素③合适之处增加导出数据④把OLTP系统中数据关系变为人工关系。4、不同层次模型之间的关系(1)OLTP系统的数据模型来源于企业数据模型。(2)DW数据模型源于OLTP系统数据模型以及企业数据模型。二、DW数据模型的设计1.DW数据模型的种类:(1)概念模型DW的概念模型是一个DW的粗略蓝本,以此为工具却人DW的设计者是否已经正确的理解了DW最终用户的信息需求。在概念模型的设计中,必须将注意力集中在对上午的理解上,保证DW的所有业务都被归纳进概念模型。(2)逻辑模型DW的逻辑模型是维度模型,采用星型模型或雪花模型。在星型模型中主要设计事实表和维度表。(3)物理模型关系表在物力上实现的模型。通常进行索引、簇集和视图的设计等,以及为提高性能而作的一些工作。(4)元数据模型1OIM模型2RalphKimball提出的总线模型总线模型的基本思想是将其他需要元数据或产生元数据的设施都连接到这一总线上,这样就可以实现数据内部的移动。(5)粒度模型1单粒度模型,在系统中只设计一个粒度2多粒度模型,在系统中涉及多个粒度,低粒度,中粒度,高粒度并存。3混合粒度,在系统中,有些维度用单粒度,有些维度用多粒度。(6)数据模型关系图数据模型关系图如图3-4所示。8图3-4数据模型关系图2.概念模型设计在设计DW的概念模型时,可以采用在业务处理系统中经常采用的实体—联系模型,即ER图。这是一种描述组织概况的蓝图,包括整个组织系统中各个部门的业务处理业务处理数据,蓝图设计中涉及各个部门所需要的元数据,并且提供本部门所拥有系统的元数据。从概念模型中应体现出那些部门需要那些共同的数据。1设计方法◆首先在建模之前定义数据模型的边界◆先建立企业内不同群体的实体-联系模型,然后进行集成企业的总体概念模型2注意事项◆在DW的
本文标题:数据仓库设计
链接地址:https://www.777doc.com/doc-4845120 .html