您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第4章数据仓库设计与开发
第四章数据仓库设计与开发本章目标了解数据仓库开发应用过程熟悉数据仓库的规划内容、目标等掌握数据仓库的分析与设计过程、内容了解数据仓库的实施过程第四章数据仓库设计与开发本章内容4.1数据仓库开发应用过程4.2数据仓库的规划4.3数据仓库的分析与设计4.4数据仓库的实施4.5数据仓库技术与开发的困难4.1数据仓库开发应用过程数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成三个阶段:数据仓库规划分析数据仓库设计实施数据仓库使用维护这三个阶段是一个不断循环、完善、提高的过程(螺旋式)。螺旋式开发应用过程设计体系结构开发概念模型开发逻辑模型数据库与元数据设计数据抽取转换与加载开发中间件填充与测试数据仓库数据仓库应用数据仓库维护数据仓库评价规划与确定需求规划分析阶段设计实施阶段使用维护阶段4.2数据仓库的规划选择数据仓库实现策略自顶向下:实际应用比较困难。自底向上:用于一个数据集市或一个部门的数据仓库开发,容易获得成功。两种策略的联合使用:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。用自顶向下方法建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性问题投资效益的时间?建设中心数据模型的必要性和可能性?初始费用?数据集市外部数据数据集市操作数据企业数据仓库用自底向上方法建立部门数据集市限制在一个主题区域快速投资收益区域自治–设计的可伸缩性强对相关部门的应用容易复制对每个数据集市需要数据重构存在一定的冗余及不一致性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标存在的问题:数据集市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?操作数据(全局)/外部数据企业数据仓库数据集市操作数据(局部)操作数据(局部)数据集市采用从顶向下VS从底向下企业内部、各个业务部门和各个工作岗位对数据仓库的理解和期望不同。作为具体的部门,有特定的信息需求,都希望能在尽可能短的时间内需求获得满足。建立局部的系统,所需信息能够立即为其使用。因此对部门而言,他们追求的是一种短期的局部目标,关心的是基于所在位置的局部解决方案。整个企业看,建立数据仓库的目的之一是获得对整个企业业务信息的视图。以便能把握和管理企业的经营运行,并对企业进行业务重组。企业现有系统往往不同程度上存在各自为政,缺乏统一的规划和设计。数据出自各部门,提供的信息不一致,使得高层无法获得可靠、统一和协调的信息。企业追求的是长期的集成目标,关心的是基于整个企业的全面解决方案。两者的目标是有矛盾的!确定数据仓库的开发目标和实现范围首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。另一个重要目标是确定利用哪些方法和工具访问和导航数据?其它目标是确定数据仓库内部数据的规模从用户的角度分析从技术的角度分析数据仓库的结构数据仓库的应用结构基于业务处理系统的数据仓库单纯数据仓库单纯数据集市数据仓库和数据集市数据仓库的技术平台结构单层结构客户/服务器两层结构三层客户/服务器多层式结构数据仓库使用方案和项目规划预算实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来开发方案的预算进行估计编制数据仓库开发说明书:说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。计划中需要阐明期望取得的有形和无形利益业务价值计划最好由目标业务主管来完成规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。4.3数据仓库的分析与设计4.3.1需求分析4.3.2概念模型设计4.3.3逻辑模型设计4.3.4物理模型设计4.3.5数据仓库的索引技术4.3.1需求分析确定主题域支持决策的数据来源数据仓库的成功标准和关键性能指标数据量与更新频率确定主题域(1)明确对于决策分析最有价值的主题领域有哪些?(2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些?(3)制定决策的商业分区是什么?(4)不同地区需要哪些信息来制定决策?(5)对哪个区域提供特定的商品和服务?支持决策的数据来源(1)哪些源数据(操作型)与商品主题有关?(2)在已有报表和在线查询中得到什么样的信息?(3)提供决策支持的细节程度是怎样的?数据仓库的成功标准和关键性能指标(1)衡量数据仓库成功的标准是什么?(2)哪些关键的性能指标?如何监控?(3)对数据仓库的期望是什么?(4)对数据仓库的预期用途有哪些?(5)对计划中的数据仓库的考虑要点是什么?数据量与更新频率(1)数据仓库的总数据量有多少?(2)决策支持所需的数据更新频率是多少?时间间隔是多长?(3)每种决策分析与不同时间的标准对比如何?(4)数据仓库中的信息需求的时间界限是什么?开发模型模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。现实世界概念世界逻辑世界计算机世界信用特性属性列(字段、数据项)张三个体实体记录客户整体同质总体表文件客户与产品整体间联系异质总体数据库4.3.2概念模型设计概念模型的特点是:能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。易于向数据仓库的数据模型(星型模型)转换。概念模型表示概念模型最常用的表示方法是实体-关系法(E-R法)。E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。例子有两个主题:商品和客户,主题也是实体。商品有如下属性组:商品的固有信息(商品号、商品名、类别、价格等);商品库存信息(商品号、库房号、库存量、日期等);商品销售信息(商品号、客户号、销售量等);客户有如下属性组:客户固有信息(客户号、客户名、住址、电话等);客户购物信息(客户号、商品号、售价、购买量等)。商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。商品商品固有信息商品号商品库存信息销售信息购物信息客户客户固有信息客户号=4.3.3逻辑模型设计主要工作:分析主题域进行概念模型(E—R图)到逻辑模型(星型模型)的转换确定粒度层次划分确定数据分割策略关系模式定义定义记录系统分析主题域主题名公共码键属性组商品商品号商品固有信息:商品号,商品名,类型,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品库存信息:商品号,库房号,库存量,日期等销售销售单号销售单固有信息:销售单号,销售地址等销售信息:客户号,商品号,销售价,销售量、销售时间等客户客户号客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等客户经济息:客户号,年收入,家庭总收入等概念模型到逻辑模型的转换星型模型的设计步骤如下:(1)确定决策分析需求。决策需求是建立多维数据模型的依据。(2)从需求中识别出事实。选择或设计反映决策主题业务的表,如在“商品”主题中,以“销售业务”作为事实表。(3)确定维。确定影响事实的各种因素,对销售业务的维包括商店,地区,部门,城市,时间,商品等。销售数据和维销售数据商品促销时间部门城市地区商店概念模型到逻辑模型的转换星型模型的设计步骤如下:(4)确定数据汇总水平。数据仓库中对数据不同粒度的集成和综合,形成了多层次、多种知识的数据结构。例如,对于时间维,可以以“年”、“月”或者“日”等不同水平进行汇总。(5)设计事实表和维表。设计事实表和维表的具体属性。在事实表中应该记录哪些属性是由维表的数量决定的。一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的维表又会影响查询的速度。概念模型到逻辑模型的转换星型模型的设计步骤如下:(6)按使用的DBMS和分析用户工具,证实设计方案的有效性。根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验(7)随着需求变化修改设计方案。随着应用需求的变化,整个数据仓库的数据模式也可能会发生变化。因此在设计之初,充分考虑数据模型的可修改性可以节省系统维护的代价。转换示例(1)业务数据的E-R图销售销售日期商店号商品号销售数量销售单位商品商品号商品名商品类号存货星期商店号商品号数量1m1m商店商店号商店名地址城市省邮编地区号1mm11商品类商品类号商品类名部门号m1m地区地区号地区名转换示例(2)E-R图向多维表的转换商品维地区维时间维部门地区年商品大类商店月商品周日销售事实转换示例(3)利用维关键字制定的星型模型时间时间键时间说明日期星期月年级别号销售事实时间键地理位置键商品键销售数量销售单位地区地理位置键地理位置名地区号商店号级别号商品商品键商品名部门号商品类号级别号转换示例(4)修改后的星型模型时间时间键时间说明日期星期月年级别号销售事实时间键地理位置键商品键销售数量销售单位地区地理位置键地理位置名地区号地区名商店号商店名级别号商品商品键商品名部门号部门名商品类号商品类名级别号确定粒度层次粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,层次级别就越高。决定数据仓库采取的是单一粒度还是多重粒度,以及粒度划分的层次。通过聚集的设计为数据仓库的使用提供各种可能的聚集查询便利进行粒度划分,首先要确定所有在数据仓库中建立的表,然后估计每个表的大约行数。确定数据分割策略把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储。便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率数据分割标准:1.数据量2.数据分析处理的对象3.粒度分割的策略定义关系模式在概念模型设计时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述。在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。“商品”主题公共码键:商品号。商品固有信息:商品表(商品号、商品名、类型、颜色)——细节级商品销售信息:销售表1(商品号、客户号、销售量、…)——细节级销售表2(商品号、时间段1、销售量、…)——综合级……销售表n(商品号、时间段n、销售量、…)——综合级定义记录系统定义记录系统是建立数据仓库中的数据以源系统中的数据的对照记录。记录系统的定义要记入数据仓库的元数据。商品主题的记录系统在元数据中可描述如表主题名属性名数据源系统源表名源属性名商品商品商品商品商品商品商品商品商品商品号商品名类别客户号销售日期售价销售量库存量库存号库存子系统库存子系统库存子系统销售子系统销售子系统销售子系统销售子系统库存子系统库存子系统商品商品商品客户销售销售销售库存仓库商品号商品名类别客户号日期单价数量库存量仓库号4.3.4物理模型设计物理模型设计因素:I/O存取时间空间利用率维护的代价主要工作:全面了解所选用的数据库管理系统,确定一个最适合应用要求的物理结构,特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。确定一个最适合应用要求的
本文标题:第4章数据仓库设计与开发
链接地址:https://www.777doc.com/doc-28013 .html