您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第3章 数据仓库系统的设计与开发
2012/11/6数据仓库与数据挖掘1第3章数据仓库系统的设计与开发DW设计与DBS设计的不同(1)面向的处理类型。(2)面向的需求不同。(3)系统设计的目标不同。(4)两者的数据来源或系统的输入不同。(5)系统设计的方法和步骤不同。数据仓库的主要组成部分:(1)数据源(2)数据抽取(Extraction)、转换(Transformation)和装载(Load)工具。(3)数据建模工具(4)核心仓储(CentralRepository)(5)数据仓库的目标数据库(6)前端数据访问和分析工具(7)数据仓库管理工具2012/11/6数据仓库与数据挖掘53.1数据仓库系统的设计与开发概述建立一个数据仓库系统的参考步骤数据仓库系统的生命周期创建数据仓库系统的两种思维模式数据仓库数据库的设计步骤2012/11/6数据仓库与数据挖掘6一、建立一个数据仓库系统的参考步骤1.收集和分析业务需求步骤2.建立数据模型和数据仓库的物理设计3.定义数据源4.选择数据仓库技术和平台5.从操作型数据库中抽取、清洗及转换数据到数据仓库6.选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件7.更新数据仓库数据挖掘国外教程:DW设计步骤概念模型设计(在原有DB上建立一个稳固的要领模型)技术准备工作逻辑模型设计物理模型设计DW的生成DW的使用和维护2012/11/6数据仓库与数据挖掘10二、数据仓库系统的生命开发周期数据仓库系统:数据仓库数据库、数据分析应用系统数据仓库系统设计:数据仓库数据库设计数据仓库应用2012/11/6数据仓库与数据挖掘11二、数据仓库系统的生命开发周期数据仓库系统的生命周期规范与需求分析用户评价与反馈系统安装与测试数据填充与调试中间件开发数据的ETL处理数据库与元数据体系结构设计逻辑模型概念模型系统维护系统上线应用分析维护实施设计2012/11/6数据仓库与数据挖掘12三、创建数据仓库系统的两种思维模式自顶向下(Top-down):OLTP--〉ETL于数据仓库--〉复制于数据集市自底向上(Bottom-Up):OLPT--〉ETL于数据集市--〉复制于数据仓库2012/11/6数据仓库与数据挖掘13四、数据仓库数据库的设计步骤概念模型设计业务需求物理模型设计逻辑模型设计收集、分析和确认将需求模型转为关系模型由关系模型转为存储模型常用方法:信息包图法关键任务:分析和理解数据仓库中的主题常用方法:星形图法关键任务:事实表与维度表的设计,包括事实、粒度、聚合与分割、维度等问题的确定常用方法:关系表(通用数据库物理设计法)关键任务:物理数据库表及其存储结构设计面向用户的需求详细的技术细节有反复的逐步设计过程2012/11/6数据仓库与数据挖掘143.2MSSQLServer2005的数据仓库架构SQLServerBusinessIntelligenceDevelopmentStudio集成(SSIS)报表(SSRS)分析(SSAS)数据抽取数据整合自定义报表数据展现OLAP数据挖掘服务Service商业智能应用BI作用Function从企业各业务数据中获取有用信息,实现与业务流程的统一对分析结果提供类型多样、美观且适合不同需求的图表和报告为已有数据建立模型,分析并找出数据的内在关系SQLServerBusinessIntelligenceDevelopmentStudio开发环境实施数据仓库2012/11/6数据仓库与数据挖掘15创建新的AnalysisServices项目定义新的数据源定义一个新的数据源视图DimCustomerDimGeographyDimProductDimTimeFactInternetSales“选择时间段”“选择度量值”定义多维数据集的度量值组、度量值、维度、层次结构和属性部署AnalysisServices项目,并浏览2012/11/6数据仓库与数据挖掘16一、SQLServer2005数据仓库系统介绍SSAS:提供所有业务数据的统一整合视图。SSIS:ETL和整合能力。SSRS:创建、管理和交付传统报表和交互式报表。2012/11/6数据仓库与数据挖掘17二、基于SQLServer的数据仓库数据库设计过程详解分析组织的业务状况及数据源结构组织需求调研,收集业务需求采用信息包图法进行数据仓库的概念模型设计利用星形图进行数据仓库的逻辑模型设计数据仓库的物理模型设计2012/11/6数据仓库与数据挖掘181、分析组织的业务状况及数据源结构开发的第一步是要了解和理解组织的业务状况,对于企业来说,也就是要熟悉企业的生产经营流程,同时初步获取在这些流程中的分析需求,为最终确定用户需求做好准备;对数据源结构的分析与理解:考虑数据需求的层次问题,先要了解数据源结构,再明确数据的内容。2012/11/6数据仓库与数据挖掘192、组织需求调研,收集业务需求数据来源:操作型业务数据库的历史数据和当期数据数据驱动53页2012/11/6数据仓库与数据挖掘202、组织需求调研,收集业务需求关于用户需求的调研:业务目标、当前信息源和日常报表需求、主题领域、关键性能指标、信息频率。对用户需求调研结果的分析:度量指标、维度2012/11/6数据仓库与数据挖掘21三、信息包图法设计数据仓库的概念模型1.信息包图法简介(看书57-58页):定义主题内容和主要性能指标之间的关系平面上建立超立方体自上而下步骤:抓住业务流程确定度量值确定数据的粒度三个重要对象:度量(指标),维度和类型2012/11/6数据仓库与数据挖掘222.信息包图建立三、信息包图法设计数据仓库的概念模型确定数据仓库主题和大部分元数据2012/11/6数据仓库与数据挖掘233.设计基于主题域的概念模型主题:指在较高层次上将业务数据进行综合、归类和分析利用的一种抽象概念。例:销售分析主题根据需求确定。主题域:对某个主题进行分析后确定的主题边界。由用户和DW设计人员完成。三、信息包图法设计数据仓库的概念模型2012/11/6数据仓库与数据挖掘243.设计基于主题域的概念模型主题:商品见图3.6涉及的关系表:商品表、供应关系表、购买表、仓储关系表见图3.7三、信息包图法设计数据仓库的概念模型2012/11/6数据仓库与数据挖掘25四、星形图进行数据仓库的逻辑模型设计1、根据分析需求与信息包图制作星形图或雪花图星型图有三个逻辑实体:维度(星角)、指标(图中心)和类别(维度内的每一单元)。信息包图--〉星型图需定义实体:(度量)指标实体维度实体详细类别实体2012/11/6销售分析星型图26四、星形图进行数据仓库的逻辑模型设计销售分析客户产品时间广告区域2012/11/6销售分析星型图27四、星形图进行数据仓库的逻辑模型设计销售分析客户产品时间广告区域产品类别2012/11/6数据仓库与数据挖掘28四、星形图进行数据仓库的逻辑模型设计2、确定主题域的属性组主题名公共键属性组商品商品号基本信息:商品号、商品名、类型和颜色等采购信息:商品号、应商号、供应价、供应日期、供应量等库存信息:商品号、库存号、库存量、日期等2012/11/6数据仓库与数据挖掘29四、星形图进行数据仓库的逻辑模型设计4、事实表的类型和设计包括主键和外键组成的键部分和用户希望在数据仓库中了解的数值指标。类型:事务事实、快照事实、线性项目事实、事件事实3、事实表及其特征度量变量可以离散或者连续事实表是模型中记录业务事实并作相应指标统计的表。包含度量变量和维表的关键字。2012/11/6数据仓库与数据挖掘30四、利用星形图进行数据仓库的逻辑模型设计5、粒度的选择:粒度:数据仓库中数据单元的详细程度和级别。粒度越小,级别越低,数据综合度越高,反之亦然。粒度不同选择会导致逻辑模型的差异64页粒度不同会导致数据存储容量的差异65页粒度的设计步骤:1、粗略估算数据量2、确定粒度的级别(分析需求类别,多重粒度)2012/11/6多重粒度31四、利用星形图进行数据仓库的逻辑模型设计5、粒度的选择:OLTP生产明细表零部件号日期数量组装产品号生产订单存放点责任人合格率。。。生产情况表零部件号汇总日期(3个月)生产数量使用数量生产批数。。。组装情况表组装产品号零部件号汇总日期(1年)完成数量完成批量。。。生产档案表零部件号日期数量生产订单责任人合格率。。。2012/11/6数据仓库与数据挖掘32四、利用星形图进行数据仓库的逻辑模型设计6、聚合模型7、数据分割处理2012/11/6数据仓库与数据挖掘33四、利用星形图进行数据仓库的逻辑模型设计8、星形图中的维度表简介维度表数据特征67页维度分类:结构维:年月日组成一个结构维信息维:计算字段建立分区维:时间分区维常用分类维:针对一个维的属性分组实现退化维、一致维常用维度的设计模式:时间、地理、机构、客户2012/11/6数据仓库与数据挖掘34五、数据仓库的物理模型设计1.物理模型设计的主要工作①定义数据标准②选择数据库架构③实体实体特征物理化④数据容量和使用频率分析⑤物理文件设计索引的使用和选择⑥RAID2.物理存储结构设计的原则3.数据仓库索引设计的特殊性4.存储优化与存储策略2012/11/6数据仓库与数据挖掘353.3使用SQLServer2005建立多维数据模型SQLServer2005示例数据仓库环境的配置与使用基于SQLServer2005示例数据库的多维数据模型的建立与应用。2012/11/6数据仓库与数据挖掘363.3使用SQLServer2005建立多维数据模型在SQLServer2005数据库环境中安装数据仓库组件、示例和工具利用示例数据仓库(AdventureWorksDW)环境及帮助系统学习2012/11/6数据仓库与数据挖掘37创建一个新的数据仓库分析项目定义数据源定义数据源视图定义多维数据集部署“销售分析示例”项目浏览已部署的多维数据集提高多维数据集的可用性和易用性3.3使用SQLServer2005建立多维数据模型
本文标题:第3章 数据仓库系统的设计与开发
链接地址:https://www.777doc.com/doc-4608153 .html