您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > chap 5 数据仓库建模
DataWarehousingandOnlineAnalyticalProcessing第五章数据仓库设计(关系建模)Chapter5DataWarehouseDesignMarch2013YunhaiTongSchoolofElectronicsEngineeringandComputerScience,PekingUniversityDataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库建设的目标数据仓库设计的基本思想数据仓库设计方法概述数据仓库设计中的性能考虑DataWarehousingandOnlineAnalyticalProcessing数据仓库建设的目标数据仓库必须使组织机构的信息变得容易存取容易理解,见名知义存取工具必须简单易用,存取速度快数据仓库必须一致地展示组织机构的信息数据具有可信性高质量的数据:一致的、完整的、定义唯一理解的数据仓库必须具有广泛的适应性和便于修改变化:用户需求、业务情形、数据内容和技术状况新数据的加入,现有数据和应用不应该发生改变或者崩溃DataWarehousingandOnlineAnalyticalProcessing数据仓库建设的目标(续)数据仓库必须发挥安全堡垒作用以保护信息资产能够有效地控制对机构机密信息和个人隐私信息的访问数据仓库必须在推进有效决策方面承担重要角色数据仓库建设成功的前提是为业务群体所接受DataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库建设的目标数据仓库设计的基本思想数据仓库设计方法概述数据仓库设计中的性能考虑DataWarehousingandOnlineAnalyticalProcessing数据仓库建模的基础数据仓库数据建模中使用的数据建模技术规范化建模(使用规范化的模式)和维度建模(使用维度/星型模式)。规范化建模的目的是减少数据冗余,以最优化总体性能。规范化建模通常会提供详细的实体关系图表。维度建模的目的是直观地显示业务结构,以及提供高水平的访问性能。数据仓库建模工具随着软件行业的不断发展,人们对软件工程认识的不断提高,使用设计建模的方法可以提高软件项目成功的可能性已经成为不争的事实。利用相关的数据仓库数据建模工具(例如Erwin、PowerDesigner等)同样可以将数据仓库的分析、设计建模、形成文档、配置管理、相关测试等变得较为容易。DataWarehousingandOnlineAnalyticalProcessing数据仓库建模的基础建立数据仓库的通用实践根据最新的理论研究成果,结合诸多数据仓库系统建设的成功实践,对数据建模流程的彻底理解:概念数据模型(在规划阶段)、逻辑数据模型(在规划/设计阶段)和物理数据模型(在设计阶段)。相关业务知识针对相关业务知识的深入理解。业务知识是数据建模中最关键的元素。能被业务和IT部门充分理解的优良的数据模型只能来自于对业务上的数据和数据关系的坚实理解。数据建模能力和知识并不单独存在于一个团体或部门中。数据模型开发是一项联合工作,一般是由信息/IT部门(作为数据模型的实施者)领导,而业务部门(作为数据所有者和终端用户)则提供所需信息和深入参与开发工作。DataWarehousingandOnlineAnalyticalProcessing数据仓库设计的基本思想必须具有一个合适的粒度(数据的细节程度)以满足所有分析应用数据仓库的设计必须独立于应用软件和工具,对多维分析、统计、挖掘等应用具有良好的适应性以企业为关注点尽可能弹性地适应变化具有快速数据装载的能力支持各种优化方法跟分析技术无关DataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库建设的目标数据仓库设计的基本思想数据仓库设计方法概述DB与DW设计方法的比较DW设计的三级数据模型数据仓库设计中的性能考虑DataWarehousingandOnlineAnalyticalProcessingDW设计与DB设计方法比较处理类型不同DB:操作型数据环境,面向业务DW:面向主题的分析型数据环境,面向分析,从基本主题开始,不断发展新主题面向需求不同DB:一组较确定的应用(业务处理)需求;较确定的数据流DW:需求不确切(定);分析处理需求灵活;没有固定模式;用户对分析处理需求不甚明了;其设计很难以需求为基础DataWarehousingandOnlineAnalyticalProcessingDW设计与DB设计方法比较(续Ⅰ)设计目标不同DB:事务处理的性能(OLTP),支持多用户并发访问,高效的增、删、改操作DW:建立DSS的数据环境,全局的分析环境,支持用户快速的分析和查询数据来源不同DB:企业的业务流程中产生的数据DW:系统内部,主要从OLTP系统中获取,经过转换、重组、综合;同时包括部分外部信息DataWarehousingandOnlineAnalyticalProcessingDW设计与DB设计方法比较(续Ⅱ)设计方法不同DB:SDLC(SystemDevelopmentLifeCycle)—应用需求驱动DW:CLDS—数据驱动+需求驱动DataWarehousingandOnlineAnalyticalProcessingInmon:SDLC与CLDS方法比较SDLC方法CLDS方法需求分析编程•收集需求•分析•设计•编程•测试•集成•实现数据仓库编程需求•实现数据仓库•集成数据•检验偏差•针对数据编程•设计DSS系统•分析结果•理解需求DataWarehousingandOnlineAnalyticalProcessingSDLC与CLDS方法比较应用B应用A应用C收集应用需求DB分析应用需求构建数据库应用编程系统测试系统实施SDLC方法外部数据DBDB数据获取与集成DW构建数据仓库DSS应用编程系统测试理解需求数据仓库建模CLDS方法DataWarehousingandOnlineAnalyticalProcessing第1天到第n天现象第一天现有系统第二天现有系统数据仓库第一个主题域第三天现有系统更多的主题域DataWarehousingandOnlineAnalyticalProcessing第1天到第n天现象现有系统第四天数据仓库开始完全载入,访问成为一个问题!第五天现有系统数据仓库增长,部门级处理兴起第六天现有系统更多的数据注入数据仓库。由于部门数据易于得到,更多的精力集中在此DataWarehousingandOnlineAnalyticalProcessing第1天到第n天现象第N天现有系统DataWarehousingandOnlineAnalyticalProcessing在数据仓库建设过程中明确需求数据仓库建造过程中,如果开发者等完全明确需求之后开始工作,那么这个仓库永远建不起来开发人员与DSS分析员的反馈循环十分重要DataWarehousingandOnlineAnalyticalProcessing数据仓库设计的原则坚持“以数据驱动为中心,数据驱动和需求驱动相结合”的原则数据驱动是指根据当前数据基础和质量等情况,进行数据源分析需求驱动是指根据业务方向性需求、业务问题等,确定系统范围和需求框架DataWarehousingandOnlineAnalyticalProcessing在实际工程中的设计方法数据仓库设计数据集成DSS应用编程系统测试进一步理解需求分析处理需求收集源数据分析数据仓库的设计和实现是一项工程,是不断建立、发展和完善、循环求精的过程,并不是一个可以简单购买的产品。DataWarehousingandOnlineAnalyticalProcessing在实际工程中的设计方法(续I)确定范围与项目定义主要任务系统边界的界定定义并描述项目步骤了解用户方向性需求,发现业务问题,确定范围;对业务问题进行排序,选择高优先级业务问题,界定系统边界;定义和识别项目的目的、范围、前景、价值、约束、风险、障碍等,制定质量管理、配置管理等计划,形成项目定义文档;确定主题域,建立概念模型。DataWarehousingandOnlineAnalyticalProcessing在实际工程中的设计方法(续II)应用系统及其数据的调研与分析目标为数据仓库系统发现运行稳定、数据可靠的源系统,并考察其数据状况主要任务对系统边界内的应用系统进行调研和分析,制定高层应用系统流程图,识别所有主要的应用系统及其主要内容分析主要应用系统的数据,形成应用系统数据分析文档DataWarehousingandOnlineAnalyticalProcessing在实际工程中的设计方法(续III)坚持“统一规划、分步实施、步步见效、逐步完善”的原则开发模型:演化模型(快速原型法)企业数据仓库的建设需要领域专家和数据仓库技术专家之间的相互协作;数据仓库建设环境(操作系统和数据仓库管理系统)领域专家管理人员数据仓库专家数据仓库技术人员企业数据仓库DataWarehousingandOnlineAnalyticalProcessing数据驱动系统设计方法的基本思路l从源数据出发,分析数据,为新应用(分析处理)所用l根据分析处理的特点重新考察数据间联系,重组数据l数据(结构)具有相对的稳定性,而处理变化很快,强调数据模型的作用,支持识别DB与DW中的数据的“共同性”数据模型DBDBDB操作型环境设计数据仓库设计操作型处理应用开发与设计DSS应用开发与设计DW数据驱动系统设计方法的中心—数据模型DataWarehousingandOnlineAnalyticalProcessing讨论内容数据仓库建设的目标数据仓库设计的基本思想数据仓库设计方法概述DB与DW设计方法的比较DW设计的三级数据模型数据仓库设计中的性能考虑DataWarehousingandOnlineAnalyticalProcessingDW设计的三级数据模型数据模型:对现实世界的抽象不同的抽象程度对应不同级别的数据模型DW与DB的三级数据模型的区别:DW的数据模型中扩充了码结构,包含时间元素DW的数据模型中不包含纯操作型数据;但包含一些导出数据DataWarehousingandOnlineAnalyticalProcessing过程模型与数据模型过程模型仅使用于操作型环境数据模型既可用于操作型环境,也可用于数据仓库环境DataWarehousingandOnlineAnalyticalProcessing建模的不同层次间的关系DataWarehousingandOnlineAnalyticalProcessing稳定性分析零件ID描述信息主要替换件库存量订单单位最低应达库存主要供应商订货到交货的时间可以接受的废品率加急上次订单日期上次订货量上次发往地发货清单订货量……零件ID描述信息订单单位可以接受的废品率发货清单……零件表零件ID主要替换件最低应达库存主要供应商加急……零件ID库存量上次订单日期上次订货量上次发往地订货量……很少更改不时更改经常更改根据各个数据属性是否经常变化的特性将这些属性分组按这些属性分组进行表的划分DataWarehousingandOnlineAnalyticalProcessingDW设计的三级数据模型概念模型:“信息世界”中的信息结构用E—R方法,以主题替代实体逻辑模型:一般采用关系模型物理模型:物理存储结构、存储方法如:建立数据分片、合并表,建立包括广义索引在内的各种索引机制,引入冗余,生成导出数据等DataWarehousingandOnlineAnalyticalProcessingInmon的三级数据模型高级数据模型:采用E—R方法中级数据模型:称为dis(DataItemSet)一个d
本文标题:chap 5 数据仓库建模
链接地址:https://www.777doc.com/doc-5859935 .html