您好,欢迎访问三七文档
1.4数据仓库模型设计第一章数据仓库原理1.4.1数据仓库模型设计方法概述1.4.2数据仓库设计的三级模型1.4.3数据仓库的概念模型1.4.4数据仓库的逻辑模型1.4.5数据仓库的物理模型1.4.6数据装载接口设计1.4数据仓库模型设计1.4.1数据仓库模型设计方法概述数据仓库系统的设计与数据库系统设计的区别数据库系统设计数据仓库系统设计面向的数据类型面向应用面向分析应用需求比较明确不太明确系统设计目标事务处理的并发性、安全性、高效性保证数据的四个特征和全局一致性数据来源业务操作员的输入业务系统系统设计的方法需求驱动数据驱动第一章数据仓库原理1.4.1数据仓库模型设计方法概述数据仓库系统的设计可以分为数据仓库模型设计和数据装载接口的设计两大部分,其中数据仓库模型设计又包括概念模型设计、逻辑模型设计和物理模型设计三个部分。1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型数据模型是数据仓库建设的基础,一个完整、灵活、稳定的数据模型对于数据仓库项目的成功起着如下重要的作用:1)数据模型是整个系统建设过程的导航图。2)有利于数据的整合。3)通过数据模型的建立,可以排除数据描述的不一致性。4)由于数据模型对现有的信息以及信息之间的关系从逻辑层进行了全面的描述,当未来业务发生变化或系统需求发生变化时,可以很容易地实现系统扩展。1.4数据仓库模型设计第一章数据仓库原理5)可以消除数据仓库中的冗余数据。数据仓库建模是数据仓库构建工作正式开始的第一步,正确而完备的数据模型是用户业务需求的体现,是数据仓库项目成功与否最重要的技术因素。目前较为流行的数据仓库设计模型是概念模型、逻辑模型和物理模型三级数据模型。1.4.2数据仓库设计的三级数据模型1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型一、概念模型概念模型描述的是从客观世界到主观认识的映射,它是用于我们为一定的目标设计系统、收集信息而服务的一个概念性工具。在进行系统设计时,我们首先要将现实世界抽象为概念模型,然后再用计算机世界的模型和语言对客观世界中的具体问题进行描述。1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型二、逻辑模型目前数据仓库一般建立在关系数据库基础之上。因此,在数据仓库的设计中采用的逻辑模型就是关系模型,无论是主题还是主题之间的联系,都用关系来表示。逻辑模型描述了数据仓库的主题的逻辑实现,对于关系数据库来说,即每个主题所对应的关系表的关系模式的定义。它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型三、物理模型物理模型是逻辑模型在数据仓库中的实现,如数据存储结构、数据索引策略、数据的存储策略以及存储分配优化等。1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型四、三种模型之间的关系关系模型物理实现的细节客观世界主观世界概念模型逻辑模型物理模型1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型高级模型:即数据概念模型,用E-R图表示。低级模型:即物理数据模型。中级模型:称为数据项(dis-dataitemset)。1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型dis是E-R图的细分。E-R图的每一个主题都与一个dis相对应。主题1主题2主题4主题3disdisdisdisE-R图高级模型中级模型中级模型1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型每个dis中的数据分为4个组别:基本数据组、二级数据组、连接数据组和类型数据组。1)连接数据组主要用于本主题与其他主题之间的联系,体现E-R图中主题之间的关系。一般情况下,连接数据组往往是一个主题的公共码键。1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型2)基本数据组基本数据组包含了本主题中固定的、基本不变的属性。3)二级数据组是本主题中有时会发生变化的数据,其稳定性低于基本数据组。4)类型数据组是本主题中经常改变的数据,其稳定性最低。1.4数据仓库模型设计第一章数据仓库原理1.4.2数据仓库设计的三级数据模型五、高级模型、中级模型和低级模型例:商品ID客户ID姓名性别身份证号码住址文化程度电话E-mail交易ID商品金额购买时间交易ID商品金额购买时间交易ID商品金额购买时间电器食品床上用品类型数据组二级数据组连接数据组基本数据组1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计通过概念模型设计,可以确定数据仓库的主要主题及相互关系。进行概念模型设计所要完成的工作有:1)界定系统边界,即进行任务和环境评估、需求收集和分析,了解用户迫切需要解决的问题及解决这些问题所需要的信息,要对现有数据库中的内容有一个完整而清晰的认识。2)确定主要的主题域及其内容,即要确定系统所包含的主题域,然后对每一个主题域的公共码键、主题域之间的联系、充分代表主题的属性组进行较为明确的描述。1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计数据仓库的概念模型设计可以采用两种方法:E-R模型和面向对象的分析方法。一、E-R模型E-R图描述的是主题以及主题之间的联系。用E-R模型进行概念模型设计的过程如图:任务和环境评估需求的收集和分析主题选取,确定主题间关系主题内容描述E-R图对主题的选择进行调整1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计(1)任务和环境的评估(2)需求的收集和分析(3)主题的选取,确定主题间关系主题选取的原则:1)优先实施管理者目前最迫切需求、最关心的主题。2)优先选择能够在较短时间内发生效益的决策主题。3)推后实施业务逻辑准备不充分的主题。4)推后考虑实现技术难度大、可实现性较低、投资风险大的主题。1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计(4)主题内容描述描述的内容包括:1)主题的公共码键。2)主题之间的联系。3)充分代表主题的属性组。(5)E-R图长方形——表示主题椭圆形——表示主题的属性组菱形——表示主题之间的联系1.4数据仓库模型设计第一章数据仓库原理例1:假设有商品、客户和供应商三个主题。商品有如下属性组:商品固有信息商品库存信息商品销售信息商品采购信心客户有如下属性组:客户固有信息客户购物信息供应商有如下属性组:供应商固有信息供应商品信息则可得到如下E-R图:1.4.3数据仓库的概念模型设计1.4数据仓库模型设计第一章数据仓库原理供应商商品客户日期供应商号供应商固有信息供应商品信息日期客户号客户购物信息客户固有信息日期商品号商品固有信息商品库存信息商品销售信息商品采购信息供应购买1.4.3数据仓库的概念模型设计1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计例2、中医药方剂是中医治疗疾病的重要手段,方剂中蕴涵着中医博大、精深的理论。为了揭示蕴涵在方剂中的应用规律和内部的有机联系,推动传统医学的发展,加快新药产品的开发,要建立中医方剂数据仓库。1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计方剂中的信息可以分为两个部分:一部分是药物的配比,即需要哪几味中药,每种药材各需要多少;另一部分则是其主治的病症,这两部分信息被方剂有机地联系在一起。药物的配比是由药理决定的,而病症的规则又是与病因和发展的机理密切联系,要分析方剂,就不可能不研究这两方面的信息。因此可以确定主要的主题为方剂、药物、病症,所需的数据为方剂数据、药物数据、病症数据。1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计主题名公共码键属性组药物药物ID药物基本信息:药物ID、药名、味性、归经、功效、主治和禁忌等药物相关信息:药物ID、产地、采集、保存、炮制等方剂方剂ID方剂基本信息:方剂ID、方剂名、煎服方式、文献等方剂药物信息:方剂ID、药物ID、剂量等方剂适宜病症:方剂ID、病症ID等病症病症ID病症基本信息:病症ID、病症名、临床表现、病机等主题的描述1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计病症药物处方方药方症方剂ID方剂药物信息方剂基本信息方剂适宜病症药物基本信息药物ID药物相关信息病症ID病症基本信息1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计二、面向对象的分析方法采用面向对象方法进行概念模型设计时,E-R模型中的实体转化为面向对象系统中的类,E-R模型中实体的属性对应面向对象系统中类的属性,E-R模型中实体间的关系表现为面向对象系统中类间的关系。环境评估需求分析选择类确定类间关系描述类属性、动作对类的选择进行调整1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计二、面向对象的分析方法类常用的图形表示方法是类表。汽车属性:颜色类型……动作:行驶()类名类的属性集合类的动作集合1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计二、面向对象的分析方法在面向对象的方法中,类之间存在三种关系:继承、包容和关联。1、继承交通工具汽车轮船火车1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计二、面向对象的分析方法2、包容学校学生教师1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计二、面向对象的分析方法3、关联在面向对象方法中,除了包容和继承关系之外,类之间的其他关系都归入关联关系。因为类的动作反映的是类对自身或者其他类的作用,而关联关系是指类间的作用与反作用,所以关联关系可以通过类的动作来体现。教师学生教/学1.4数据仓库模型设计第一章数据仓库原理1.4.3数据仓库的概念模型设计二、面向对象的分析方法例:中医数据仓库选择出三个类:药物类、方剂类、病症类,其中药物类可以派生出治感冒的药物、治脾胃的药物和治肠炎的药物三个子类,各类之间的关系如图:方剂药物病症治感冒的药物治脾胃的药物治肠炎的药物1.4数据仓库模型设计第一章数据仓库原理1.4.4数据仓库的逻辑模型设计进行逻辑模型设计所要完成的主要工作有:(1)系统数据量的估算(2)数据粒度的选择(3)确定数据分割策略(4)增加时间字段(5)去除纯操作型数据(6)进行合理的表划分(7)定义关系模式(8)增加导出字段(9)定义记录系统1.4数据仓库模型设计第一章数据仓库原理1.4.4数据仓库的逻辑模型设计一、系统数据量估算数据仓库数据量级的一个简单估算方法是:设在概念模型中出现的表个数为N(这些表中应当不包括不会放进数据仓库的表),对于每个表i(0i=N)计算表的大小Si和表的主关键字大小Ki,然后估计每张表i在单位时间内最大记录数Lmax和最少记录数Lmin。则数据仓库的粗略数据量在如下范围:1.4数据仓库模型设计第一章数据仓库原理1.4.4数据仓库的逻辑模型设计一、系统数据量估算其中,T是数据在数据仓库中存在的周期。通常轻度综合的数据在数据仓库中存放的周期是5~10年。α是考虑由于数据索引和数据冗余而使得数据量增大的冗余因子,α通常可取1.2~2。上式的含义是数据仓库数据量=(表记录的大小十主关键字大小)×记录的数量/单位时间×存储时间×冗余因子。1.4数据仓库模型设计第一章数据仓库原理1.4.4数据仓库的逻辑模型设计一、系统数据量估算表i在单位时间内最大记录数Limax需要按照公司的客户数量或者市场的占用情况估算。比如对电信公司的计费表记录数量的估计,可以采用电信公司的客户数量×单位时间内平均通话的次数×每个存储时间来估计表的记录数量。以上方法估算的结果只能作为数据粒度选样和软硬件平台选取的参考数据,它同实际系统的数据量可能会有较大的出入。1.4数据
本文标题:数据仓库模型设计
链接地址:https://www.777doc.com/doc-27513 .html