您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库开发应用过程
来自www.cnshu.cn中国最大的资料库下载1第五讲数据仓库开发应用过程5.1数据仓库开发应用过程5.2数据仓库的规划5.3数据仓库的概念模型设计5.4数据仓库的逻辑模型设计5.5数据仓库的物理模型设计5.6数据仓库的实施5.7数据仓库的应用、支持和增强练习来自www.cnshu.cn中国最大的资料库下载2数据仓库开发过程规划分析阶段5.1数据仓库的螺旋式开发方法设计体系结构开发概念模型开发逻辑模型数据库与元数据设计数据抽取转换与加载开发中间件填充与测试数据仓库数据仓库应用数据仓库维护数据仓库评价规划与确定需求设计实施阶段使用维护阶段来自www.cnshu.cn中国最大的资料库下载35.2数据仓库的规划5.2.1选择数据仓库实现策略开发策略主要有:1)自顶向下:实际应用比较困难。2)自底向上:用于一个数据集市或一个部门的数据仓库开发,容易获得成功。3)两种策略的联合使用:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。5.2.2确定数据仓库的开发目标和实现范围首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。另一个重要目标是确定利用哪些方法和工具访问和导航数据?其它目标是确定数据仓库内部数据的规模。从用户的角度分析从技术的角度分析来自www.cnshu.cn中国最大的资料库下载45.2.3数据仓库的结构1.数据仓库的应用结构1)基于业务处理系统的数据仓库2)单纯数据仓库3)单纯数据集市4)数据仓库和数据集市2.数据仓库的技术平台结构1)单层结构2)客户/服务器两层结构(C/S)3)三层客户/服务器(B/W/S)4)多层式结构来自www.cnshu.cn中国最大的资料库下载55.2.4数据仓库使用方案和项目规划预算1.实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来2.开发方案的预算进行估计3.编制数据仓库开发说明书:说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。计划中需要阐明期望取得的有形和无形利益业务价值计划最好由目标业务主管来完成规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。来自www.cnshu.cn中国最大的资料库下载65.3数据仓库的概念模型设计概念模型的设计可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模型设计。5.3.1概念模型的需求调查数据仓库开发的任务书首先要明确用户的信息需求了解管理人员在信息需求方面的内容了解关于信息的来源组织所使用的系统环境来自www.cnshu.cn中国最大的资料库下载75.3.2概念模型的定义1.数据仓库用户的决策分析2.支持决策的数据需求分析3.数据需求分析工具决策分析问题客户购买商品趋势分析需求信息类日期地点商品客户年龄组客户经济状况客户信用需求信息1层需求信息2层需求信息3层需求信息4层需求信息5层……年(4)季(16)月(48)……国家(15)省(60)市(200)街道(2100)商店(20000)……商品种类(7)商品小类(40)商品(220)……年龄组(8)……经济类(10)……信用(10)……来自www.cnshu.cn中国最大的资料库下载84.CRUD矩阵实体功能客户销售单商品销售代表供货商销售单输入CRUDCRUDRRURU销售单处理CRUDCRUD商品管理RRRUR预算系统RRRRUR财务计算RURRURR库存控制RRUCRUDR后勤RRURRUC:Create产生、R:Read引用、U:Update更新D:Delete删除。来自www.cnshu.cn中国最大的资料库下载95.企业业务处理系统数据存储表OracleSysbaseSQLServerVFP其它模式销售单输入√√销售单处理√√商品管理√预算系统√(Excel)财务计算√库存控制√后勤√外部数据源商品供应商√市场调查公司√来自www.cnshu.cn中国最大的资料库下载105.3.3概念模型的分析客户变动信息商品变动信息客户号商品固有信息客户固有信息客户号供应商号开户日期日期销售数量日期商品号商品客户销售来自www.cnshu.cn中国最大的资料库下载115.3.4概念模型的设计经济(年收入)100万以上10万以上1万以上1万以下地点国家省市销售销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品种类ID小类ID商品ID信用10万元以上1万元以上1千元以上1千元以下0元来自www.cnshu.cn中国最大的资料库下载12经济(年收入)100万以上10万以上1万以上地点国家省市销售销售ID销售数量销售价格销售金额时间ID地点ID商品ID年龄60岁以上40岁以上30岁以上20岁以上20岁以下日期年月日商品ID种类小类商品信用10万元以上1万元以上1千元以上1千元以下0元商品ID生产厂家进货价格进货日期客户客户ID姓名地址电话邮政编码详细类别表来自www.cnshu.cn中国最大的资料库下载135.3.5概念模型文档与评审1.概念模型设计文档数据仓库开发需求分析报告概念模型分析报告概念模型概念模型的评审报告。2.概念模型的评审3.概念模型的评审人员4.概念模型的评审内容数据仓库开发任务书;用户决策分析信息需求调查表;数据仓库主题;E-R图、星型模型和雪花模型。来自www.cnshu.cn中国最大的资料库下载145.4数据仓库的逻辑模型设计1.数据仓库的逻辑模型设计任务:分析主题域,确定要装载到数据仓库的主题;确定粒度层次划分;确定数据分割策略;关系模式的定义和记录系统定义、确定数据抽取模型等。2.逻辑模型最终设计成果:每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中粒度划分数据分割策略表划分和数据来源等。来自www.cnshu.cn中国最大的资料库下载155.4.1分析主题域主题名公共码键属性组商品商品号商品固有信息:商品号,商品名,类型,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品库存信息:商品号,库房号,库存量,日期等销售销售单号销售单固有信息:销售单号,销售地址等销售信息:客户号,商品号,销售价,销售量、销售时间等客户客户号客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等客户经济息:客户号,年收入,家庭总收入等来自www.cnshu.cn中国最大的资料库下载165.4.2粒度层次和聚集的确定5.4.3确定数据分割策略数据分割标准1.数据量2.数据分析处理的对象3.粒度分割的策略5.4.4关系模型定义来自www.cnshu.cn中国最大的资料库下载175.4.5数据仓库的实体定义实体的逻辑分析实体所有列的具体特征列名列的键属性值来源/值域完整性约束类型与大小Customer_Number主键列、外部键列来自客户实体的合法客户键列没有客户键列,数据就不存在Char(10)Order_Number主键列、外部键列来自销售单实体的合法键列没有销售单键列,数据就不存在Char(10)Product_Number主键列、外部键列来自商品实体的合法键列没有商品键列,数据就不存在Char(10)Product_Price正的金额数Money(float)…………………………来自www.cnshu.cn中国最大的资料库下载185.4.5数据仓库的实体定义实体容量更新频率Customer中等容量,有100个重点客户,2000个跟踪客户每月对客户情况进行一次分析,更新频率也为每月一次Product小容量,500种商品大约有500种商品,商品的更新是每月一次,数据更新也照此。Order_Detail大容量,其上限是354,000,000,000,考虑到各种客户类型与各种商品的组合情况,一般很少达到。数据每月汇总一次,但是业务处理系统的数据每日需要更新一次,因此更新频率为每日一次。………………来自www.cnshu.cn中国最大的资料库下载195.4.6数据仓库的数据抽取模型F1数据抽取规则P2清理数据记录F8数据清理规则F2KHCGF5CQLS_KHCGF6CQLS_KHCGF7SJCK_KHCGP4加载到数据仓库F3SPQKF4ZGYJP3数据排序聚集P1抽取数据源记录来自www.cnshu.cn中国最大的资料库下载205.4.6数据仓库的数据抽取模型2.数据仓库的数据抽取、转换与加载计划(1)影响数据抽取、转换与加载的因素数据格式坏数据系统的兼容性数据源的变化数据抽取的时间(2)数据抽取、转换与加载对策全库比较利用程序日志利用数据库日志利用时间戳或利用位图索引来自www.cnshu.cn中国最大的资料库下载215.4.6数据仓库的数据抽取模型3.数据仓库的数据清理转换方法(1)类型转换(2)串操作(3)数学函数(4)参照完整性(5)关键字翻译(6)聚集运算4.数据仓库的数据抽取、清理与转换模型来自www.cnshu.cn中国最大的资料库下载225.4.6数据仓库的数据抽取模型数据平台数据库表名备注Windows/SQLServerXSSJKHCG客户采购商品表Windows/SQLServerXSSJSPQK商品情况表Windows/AccessRSGLZGYJ职工业绩表……………………数据源抽取对象表来自www.cnshu.cn中国最大的资料库下载235.4.6数据仓库的数据抽取模型数据源抽取规则表表.列名过滤与连接条件比较值复合条件备注KHCG.CGSL50000AND采购商品数量小于50000KHCG.CGSL500AND采购商品数量大于500SPQK.SPID≠‘AB’OR商品前两位非’AB’…………………………来自www.cnshu.cn中国最大的资料库下载245.4.6数据仓库的数据抽取模型数据抽取的目标列与源列对应关系表目标表.列源表.列转换公式备注SJCK_KHCG.KHZYKHCG.KHZY直接转换客户职业SJCK_KHCG.CGRQKHCG.CGRQ将月/年/日的日期格式转换成年/月/日格式客户采购日期……………………来自www.cnshu.cn中国最大的资料库下载255.4.6数据仓库的数据抽取模型数据抽取过程的排序、概括和导出情况表表.列名排序概括/导出备注CQLS_KHCG.CGSL降序分组按照采购数量从大到小排序、按照日期进行分组SJCK_KHCG.CGHZ概括对每一客户采购量按照星期分别进行概括处理,计算客户的采购总量SJCK_KHCG.PJL导出对每一客户采购情况按照星期分别进行平均采购量计算……………………来自www.cnshu.cn中国最大的资料库下载265.4.6数据仓库的数据抽取模型数据概括表与事实表对应关系概括表表.列名是否导出事实表.列名备注SPGKB.SP_ID否SPGYB.SP_ID商品编号SPGKB.GYS_ID否SPGYB.GYS_ID供应商编号SPGKB.SPGYZSL是SPGYB.SPGYL商品供应总量,按照供应商编号对供应数量求和SPGKB.SPGYZJE是SPGYB.SPGYJE商品供应总金额,按照供应商编号对供应商品的金额进行汇总……………………来自www.cnshu.cn中国最大的资料库下载275.4.7数据仓库的元数据模型建立与应用数据源⑼⑶物理模型查询统计逻辑模型业务分组来源定义加载统计来源-目标映射建模工具元数据目录数据加载工具数据仓库前端展示工具⑴⑵⑷⑸a⑹⑺⑻⑽⑿⑸b来自www.cnshu.cn中国最大的资料库下载285.4.8逻辑模型的评审逻辑模型的文档内容:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体、维实体与详细类别实体的关系模式和数据抽取模型。对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。从用户对概括数据使用的要求,评审数据粒度的划分和数据分割策
本文标题:数据仓库开发应用过程
链接地址:https://www.777doc.com/doc-27323 .html