您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库初步(2)工具与技术
©2004-ProprietaryandConfidentialInformationofAmdocs数据仓库初步(2)数据仓库初步(2)工具与技术工具与技术贺建珲dm_bi@sina.com2©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com提纲提纲一、什么是数据仓库二、数据仓库体系结构和设计三、数据仓库工具与技术四、数据仓库开发方法论五、系统物理拓扑3©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com数据仓库工具与技术ETLOLAP数据挖掘前端展现4©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com4©2004-ProprietaryandConfidentialInformationofAmdocsETLETL什么是ETLETL方法ETL工具介绍5©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com什么是ETL什么是ETLExtract数据抽取Transform/Cleansing转换/清洗Load装载数据仓库流程中主体部分7©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com数据清洗/数据质量保障清洗“脏的”数据使其符合标准可用于集成成功的关键能力对需求的认知度较低质量!8©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comETL方法手工生成代码优点无需学习固有的技巧用户自己即具备这种能力通常很简单无需文化和习惯的改变缺点手工的元数据随着水平的变化,维护成为一个难题不是自动化的9©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comETL方法工具优点随着知识水平的提高,维护也变得益发容易自动的元数据具有高效率与其他工具的集成(OLAP、报表)规划器监控元数据管理10©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comETL方法工具缺点开销、需要额外资源学习曲线强迫文化改变必须使用工具来适应所有的变化速度问题,也许会延缓实施的时间黑盒子11©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com第一代ETL第一代工具代码生成器在来源与目标之间建立映射从来源中抽取数据根据目标转化数据12©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com手工编程/第一代ETL工具流程抽取程序来源来源OLTPOLTP系统系统转换程序文件传递程序文件加载程序来源主机或C/S系统数据仓库Client/Server系统索引建立程序数据聚合程序外部任务调度和控制–外部元数据加载/维护13©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com第二代ETL设计目标在来源与目标之间建立映射关系从来源中抽取数据针对目标转化数据规划流程监控流程管理环境14©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com第二代ETL环境和处理流程来源来源OLTPOLTP系统系统数据转化引擎缓存缓存来源主机或C/S系统转化引擎C/S系统数据仓库C/S系统企业元数据数据集市C/S系统数据集市数据集市数据集市C/S系统数据集市数据集市•扫描元数据•要求资源•规划交付用户流程数据仓库•监控•任务调度•数据抽取•数据清洗•数据转换•数据加载•索引建立•数据聚合•元数据导入•元数据维护15©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comETL工具ETL工具DataStage7PowerCenterOracleWarehouseBuilderInformationManagement17©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com17©2004-ProprietaryandConfidentialInformationofAmdocsOLAPOLAP什么是OLAPOLAP元素OLAP解决方案MOLAPHOLAPROLAPLowLAP/DOLAP(低层次/桌面型联机分析处理)OLAP工具18©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com什么是OLAP什么是OLAPOn-LineTransactionProcessingSystem联机事务处理系统On-LineAnalyticalProcessingSystem联机分析处理系统19©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com什么是OLAP多维数据库维度dimension度量measure立方体cube主题域视角指标主题20©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comOLAP元素多维数据观察切片与旋转交叉上钻,下挖和横向钻取无缝衔接的钻通到详细层功能地域业务时间年数Q1JFMQ2Q3Q421©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com时间地域业务切片和旋转$多维数据立方22©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com切片和旋转时间地域业务财务经理Q4Q4业务地域$23©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com切片和旋转时间地域业务东部东部产品时间$地区经理24©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com切片和旋转业务经理时间地域业务钉子钉子地域时间$25©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com切片和旋转示例从FY93切片转到FY9426©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com钻取时间地域全球美国欧洲纽约洛杉矶伦敦巴黎沿每一个坐标轴都可以进行不同层次的钻取业务27©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com钻取示例所有年度FY94沿FY94钻取28©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com举例举例OLAP可以看作灵活报表29©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comOLAP解决方案评价标准功能(时间,统计,币种)图形用户界面/易用性本地化语言支持RDBMS功能扩展专有性聚合性应用脚本编写和建立30©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comOLAP解决方案类型MOLAP多维联机分析处理ROLAP关系型联机分析处理HOLAP混合型联机分析处理(基本数据存放于RDBMS之中,聚合数据存放于多维数据库中)LowLAP(DOLAP-Desktop)低层次/桌面型联机分析处理31©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comMOLAP多维联机分析处理MOLAP类型专门的多维数据库(MDDBMS)专有的数据立方混合型MOLAP/ROLAP(HOLAP)需要专门的数据结构MDDBMS数据立方/HyperCube32©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com成功实施MOLAP的必备条件:辅助解决有限制条件的问题预测/经费预算数据汇总极其复杂的数学计算很少发生/变化很小的更新33©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comMOLAP的优点及时的反应增值功能(排序,%变化率)34©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comMOLAP的缺点加载时间很长非常大的多维数据集扩展性较差需要大量资源存储随维度增长而急剧增长35©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comROLAP关系型在线分析流程充分利用现有的RDBMS把RDBMS表作为数据来源在任何地方放置计算引擎36©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com成功实施ROLAP的需求详细的事务数据频繁的/大量的更新37©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comROLAP优势充分利用RDBMS能力增值的功能(等级,%变化)没有额外的负载没有额外的数据集需要管理良好的扩展性38©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comROLAP缺点较慢的响应时间RDBMS负载限制的体系结构厚客户端临时表I/O高主干级带宽39©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.comLowLAP/DOLAP低层次/桌面型联机分析处理流程厚客户端的实现有限的能力40©2004-ProprietaryandConfidentialInformationofAmdocs贺建珲dm_bi@sina.com成功实施LowLAP需求:最小化结果集充分告知用户有限性主要目标是移动OLAP强壮的网络基础强壮的客户平台41©2004-ProprietaryandConfidentialInformati
本文标题:数据仓库初步(2)工具与技术
链接地址:https://www.777doc.com/doc-6327248 .html