您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据库仓库和BI企业级技术
为什么选择数据仓库•随着信息化建设的不断推进,产生了大量的数据。必须合理科学的应用这些数据,为业务决策提供强有力的数据支持。简单的报表应用已经无法满足需求,因此需要使用更强大数据仓库及其相关应用。•平台作为财政数据平台有着标准化的存储结构和全面多样的业务数据,可以作为财政数据仓库的可靠数据来源。数据仓库•数据仓库、商业智能(BI)的概念•数据仓库、商业智能(BI)的体系结构•主流数据仓库产品对比分析•实例介绍数据仓库概念•历史数据仓库概念始于上世纪80年代中期,首次出现是在被誉为“数据仓库之父”WilliamH.Inmon的《建立数据仓库》一书中。•定义数据仓库是在管理和决策中面向主题的、集成的、随时间变化的、相对稳定的数据集合•按技术划分抽取、存储与管理、数据的表现•决策支持系统(DSS,DecisionSupportSystem)准确、安全、可靠地取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。商业智能的概念(BI)商业智能的核心内容是从业务处理系统的数据中,提取出有用的数据,进行清理以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,整合到一个企业级的数据仓库里,从而得到企业信息的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具等对数据仓库里的数据进行分析和处理,形成信息,甚至进一步把信息提炼出辅助决策的知识,最后把知识呈现给管理者,为管理者的决策过程提供支持。商业智能的概念(BI)传统的决策模式商业智能环境下的决策流程数据仓库与商业智能关系数据仓库是商业智能的基础。•数据仓库数据仓库从概念上更多地侧重在对各类信息的整合工作,包括了数据的迁移,数据的组织和存储,数据的管理与维护这些我们平常称之为后台的基础性的数据准备工作。•商业智能商业智能则侧重在数据查询和报告、多维/联机数据分析、数据挖掘和数据可视化工具这些平常称之为所谓前台的数据应用方面,其中数据挖掘是商业智能中比较高层次的一种应用。数据仓库•数据仓库、商业智能(BI)的概念•数据仓库、商业智能(BI)的体系结构•主流数据仓库产品对比分析•实例介绍数据仓库、商业智能的体系结构1.数据源2.ETL3.数据仓库4.数据集市5.元数据6.OLAP1.数据源•平台数据库•外部数据(格式:txt、excel、dbf等文件格式)•其它数据库2、ETL•E:Extract从源数据抽取数据•T:Transform把抽取的数据进行转换•L:Load把转换好的数据装载到数据仓库中。3、数据仓库•数据仓库的一个目的就是把企业的信息访问基础从一种非结构化的改变成一种结构化、发展中的环境改变成规划良好的环境。•业务处理系统是面向应用来设计的,更准确地说是面向交易来设计。而数据仓库一般来说是按主题(Subject)来建模,是面向查询主题的。3.数据仓库•数据仓库的关键特征•星型模式•粒度•分割3.数据仓库--关键特征•面向主题的(subject-oriented)•集成的(integrated)•时变的(time-variant)•非易失的(nonvolatile)数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放业务决策所需信息。数据仓库通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和决策。3.数据仓库--星型模式3.数据仓库--星型模式3.数据仓库--粒度粒度是对数据仓库中的数据的汇总程度高低的一个度量,(按省级汇总或按市级汇总就是不同的粒度)它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问信息的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是多维分析,因而绝大多数查询都基于一定程度的汇总数据之上的,只有极少数查询涉及到细节。分割分割,目的在于提高效率。它是将数据分散到各自的物理单元中去,以便能分别独立处理,以实现查询操作的并行。有许多数据分割的标准可供参考:如时间、地域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括一些能让它十分自然而且分割均匀的项目,例如时间项。4、数据集市数据集市分两种,独立的数据集市(IndependentDataMart)和从属的数据集市(DependentDataMart)。两种数据集市对比对比优点缺点从属数据集市保证数据一致性;架构比较理想,可扩展能力强依赖与中心数据仓库的实施;实施周期长;实施成本高;独立数据集市实施周期短;实施成本低;没有消除信息分割;可扩展能力弱;后期整合困难。财政领域应用在平台实施的基础上以从属数据集市为主。5.元数据(Meta-data)定义:“关于数据的数据”,是描述和管理数据仓库自身内容对象、用来表示数据项的意义及其在系统各组成部件之间的关系的数据。数据仓库的元数据包括:(1)数据资源:包括各个数据源的模型,描述源数据表字段属性及业务含义,源数据到数据仓库的映射关系;(2)数据组织:数据仓库、数据集市表的结构、属性及业务含义,多维结构等;(3)数据应用:查询与报表输出格式描述、OLAP、数据挖掘等的数据模型的信息展现、商业术语;(4)数据管理:这里包括数据仓库过程以及数据仓库操作结果的模型,包括描述数据抽取和清洗规则、数据加载控制、临时表结构、用途和使用情况、数据汇总控制。5.元数据类型•业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供最终用户使用。业务元数据使最终用户能够更好理解、使用数据仓库,成为最终用户在数据仓库中的业务信息地图。•技术元数据技术元数据描述了源系统、数据转换、抽取过程、工作流、加载策略以及目标数据库的定义等。用来进行影响分析、变化管理、数据库优化、任务调度和安全管理等。•操作元数据操作元数据描述了目标表中的信息,如粒度、创建目标表和索引的信息、刷新时间、记录数、按时执行任务的设置以及有权访问数据的用户。操作元数据用于数据仓库的维护和分布。多维分析OLAP•OLAP(On-LineanalyticalProcessing)在线分析处理•切片和切块(SliceandDice)•钻取(Drill)•旋转(Rotate)6、OLAP分析•是一类软件技术•分析人员能从多个角度获得对数据的更深入了解•特点:快速、一致、交互•多维视图分析数据的工具•根据用户常用的多种分析角度,事先计算好一些辅助结构,以便在查询时能尽快访问到所要的汇总数字,并快速地从一维转变到另一维,将不同角度的信息以数字、直方图、饼图、曲线等等方式展现在用户面前。切片和切块(SliceandDice)•切片取二维数据,称为切片。•切块取三维数据,称为切块。切片和切块(SliceandDice)钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)操作,钻取的深度与维所划分的层次相对应。旋转(Rotate)数据仓库•数据仓库、商业智能(BI)的概念•数据仓库、商业智能(BI)的体系结构•主流数据仓库产品对比分析•实例介绍主流数据仓库产品对比分析•1.数据仓库产品介绍•2.产品支撑技术主要数据仓库产品供应商介绍•Oracle•IBM•Microsoft•SAS•Teradata•Sybase•BusinessObjects(SAP)Oracle介绍Oracle公司的数据仓库解决方案包含了数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,与OLAP工具的交互能力,及数据移动机制等特性。Oracle的优势在于大多数业务系统采用oracle数据库。IBM介绍IBM公司的数据仓库产品称为DB2DataWarehouseEdition,它结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案。IBM的优势在于解决方案比较完善。Microsoft介绍微软的SQLServer提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能。微软的优势在于简单易用。SASSAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能。SAS优势在于数据挖掘和统计分析。TeradataTeradata公司提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上,在银行领域应用广泛。Sybase介绍Sybase提供了称为WarehouseStudio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。BusinessObjects(SAP)介绍BusinessObjects是BI工具,集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。被SAP收购后,目前还没有完整数据仓库解决方案。主流数据仓库产品对比分析•数据仓库产品介绍•支撑技术数据仓库技术•1、数据库技术•2、ETL技术•3、OLAP技术•4、报表技术•5、数据挖掘技术数据库技术数据库技术是支撑数据仓库技术的基础技术。尽管在数据仓库技术存储模型方面,基于数据库技术而发展的关系模式的理念已经被颠覆,取而代之是各种各样的数据仓库数据模型,如星型模型,雪花模型等。然而,在已有的数据仓库实践中,关系数据库仍然是实质的数据库存储工具,只是将数据库表改称为了事实表和维表,将属性域之间的关系重新定义为维度,量度,层次,粒度等。数据仓库后台数据库比较产品供应商数据库产品效率兼容性管理磁盘空间OracleOracle优IBMDB2优MicrosoftSQLServer优SASTeradataTeradata差差SybaseSybaseIQ优优SAPETL技术数据仓库系统是集成的、与时间相关的数据集合,ETL作为数据仓库的核心,负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。要实现数据仓库中数据的自动更新运转,ETL技术是必不可少的关键技术之一。产品供应商ETL工具特点OracleOracleWarehouseBuilder(OWB)数据仓库组件IBMIBMWebSphereDataStage整个ETL过程提供了一个图形化的开发环境,支持对多种操作数据源的数据抽取、转换和维护,并将其输入数据集或数据仓库MicrosoftIntegrationServices数据仓库组件SASETLStudio管理ETL流程和建立数据仓库、数据集市和OLAP结构的单控制点TeradataETLAutomation利用Teradata数据库本身的并行处理能力,通过SQL语句实现数据的转换,提供对ETL流程的支持,包括前后依赖、执行和监控等SybaseDataIntegrationSuite数据仓库组件SAPDataIntegrator数据仓库组件InformaticaPowerCenter二次开发、集成和开放性强于其它OLAP技术联机分析处理(OLAP)是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分
本文标题:数据库仓库和BI企业级技术
链接地址:https://www.777doc.com/doc-541 .html