您好,欢迎访问三七文档
2019/12/291数据仓库技术简介IntroductiontoDataWarehouseTechnical李朝阳147212362019/12/292前言数据仓库是数据库技术的另一重要发展方向。人们希望能更多地通过数据库系统获得决策支持信息,由此推动下发展起来的一项新数据库技术。主要介绍操作性处理与分析型处理的区别,联机事务处理(OLTP)和联机分析处理(OLAP)的不同,数据仓库技术的基本概念、组成结构、技术特征、设计,数据挖掘和决策支持系统(DSS),以及SQLServer的DBMS对数据仓库的支持。2019/12/293主要内容1.从数据库到数据仓库2.数据仓库的结构3.数据仓库的设计4.OLAP与数据仓库5.数据挖掘(DataMining,DM)6.决策支持系统与数据仓库7.SQLServer2000的数据仓库8.小结2019/12/2941.从数据库到数据仓库1.1操作型处理和分析型处理1.2从数据库到数据仓库1.3操作型数据和分析型数据2019/12/2951.1操作型处理和分析型处理操作型处理分析型处理性能特性不同存取操作频率高,每次操作时间短,要求较短响应时间,可按分时方式。有时需要连续运行几个小时,从而消耗大量的系统资源。集成性问题一般只需与本部门有关的当前数据,集成性要求较少。迫切需要集成数据、企业内部、外部和竞争对手等信息。数据动态集成性问题不要动态集成。需一定周期进行动态集成。历史数据问题一般只需当前数据,数据库中只保存短期数据。需要分析大量历史数据。综合数据问题积累了大量的细节性数据,但很少对数据进行综合。不分析细节性数据,而要进行不同程度综合,分析综合信息。用户数量多相对较少2019/12/2961.2从数据库到数据仓库产生的根本原因是对决策信息的迫切需求。20世纪90年代以来,在操作型数据环境中建立DSS效果不理想。对传统数据库反思???在规划设计的基础上,对数据库中的数据按照不同的主题归纳、统计、汇总、集成,使其长期保存在计算机中,并随着时间推移不断追加,这样形成的数据集合便是我们所说的数据仓库。2019/12/2971.3操作型数据和分析型数据原始数据/操作型数据导出数据/分析型数据细节的综合的或提炼的在存取瞬间是准确的代表过去的历史数据可更新很少更新操作需求事先可知道操作需要事先不知道生命周期符合SDLC(系统生命周期)完全不同的生命周期对性能要求高对性能要求宽松事务驱动分析驱动面向业务应用面向分析一次操作小量数据一次操作大量数据支持日常操作支持管理决策需求2019/12/2982.数据仓库的结构数据仓库是一个不同于传统数据库的数据集合,它是对传统数据库进行抽取、归纳、统计、汇总集成而成。2.1数据仓库的概念及特点2.2数据仓库的组成结构2.3数据仓库的数据组织2.4数据仓库需要的数据库技术2019/12/2992.1数据仓库的概念及特点数据仓库是一种高级、复杂的数据库技术。完整的数据仓库理论包括三个方面:数据仓库技术、联机分析处理(OLAP)、数据挖掘(DM)。数据仓库是一个面向主题的、集成的、稳定的、随时间而变的数据集合,用以支持经营管理过程中的决策制订过程。数据仓库四特征:面向主题、集成、稳定和随时间变化。2019/12/29102.2数据仓库的组成结构从构成元素上看,数据仓库由物理元素和功能元素的组成,包括数据源、关系数据库、数据集市、维度、级别、度量值、单元、多维数据集、分区和聚合等。数据仓库系统总体组成结构一般包含7个部分:数据源部分、数据抽取转换和装载工具、数据建模工具、数据仓储、数据仓库的目标数据、数据仓库管理工具、前端数据访问分析工具。2019/12/29112.2数据仓库的总体组成结构关系数据库数据文件其他数据仓库管理工具元数据仓库数据建摸工具OLAP工具C/S工具用户查询工具抽取、转换、装载管理工具历史数据当前数据综合数据DM工具数据源数据抽取和转换数据仓库目标数据库数据访问分析工具关系性DBMS专用多维DBMS2019/12/29122.2数据仓库基本功能数据定义数据提取数据管理信息目录技术目录专业目录信息导航器数据应用DBDW源数据库集合数据仓库最终用户2019/12/29132.2数据仓库基本功能(1)数据定义:主要完成仓库结构和环境定义,包括:定义数据仓库中数据库模式、数据源和从数据源提取数据时的一组规则或模型。(2)数据提取:负责从数据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。(3)数据管理:由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。数据分配完成获取数据的存储分布以及将其分发到多台数据库服务器。数据维护服务完成数据的转储和恢复、安全性定义和检测等。用户直接输入系统的数据也由该部分完成。2019/12/29142.2数据仓库基本功能(4)信息目录:信息目录描述系统数据的定义和组织,通过它用户或开发人员可以了解数据仓库中存放的数据,以及如何访问、使用和管理。按数据仓库数据管理与应用要求,其信息目录可以设计为多个子部分:技术目录、业务目录和信息导航目录。(5)数据应用:除了一般的直接检索性使用外,还能完成常用的数据表示和分析,如图表表示、统计分析、结构分析、相关分析和时间序列分析等。对于涉及到众多数据的综合性较强的分析,可以借助专业数据分析工具。在客户机/服务器体系结构下,这部分功能可以放在客户端来完成,以便充分利用目前微机上丰富的数据分析软件。2019/12/29152.3数据仓库的数据组织数据仓库的数据来源于RDB,需要进行转化。数据仓库的数据长期保存。数据组织需要考虑以下方面:粒度、分割以及数据的模型结构。2019/12/29162.3数据仓库的数据组织一个典型的数据仓库的数据组织结构销售细节级1985-2003销售细节级2003-2004子生产线每周销售1985-2004生产线每月销售1982-2004元数据早期细节级当前细节级轻度综合数据级(数据集市)高度综合数据级操作型数据2019/12/29172.3数据仓库数据组织:粒度粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级越小;相反,细化程度越低,粒度级越大。粒度影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。小粒度级或高细节级,可回答任何问题,但数据量大。大粒度级或低细节级,数据量少。在设计数据仓库时,需要在数据量大小与查询的详细程度之间要作出权衡,对粒度级进行权衡,最佳解决之法使双重粒度。2019/12/29182.3数据仓库数据组织:分割数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。在数据仓库中,围绕分割问题的焦点不是该不该分割而是如何去分割的问题。分割总体目的是把数据划分成小的物理单元。数据分割包括:时间、商业线、地理位置、组织单位、所有上述标准。2019/12/29192.3数据仓库数据组织:星型模型数据仓库一般采用星型模型和雪花模型来描述系统结构。通过“维表——事实表”构造关系型数据仓库。事实表:订单号销售员号客户号产品号日期地区名称数量总价产品表:产品号产品名称规格产品类别单价日期表:日期日周月季年地区表:地区名称省别销售员表:销售员号销售员名城市客户表:客户号客户名称客户地址订货表:订单号订货日期2019/12/29202.3数据仓库数据组织:雪花模型事实表:订单号销售员号客户号产品号日期地区名称数量总价产品表:产品号产品名称规格产品类别单价日期表:日期日月地区表:地区名称省别销售员表:销售员号销售员姓名城市客户表:客户号客户名称客户地址订货表:订单号订货日期产品类别:产品类别类别描述月表:月年省表:省别2019/12/29212.4数据仓库需要的DB技术1.高性能数据库服务器分析型应用涉及的数据量大,查询要求复杂,为了能较快地获得分析结果,因此,需要高性能的DBMS核心的支持,要求DBMS必须具有良好的查询优化机制。2.并行数据库技术数据仓库可谓是超大规模数据库(VLDB),通常是GB甚至TB级的,而且随着时间延长,新数据还会不断进入。并行数据库技术是存储和管理VLDB,并提供对VLDB复杂查询处理的有效技术。3.数据库互操作技术2019/12/29223.数据仓库的设计数据仓库设计与传统的数据库设计有很大不同。数据仓库主要为数据分析服务,因此有时为了获得更好的分析效果,往往需要增加数据冗余,重复地保存一些经过计算就可得到的数据项。3.1数据仓库开发的生命周期3.2数据仓库设计步骤2019/12/29233.1数据仓库开发的生命周期不同与数据库开发的生命周期。数据仓库开发的生命周期受数据驱动,在开发数据仓库之前,用户需求不可预知,用户并不完全知道他们能从数据仓库中得到什么。因此,开发过程是先实现数据仓库的一部分,然后经集成数据、检验偏差、针对数据编程、设计DSS系统、分析结果、理解需求而成。2019/12/29243.2数据仓库设计步骤建立数据仓库包括5个方面工作:规划、任务和环境的评估、需求的搜集和分析、构造数据仓库、数据仓库技术的培训、数据仓库工程回顾。规划完成后,建立数据仓库首先应为数据仓库选择不同的主题。典型主题包括:顾客、产品、事务或活动、保险单、索赔、帐目等。建立数据仓库可从第一个主题开始,先围绕第一个主题组织数据,实施应用,然后再逐步深入,反复开发。第1天到第n天现象描述建立DW的具体过程。2019/12/29254.OLAP与数据仓库数据仓库中的数据分析工具主要包括:联机分析处理(On-LineAnalyticalProcessing,OLAP)工具和数据挖掘(DataMining,DM)工具。4.1OLTP系统4.2OLAP系统4.3多维数据视图和多维数据库4.4将OLTP数据转换到OLAP数据仓库4.5数据转换和数据仓库组件2019/12/29264.1OLTP系统OLTP系统基于计算机并记录企业的业务事务。OLTP个别事务处理能够很快地完成,并且只需访问相对较少的数据。OLTP系统旨在处理同时输入的成百上千的事务。C/S,B/S2019/12/29274.2OLAP系统联机分析处理(OLAP)系统是一种旨在处理发现趋势和关键因素所需的查询的系统。E.F.Codd于1992年最早提出了OLAP概念。OLAP可简明地理解为共享多维信息的快速分析。特点:快速性、可分析性、共享性、多维性和信息性。OLAP工具分三类:第一类是基于多维数据库的(MOLAP)第二类是基于关系数据库的(ROLAP)第三类是将MOLAP和ROLAP结合起来,称为混合的OLAP(hybridOLAP,HOLAP)。埃德加·弗兰克·科德(EdgarFrankCodd,1923-2003)是密执安大学哲学博士,IBM公司研究员,被誉为“关系数据库之父”,并因为在数据库管理系统的理论和实践方面的杰出贡献于1981年获图灵奖。1970年,科德发表题为“大型共享数据库的关系模型”的论文,文中首次提出了数据库的关系模型。2019/12/29284.3多维数据视图和多维数据库OLAP一般利用多维数据视图和多维数据库,以多维的形式组织数据,使分析方法和数据结构相分离,分析方法更加灵活。多维数据库是以多维方式来组织数据,立方体、维、层次和量度是OLAP多维导航的实质。维是人们观察现实世界的角度,决策分析需要从不同的角度观察分析数据。度量值是多维数据集的基本单元,也是所分析数据的组成单元。每个维度被划分为称为成员的单元。维度的成员通常被组织到层次结构中。2019/12/29294.4将OLTP数据转换到OLAP数据仓库经过三个阶段:(1)将数据从OLTP或遗留数据源析取到中间存储区域中。(2)将数据转换为更适合在OLAP系统中使用的格式,进行数据清理和聚合等操作。(3)将数据装载到数据仓库或数据
本文标题:数据仓库技术
链接地址:https://www.777doc.com/doc-2332161 .html