您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 工作范文 > 第三章联机分析处理.
《数据仓库与数据挖掘》主讲:王名扬信息与计算机工程学院2引言仅仅把数据存储在数据仓库之中,利用一定的方法对其安全有效的管理,并不是用户的最终目的。建立数据仓库的目的,是要为决策提供必要的支持。为此,必须使用适当的技术和工具,对数据仓库中的数据进行分析,以实现最终的决策支持目标。OLAP是一门比较成熟的分析技术,在数据仓库领域中应用最广。3.1OLAP概述3.2OLAP的分析方法3.3OLAP的数据组织第3章4学习目的理解OLAP与DW、OLTP的关系。掌握OLAP的分析方法;了解OLAP的数据组织方式。3.1OLAP概述OLAP的基本概念?几个关系?OLAP的特性?1.OLAP的基本概念?OLAP的发展背景60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需求,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需求对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。7什么是OLAP?定义1:OLAP是针对特定问题的联机数据访问和分析处理。通过对信息的多种可能形式进行快速、稳定、一致的交互式存取,允许决策制定者对数据进行深入的观察。定义2:OLAP是一种软技术,它使分析人员能迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。OLAP的目标是满足决策支持或多维环境下特定的查询和报表需求,其技术核心是“维”这一概念,因此OLAP也可以说是多维数据分析工具的集合。82.几个关系?101)OLAP与DW?数据仓库和OLAP都是20世纪90年代初提出的概念,到90年代中期已形成潮流。数据仓库是市场竞争的产物,其目标是进行有效的数据分析,为决策者提供支持。随着数据仓库的发展,OLAP也得到了迅速的发展。虽然数据仓库和联机分析处理,这两个术语有时可互换,但他们却适用于通常称为DSS或业务智能系统的不同组件。OLAP与DW?111)OLAP与DW?数据仓库侧重于存储和管理面向主题的数据;而OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策的信息。OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织管理正好形成相互结合、相互补充的关系。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。121)OLAP与DW?OLAP与DW的关系132)OLAP与OLTPOLTP(On-LineTransactionProcessing):是传统的关系型数据库的主要应用,包括记录实时的增、删、改、查,主要是面向基本的、日常的事务处理,如银行交易。OLAP(On-LineAnalyticalProcessing):是数据仓库的主要应用,支持复杂的分析操作,侧重决策支持,并提供直观易懂的查询结果。OLTPvs.OLAP14OLAP&OLTP的主要区别(1)15OLAP&OLTP的主要区别(2)163.OLAP的特性?OLAP特性快速性-用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。可分析性-OLAP系统应能处理与应用有关的任何逻辑分析和统计分析18OLAP特性多维性-多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性-不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。19切片(Slice)从多维数组选定一个二维子集,切出一个“平面”切块(Dice)从多维数组选定一个三维子集,切出一个“立方体”旋转(Rotate)改变一个报告(或页面)显示的维方向钻取(Drill)根据维层次,改变数据的粒度203.2OLAP的分析方法相关基本概念维:是人们观察数据的特定角度,是考察问题时的一类属性,属性集合构成一个维(时间维、地理维等)。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)多维数组:维和变量的组合表示。一个多维数组可以表示为(维1,维2,…,维n,变量)。(时间,地区,产品,销售额)数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,¥10000)21(1)切片与切块1)切片:定义1:在多维数组的某一维上选定一个维成员,即从n维数组选取n-1维子集.(降维操作)设多维数组(维1,维2,…,维n,变量),在维i上,选定维成员Vi,则:多维数组的n-1维子集:(维1,…,维i-1,维成员Vi,维i+1,…,维n,变量)为在维i上的一个切片。22切片举例(Ⅰ)23注:多维数组(地区、时间、产品、销售额)若在时间维上选定维成员“1997年11月”得到时间维上的切片(地区、“1997年11月”、产品、销售额)切片的定义(Ⅱ)定义2:选择多维数组的一个二维子集。设多维数组(维1,维2,…,维n,变量),除维i,维j外,每个维都取定一个维成员Vk(1≦k≦n且k≠i,k≠j),则:多维数组的二维子集:(V1,…,Vi-1,维i,Vi+1,…,Vj-1,维j,Vj+1,…,Vn,变量),简单表示为(维i,维j,变量)为维i和维j上的一个切片。按定义2进行切片,所得切片是一个二维“平面”(其它维的维成员都已确定)。二维“平面”易想象,易观察。24切片举例(Ⅱ)多维数组:(地区、时间、产品、销售渠道、销售额)选取地区维与产品维,其它维选定维成员:时间:1997年1月,销售渠道:零售得:(地区、“1997年1月”,产品,“零售”,销售额)即为:1997年1月零售的产品销售情况(各地区各种产品的销售额)252)切块定义1在多维数组的某一维上选定某一区间的维成员,即限制某一维的取值区间。切片是切块的特例,即限制的取值区间只取一个维成员切块可看作由多个邻接的切片迭合而成例如:多维数组(地区,时间,产品,销售额),在时间维上选定一区间:“1997年1月至1997年10月”得(地区,“1997年1月至1997年10月”,产品,销售额)为一切块。26(1)切片与切块切块的定义(Ⅱ)定义2选定多维数组的一个三维子集。设多维数组(维1,维2,…,维n,变量),选定三个维:维i,维j,维k,(该三个维上可取任意维成员或某一空间),其他维上都取定一个维成员,得:(维i,维j,维k,变量)为一个切块。27切片和切块在一个或多个维度上的投影操作2829(2)钻取钻取包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。钻取的深度与维所划分的层次相对应。下钻:从汇总数据深入到细节数据进行观察或增加新维。上钻:在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。30钻取(3)旋转旋转:改变一个报告或页面显示的内容31旋转的含义(续Ⅰ)32旋转的含义(续Ⅱ)333.3OLAP数据组织RelationalOLAP(ROLAP)※利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理※具有良好的可扩展性MultidimensionalOLAP(MOLAP)※利用多维数据库来存放和管理基本数据和聚合数据※对预综合的数据进行快速索引HybridOLAP(HOLAP)※利用关系数据库来存储和管理基本数据,利用多维数据库来存储和管理聚合数据。34多维数据的组织存放(细节数据)35MDB方法的优点(细节数据)清晰简明,占用存储少性能好,尤其像“冰箱销售总量是多少?”的查询RDB方法:找出有关“冰箱”的记录,再对销售量求和MDB方法:找到有关“冰箱”的行,按行求和36多维数据的组织存放(综合数据)RDB中的数据组织37多维数据的组织存放(综合数据)38MDB方法的优点(综合数据)多维概念表达清晰,占用存储少对数据进行综合的速度快(只需按行/列累加)在RDB中,“总和”作为某个域上的取值(属性值)与列定义语义不符3940在OLAP中有时需要使用多种综合层次的数据,由于多维表本身就是按照维组织的,因此,只需对多维表中的横向条目相加即可。而如使用关系表进行求和,则会大大增加系统的响应时间。使用多维表能极大节约OLAP进行数据统计的时间,从而提高系统的响应速度。多维数据的存取(事实的提取)通过事实表和维表的连接操作来完成41421.OLAP与DW、OLTP的关系。2.OLAP常用的分析方法。复习与思考问题
本文标题:第三章联机分析处理.
链接地址:https://www.777doc.com/doc-2122204 .html