您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库与数据挖掘基础第2章OLAP(赵志升)XXXX修改
河北北方学院:赵志升数据仓库与数据挖掘DataWarehouseandDataMining4.1OLAP概念、特点与分类4.2OLAP的基本操作4.3OLAP的数据模型4.4基于多维数据库的OLAP(MOLAP)4.5基于关系数据库的OLAP(ROLAP)4.6OLAP实现4.7OLAP的衡量和特性第4章联机分析处理4.1OLAP的定义、特点OLAP(On-LineAnalysisProcessing)定义是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。联机分析处理。OLAP的主要特点一是在线性(OnLine),体现为对用户请求的快速响应和交互式操作;二是多维分析(Multi_Analysis),这是OLAP技术的核心所在。4.1OLAP的定义和特点Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。4.1OLAP的定义和特点整个数据(仓)库系统的工具层大致可以分为三类,或者说三个发展阶段:(1)以MIS为代表的查询、报表类工具(2)以OLAP为代表的验证型工具(3)以及以DM为代表的挖掘型工具4.1OLAP的分类OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。1.ROLAPROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。4.1OLAP的分类1.ROLAP存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用ROLAP存储模式,而不在关系数据库中创建聚合。同样,如果分区源数据存储在SQLServer2000中,而且满足特定条件,则将创建索引视图而不创建表。与MOLAP存储模式不同,ROLAP不会使源数据的复本存储起来;当结果无法从聚合或客户端高速缓存派生时,将访问分区的事实数据表以回答查询。在ROLAP存储模式下,查询响应一般较其它两种存储模式下要慢。ROLAP通常用于不经常查询的大数据集,如年份较早的历史数据。4.1OLAP的分类2.MOLAPMOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(PhysicalOLAP);而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)。4.1OLAP的分类2.MOLAPMOLAP存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上。根据分区定义为是本地分区还是远程分区,该计算机可以是定义分区的分析服务器计算机,或别的分析服务器计算机。用于存储分区数据的多维结构位于分析服务器Data文件夹的子文件夹中。由于分析服务器计算机上驻留有源数据的一个复本,所以即使查询结果无法从分区的聚合中获得,也可以不用访问分区的源数据而解决查询。根据分区聚合的百分比和设计,MOLAP存储模式为达到最快查询响应时间提供了潜在可能性。总而言之,MOLAP更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要。4.1OLAP的分类4.1OLAP的分类3.HOLAP由于MOLAP和ROLAP有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,这给分析人员设计OLAP结构提出了难题。为此一个新的OLAP结构——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP两种结构的优点结合起来。迄今为止,对HOLAP还没有一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。4.1OLAP的分类HOLAP存储模式结合了MOLAP和ROLAP二者的特性。同MOLAP一样,HOLAP使得分区的聚合按多维结构存储在分析服务器计算机上。HOLAP不会使源数据的复本存储起来。对于只访问包含于分区聚合中的汇总数据的查询,HOLAP与MOLAP特性相同。访问源数据的查询(例如深化至原子多维数据集单元,而该单元没有对应的聚合数据)必须从关系数据库中检索数据,并且将不如源数据存储在MOLAP结构中那样快速。按HOLAP存储的分区小于同一个按MOLAP存储的分区,而比ROLAP分区响应涉及汇总数据的查询要快。一般情况下,HOLAP存储模式适用于要求对基于大量源数据的汇总能够实现快速查询响应的多维数据集中的分区。4.1OLAP与OLTP的区别(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高;而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。OLAP与OLTP的不同OLTPOLAP使用者职员、IT人员知识工作者功能日常操作决策支持数据库设计面向应用的面向主题的数据特点当前的,更新的详细的,关系型的孤立的历史的,汇总的,多维的集成的,consolidated使用repetitivead-hoc存取方式读/写索引大量的扫描unitofwork简单的事务处理复杂的查询记录访问量几十上百万用户数量数以千计数以百计数据库规模100MB-GB100GB-TBOLAP与数据挖掘的比较相同之处OLAP与DM都是数据库(数据仓库)上的分析工具;不同之处(1)在实际应用中各有侧重。前者是验证型的,后者是挖掘型的;(2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。OLAP与数据挖掘的比较(3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长。OLAP与DM都是数据库(数据仓库)的分析工具,在实际应用中各有侧重:OLAP的在线性体现在与用户的交互和快速响应上,多维性则体现在它建立在多维视图的基础上。用户积极参与分析过程,动态地提出分析要求,选择分析算法,对数据进行由浅及深的分析。DM与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化。其中,自动化是指其分析过程不需要用户的参与。这是它的优点,也正是它的不足。因为在实际中,用户也希望参与到挖掘中来,如只想对数据的某一子集进行挖掘,以及对不同抽取、集成水平的数据进行挖掘,还有想根据自己的需要动态选择挖掘算法等等。由此可见,OLAP与DM各有所长,如果能将二者结合起来,发展一种建立在olap和数据仓库基础上的新的挖掘技术,将更能适应实际的需要。而OLAM(on-lineanalyticalmining或olapmining),正是这种结合的产物。OLAP与数据挖掘的结合—OLAM将OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,将更能适应实际的需要。OLAM(OnLineAnalyticalMining,联机分析挖掘)正是这种结合的产物。联机分析挖掘,又称为OLAPMining。它是联机分析处理技术与数据挖掘技术在数据库或数据仓库应用中的结合,是联机分析处理技术的新发展,也是近年来数据库领域的研究重点和热点。OLAM产生的原因OLAP与DM虽同为数据库或数据仓库的分析工具,但两者侧重点不同。同时,随着OLAP与DM技术的应用和发展,数据库领域在OLAP基础上对深层次分析的需求与人工智能领域中数据挖掘技术的融合最终促成了联机分析挖掘技术。OLAM产生的原因一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足:1)OLAP是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。2)OLAP分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。OLAM产生的原因另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点:1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。OLAM产生两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成。发展olam的原始驱动力有以下几点:(1)datamining工具需要的数据是一些经过净化、集成处理的数据,通常这种处理过程也是昂贵的;而dw(datawarehouse,数据仓库)作为olap的数据源,存储的就是这样的数据。它能为olap提供数据,当然也可以为dm提供数据。(2)dm是一项崭新的技术,很多人在研究它。围绕着它有许多工具或是体系结构。而dm作为数据分析工具的一种,不是孤立的,必然要与其他的工具发生联系。因此,考虑到如何最大限度地利用这些现成的工具,也是olam发展之初所关心的问题。(3)成功的数据挖掘需要对数据进行钻
本文标题:数据仓库与数据挖掘基础第2章OLAP(赵志升)XXXX修改
链接地址:https://www.777doc.com/doc-26922 .html