您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库与在线分析处理的概述与应用
数据仓库与在线分析处理的概述与应用摘要:随着计算机技术的广泛应用,企业每天都要产生大量的数据,如何从这些数据中提取对企业决策分析有用的信息,是企业决策管理人员所面临的一个难题。传统的数据库系统即联机事务处理系统(OnlineTransactionProcessing,简称OLTP),作为数据管理手段,主要用于事务处理,但它对分析处理的支持一直不能令人满意。因此,人们逐渐尝试对OLTP数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析。数据仓库和联机分析处理是决策支持系统的有机组成部分。数据仓库从分布在企业内部各处的OLTP数据库中提取数据并对所提取的数据进行预处理,为企业决策分析提供所需的数据;OLAP则利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。数据仓库(DataWarehouse)是信息的逻辑集合,这些信息来自于许多不同的业务数据库,并用于创建商业智能系统,以便支持企业的分析活动和决策活动,数据仓库表达了一种较以往企业中信息组织和管理方式截然不同的思维方法。它是一切商业智能系统的基础,如果没有数据仓库,或没有足够的信息量,则商业智能系统后续的汇总、分析和决策工作都是不可能实现的。数据仓库由数据仓库数据库、数据抽取工具、元数据、访问工具和数据集市组成。数据仓库具有以下特点:(1)数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。(2)数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。(3)数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。(4)数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。数据仓库会随时间的变化不断增加新的数据内容和删去过时的数据内容。当然,数据仓库通常还具有一些其它的特点,如数据仓库中的数据量很大、数据仓库对系统软硬件的要求较高等等。数据仓库的实际应用:自从Inmon首次提出数据仓库概念以后,数据仓库及其相关技术日益成熟,客观上带动了高性能和并行技术以及数据库中的知识发现等多领域的巨大进步。数据库技术的发展和激烈的市场竞争为解决DSS问题提供了可能,人们开始提出了以数据仓库为基础、OLAP和数据挖掘工具为手段的一整套可操作、可实施的解决方案。以数据仓库为核心的决策支持系统的结构如图所示。数据库数据仓库多维分析工具多维数据可视化DSS交互系统数据挖掘工具方法库模型库统计查询工具管理工具知识库数据提取共用数据接口图1基于数据仓库的决策支持系统的结构数据库、数据仓库和共用数据接口是系统的数据管理部分,构成了整个系统的核心和基础,为上层应用提供数据。方法库、模型库、知识库、数据挖掘工具、多维分析工具(OLAP工具)和统计查询工具共同构成了前端分析工具层,相互配合协调,完成用户的决策处理任务。管理工具主要完成系统的模型维护、数据仓库元数据管理、数据提取任务的管理等任务。在这种新的DSS构架中,数据仓库、OLAP、数据挖掘和数据可视化技术具有内在的统一性,很好地解决了相互之间的衔接问题。数据仓库为OLAP和数据挖掘提供充实可靠的数据,数据挖掘所发现的知识可以用于指导OLAP的多维分析,而OLAP分析得出的新知识也可以补充到系统的知识库中。这种新的DSS构架的重要意义在于重新揭示了信息的本质,表明了信息系统的设计观念从处理驱动到数据驱动的转变。过去的信息系统以大量复杂的处理过程和算法为特征,数据在这些处理中产生。而在未来的时代,信息的重点将转移到数据模式分析,信息处理技术将随数据分析处理的需求而不断进步。在线分析处理(On-LineAnalyticalProcessing,OLAP),是对多维数据进行分析的技术,是在数据仓库技术发展之后发展起来的一种新技术,这种技术侧重于把数据仓库中的数据进行分析,转换成辅助决策信息,与数据仓库侧重于存储和管理面向决策主题的数据,相互结合、相互补充。OLAP的特性1.快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。2.可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。3.多维性:多维性是OLAP的关键属性系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。4.信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。在线处理的具体应用:自90年代初E.F.Codd提出OLAP的概念以来,OLAP技术得到广泛应用,许多大的开发商纷纷推出自己的OLAP产品,从而推动OLAP技术的发展。当前OLAP技术与WEB技术以及数据挖掘技术相结合,产生OLAP的两个新的发展方向——WEBOLAP及OLAP+数据挖掘。WEBOLAP随着Internet技术的发展和网络的普及,人们对网络的应用有了新的认识,将WEB技术与OLAP结合,扩展了OLAP的应用范围,这成为OLAP发展的一个新方向,其结构如图3所示。图2WEBOLAP结构图客户通过WEBBrowser提交分析请求给WEBServer,WEBServer将用户的分析请求提交给应用服务器,在这过程中HTML语言被转化为SQL语句,应用服务器完成分析操作并将结果转给WEBServer,而后WEBServer将结果返回给用户。OLAP+数据挖掘数据挖掘是一种决策支持过程,它从大量的数据中提取隐含的、潜在的、以前未知的有用信息或模式。数据挖掘主要基于人工智能、机器学习、统计学、数据库等技术。数据挖掘通过分析大量的原始数据,作出归纳性的推理,挖掘出潜在的模式并预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确决策。OLAP和数据挖掘是相辅相成的,但它们的侧重点不同。OLAP侧重于与用户的交互V快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。从上面的论述我们可以看出,如果将OLAP与数据挖掘相结合将会发挥更好的效用,这是OLAP发展的又一个新方向。
本文标题:数据仓库与在线分析处理的概述与应用
链接地址:https://www.777doc.com/doc-5424776 .html