您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第1章 数据仓库的概念与体系结构
2019/8/1数据仓库与数据挖掘1第1章数据仓库的概念与体系结构2019/8/1数据仓库与数据挖掘21.1数据仓库的概念、特点与组成数据仓库的概念数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)2019/8/1数据仓库与数据挖掘31.1数据仓库的概念、特点与组成数据仓库的特点:面向主题;集成的;相对稳定的;反映历史变化。2019/8/1数据仓库与数据挖掘42019/8/1数据仓库与数据挖掘5数据库与数据仓库的比较数据库数据仓库细节的综合或提炼的在存取时准确的代表过去的数据可更新的不更新一次操作数据量小一次操作数据量大面向应用面向分析支持管理支持决策2019/8/1数据仓库与数据挖掘61.1数据仓库的概念、特点与组成数据仓库的组成:数据仓库数据库;数据抽取工具;元数据:技术元数据与业务元数据;访问工具;数据集市(DataMarts);数据仓库管理;信息发布系统。2019/8/1数据仓库与数据挖掘71.2数据挖掘的概念与方法数据挖掘的概念数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)2019/8/1数据仓库与数据挖掘81.2数据挖掘的概念与方法数据挖掘的方法:直接数据挖掘间接数据挖掘。2019/8/1数据仓库与数据挖掘91.2数据挖掘的概念与方法数据仓库与数据挖掘的关系若将数据仓库(DataWarehouse)比作矿井,那么数据挖掘(DataMining)就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术2019/8/1数据仓库与数据挖掘101.3数据仓库的技术、方法与产品联机事务处理(OLTP)与联机分析处理(OLAP)的比较;OLTPOLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动2019/8/1数据仓库与数据挖掘11OLAP技术的有关概念:多维数据集、维度、数据立方体、度量值和多维分析;1.多维数据集是数据的集合(多维数组)多维数据集是决策支持的依据,也是OLAP的核心。OLAP展现的结果是一幅幅多维视图。多维数据集可以用一个多维数组表示。例如经典的时间、地理位置和产品的多维数据集可以表示为:(时间,地理位置,产品,销售数据),类似地,其它多维数据集可表示为:(维1,维2,维3,……,维n,观察变量)形式。2019/8/1数据仓库与数据挖掘12数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要选择一个对决策支持活动有重要影响的因素去进行决策分析,这些决策因素就构成了分析问题的角度,这些分析角度就是数据仓库中的维度。从而构成了三维、多维空间。维度是数据仓库中识别数据的索引。维度具有层次性。可以根据数据的组织层次进行“上卷”或“下钻”,了解具体信息。2.维度维是人们观察数据的特定角度2019/8/1数据仓库与数据挖掘133.数据立方体从不同角度对同一数据进行观察得到的数据交点,构成了数据立方体。当观察的角度(参数)超过三个所构成的数据结果集称为超立方体,也称为超维数据集。商品城市日期牛奶浴巾毛巾可乐果汁4321北京上海长沙广州武汉商品、城市、日期维工业国家年商品市日类别省月2019/8/1数据仓库与数据挖掘144.度量值是多维数据集的核心值。是最终用户在数据仓库应用中所需要查看的数据。如:销售量、成本、费用等。2019/8/1数据仓库与数据挖掘155.多维分析OLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析数据。使用户能从多个角度、多个侧面去观察数据仓库中的数据。CT?2019/8/1数据仓库与数据挖掘16(1)多维的切片在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作,就可以称之为切片。有多维数据集(维1,维2,……,维i,……,维n,观察变量),如果确定了某个维成员维i的值,则称:在维i上的一个切片为(维1,维2,……,维i成员,……,维n,观察变量)。一个多维数组的切片最终是由该数组中除切片所在平面之外的其他成员值确定的。维是观察数据的角度,切片的作用或结果是舍弃一些观察角度,以便集中观察该维的数据。2019/8/1数据仓库与数据挖掘17产品北京上海化妆品江苏玩具服装电器1234时间(月)销售数量:10000服装切片2019/8/1数据仓库与数据挖掘18(2)多维的切块与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作称为切块。如有多维数据集(维1,维2,……,维i,……,维k,……,维n,观察变量),对维i,……,维k,选定了维成员,那么(维1,维2,……,维i成员,……,维k成员,……,维n,观察变量)就是多维数据集(维1,维2,……,维i,……,维k,……,维n,观察变量)在维i,……,维k上的一个切块。2019/8/1数据仓库与数据挖掘19(3)旋转改变多维数据集显示的维方向。旋转前的维方向2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962942019/8/1数据仓库与数据挖掘20旋转后的维方向(不同维度间的旋转操作)北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度56139693季度2397624季度5582942002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962942019/8/1数据仓库与数据挖掘21旋转后的维方向(维度层次上的旋转操作)2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市67735996736962941季度2季度3季度4季度20022003200220032002200320022003北京市123134565645236655上海市13410210313998978782天津市67737369596296942019/8/1数据仓库与数据挖掘22(4)其它OLAP操作维度是有层次性的,如时间维可能由:年、季、月、日构成,维度的层次反映了数据的综合程度。维度层次越高、代表的数据综合度越高,数据量越少。维度层次越低、代表的数据综合度越低,细节越充分,数据量越多。有关操作:“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等。2019/8/1数据仓库与数据挖掘23“上卷”是指沿某一个维的概念分层向上归约;下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;“钻过”是指对多个事实表进行查询;“钻透”是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。2019/8/1数据仓库与数据挖掘24OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。表1(单位:万美元)部门销售部门190部门260部门3802004年部门1季度2季度3季度4季度部门120203515部门22551515部门320151827上卷下钻2019/8/1数据仓库与数据挖掘25OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAPMOLAP是以多维数据库的方式组织存储数据ROLAP是利用现有的关系数据库技术来模拟多维数据。HOLAP是一混合模式,对于常用的维度和维层次,使用多维数据表来记录,对于用户不常用的维度和数据,采用类似ROLAP星型结构来存储。2019/8/1数据仓库与数据挖掘261.ROLAP体系结构OLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择地定义一批实视图作为表也存储在关系数据库中。不必要将每一个sql查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。Database服务器前端工具ROLAP服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果2019/8/1数据仓库与数据挖掘272.MOLAP体系结构将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(physicalolap)。Database服务器前端工具MOLAP服务器MetadataRequestProcessingSQL查询查询结果用户请求查询结果Load2019/8/1数据仓库与数据挖掘283.HOLAP体系结构由于molap和rolap有着各自的优点和缺点,且它们的结构迥然不同,这给分析人员设计olap结构提出了难题。为此一个新的olap结构——混合型olap(holap)被提出,它能把molap和rolap两种结构的优点结合起来。迄今为止,对holap还没有一个正式的定义。但很明显,holap结构不应该是molap与rolap结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。Database服务器前端工具MOLAP服务器SQL查询查询结果用户请求查询结果LoadSQL查询查询结果OR2019/8/1数据仓库与数据挖掘29OLAP工具2019/8/1数据仓库与数据挖掘301.3数据仓库的技术、方法与产品数据仓库实施中的三个关键环节数据抽取;数据存储与管理数据表现2019/8/1数据仓库与数据挖掘31从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1数据仓库的概念结构2019/8/1数据仓库与数据挖掘32数据准备区的工作:ETL(extract/transformation/load)数据抽取数据清洗数据转换数据装载数据抽取、转换、装载2019/8/1数据仓库与数据挖掘331.3数据仓库的技术、方法与产品数据仓库实施方法论数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败。2019/8/1数据仓库与数据挖掘341.3数据仓库的技术、方法与产品常用数据仓库产品比较常用OLAP工具介绍;各数据仓库厂商提供的解决方案IBM、Oracle、NCR、Microsoft、SAS等2019/8/1数据仓库与数据挖掘351.4数据仓库系统的体系结构数据仓库系统的体系结构的分类(1)两层架构(GenericTwo-LevelArchitecture)。(2)独立型数据集市(IndependentDataMart)。(3)依赖型数据集市和操作型数据存储(DependentDataMartandOperationalDataStore)。(4)逻辑型数据集市和实时数据仓库(Lo
本文标题:第1章 数据仓库的概念与体系结构
链接地址:https://www.777doc.com/doc-27963 .html