您好,欢迎访问三七文档
数据仓库,联机分析处理,数据挖掘DataWarehousing,OLAP,andDataMining第13章数据仓库•数据仓库的特征–数据仓库将来自于不同数据库的信息结合在一起–数据仓库是多维的•包含若干层的行列•数据字典:信息的逻辑结构、信息的来源和处理方式–数据仓库支持决策而不是事务处理•联机分析处理(OLAP)•联机事务处理(OLTP)数据仓库的特征•面向主题——数据仓库中的数据按照主题进行组织;•集成——从多个数据源将数据集合到数据仓库中,并集成为一个整体;•稳定——数据仓库中的数据通常是历史数据,很少进行更新;•时变——数据仓库中的所有数据都有特定的时间标识.面向主题--数据按照主题进行组织数据仓库操作型环境顾客保险费保险单索赔健康人寿汽车意外伤亡主题应用在数据仓库中,主要主题领域是以一组相关的表来具体实现的。一个顾客的所有表通过一个公共键码联系起来。公共键码顾客标识号(customerID)将在顾客主题领域中所找到的所有数据联系起来集成--多个数据源的数据集合成为一个整体稳定——数据仓库中的数据通常是历史数据插入删除修改访问载入访问操作型环境数据仓库时变——所有数据都有特定的时间标识时间期限:30~90天;记录更新;键码结构包括时间元素/也可能不包括时间元素时间期限:5~10年;复杂的数据快照;键码结构包括时间元素操作型环境数据仓库数据仓库与数据库的区别对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位数据仓库的结构数据仓库的引出1.传统数据库以及OLTP(On-LineTransactionProcessing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。2.因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。3.为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(DataWarehose)。数据仓库的定义与基本特性•1.数据仓库的定义WilliamH.Inmon在1993年所写的论著《BuildingtheDataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。•2.数据仓库的重要特性a)subject-oriented(面向主题性)面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。•数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。b)integrated(数据集成性)数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。•也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。•源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。•数据仓库的时变性,就是数据应该随着时间的推移而变化。c)time-variant数据的时变性•尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10前的数据进行决策分析,那决策所带来的后果将是十分可怕的。•因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。例如,如果分析企业近几年的销售情况,那快照可以每隔一个月生成一次;如果分析一个月的畅销产品,那快照生成间隔就需要每天一次。d)non-volatile数据的非易失性•数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。e)insupportofmanagementdecisions支持决策系统•数据仓库的组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量。•企业管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据发现众多的商机。数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。•尽管OLTP系统和数据仓库有着许多不同的特性且基本构建思想不同,但是他们却是紧密联系的,因为OLTP系统是数据仓库的数据来源。•OLTP系统并不是为了快速回答查询,也不是为了存储分析趋势的历史数据而创建的。一般的,OLTP提供了大量的原始数据,这些数据不易被分析。•数据仓库需要回答更复杂的查询,而不仅仅使一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。•数据仓库需要回答的查询类型可以是简单的查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。•DreamHome数据仓库的示例支持以下查询:2001年第三季度,整个英格兰的总收入是多少?2000年英国每一类房产销售的总收入是多少?2001年租借房产业务中每个城市哪个地域最受欢迎?与过去的两年相比有何不同?每个分支机构本月的房产销售月收入是多少,并与刚过去的12个月相比较。如果对于10万英镑以上的房产,法定价格上升3.5%而政府税收下降1.5%,对英国不同区域的销售会产生什么影响?在英国主要城市中,哪种类型的房产销售价格高于平均房产销售价格?这与人口统计数据有何联系?数据仓库的一个案例•啤酒与尿布的故事某大型超市发现每到周末,啤酒与尿布的销量就会同时大增,这是什么原因呢?经过研究人员分析发现,原来家里的太太们让丈夫们去超市给孩子买尿布,而丈夫们在买尿布的时候往往顺便买上几瓶啤酒回去喝。这样就产生了这个比较奇怪的现象。沃尔玛早年利用NCR数据仓库技术,对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛利用NCR自动数据挖掘工具(模式识别软件)对一年多详细的原始交易数据进行分析和挖掘。一个意外的发现就是:跟尿布一起购买最多的商品竟是啤酒!沃尔玛就在它的一个个商店里将它们并排摆放在一起,结果是尿布与啤酒的销售量双双增长。来自美国俄亥俄州的NCR公司(纽约证券交易所股票代码为NCR)是全球领先的信息技术公司之一,为全球超过130个国家提供零售解决方案,业务涵盖食品店、药店、综合性商场、超市、连锁店及餐饮业等市场,2001年总收益达59.17亿美元。世界十大零售商中,就有六家应用NCR提供的零售业全面解决方案。数据仓库的体系结构数据源数据仓库(核心)工具和接口•为了提高性能,数据仓库中通常采用下列措施:–(1)采用并行系统结构。–(2)对数据仓库中用得多、开销大的处理,例如聚集函数计算,采用新的查询优化策略和索引结构。–(3)针对数据仓库以读为主的特点,把查询中常用的中间结果定义为视图,且将事先计算好的视图存于数据仓库中。在需要的时候只要读出即可,无需临时计算。–为了决策者方便地在数据仓库上决策数据仓库还应该提供相应的用户接口和各种工具软件。•从图13-1可以看出,数据仓库要求多项技术的支持,大致可分为五个方面:–(1)异构多数据源集成技术。–(2)RDBMS对数据仓库的支撑技术,包括OLAP和并行处理等技术。–(3)硬件系统,包括并行处理结构、大容量磁盘阵列系统等。–(4)数据模式设计,包括对决策主题的需求分析、基表和实现图的模式设计、各种索引的合理配置等。–(5)决策用的工具和接口软件。•操作型数据•加载管理器:执行所有与提取和装载数据到数据仓库的有关操作。•仓库管理器:执行管理一个数据仓库数据所有的必要程序,它可以由一些外购的数据管理工具和针对特殊需要编写的程序组成。包括以下工作:1.数据分析以确保一致性2.将临时存储介质中的数据转换和合并后加载到数据仓库表中3.为基础表创建索引和视图4.依据需要,对数据进行弱规范化5.依据需要,生成聚集信息6.备份和归档数据•查询管理器:执行所有数据仓库中与查询工作相关的管理工作。•细节数据:数据仓库中存储了许多数据库模式中的细节数据•轻度和高度综合数据:数据仓库中存放了许多由仓库管理器产生的预定义的轻度或高度综合(聚集的)数据。•存储/备份数据:数据仓库中存储了用于备份和存档的许多细节和综合数据。尽管综合数据是从细节数据中产生的,但还是有必要备份这些综合数据,因为他们可能已经超过了细节数据的保持期。这些数据要转移到存储档案中,如磁盘或光盘上。•终端用户访问工具数据仓库的主要目的是为了给业务用户提供决策信息。这些用户通过终端用户访问工具与数据仓库交互。数据仓库必须有效地支持查询和例行分析。这些工具一般分为:a.报表和查询工具b.应用程序开发工具c.可执行信息系统工具d.联机分析处理工具e.数据挖掘工具数据仓库概念模型•(1)概念数据模型•在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的企业数据模型——ER图(ERD)。这是一种描述组织业务概况的蓝图,包括整个组织系统中各个部门的业务处理及其业务处理数据。•数据仓库与操作型数据库一样,也存在高层模型(ERD,实体关系层)、中层模型(DIS,逻辑层)和低层模型(物理层)3个层次数据模型。企业数据模型财务部门销售收入帐应收帐应付帐成本帐销售部门销售计划销售合同销售统计人事部门员工业绩记录员工技能情况员工薪酬表财务人事销售…….……..…..企业数据模型•(2)星型数据模型•ER数据模型作为一种数据仓库的设计基础,在实际应用中存在很多缺点。•实际应用中,数据仓库的实体绝不会是对等的。•星型数据模型是最常用的数据仓库结构模式。•(3)雪花数据模型•雪花数据模型是对星型数据模型的扩展。星型数据模型结构图维度表维度表维度表维度表维度表事实表雪花型数据模型结构图维度表维度表维度表维度表维度表事实表详细类别表详细类别表数据仓库的逻辑模型与物理模型•1.数据仓库(中间层)逻辑模型•中间层数据模型亦可称为逻辑模型,它是对高层数据概念模型的细分,在高层数据模型中所标识的每个主题域或指标实体都需要与一个逻辑模型相对应。
本文标题:13__数据仓库
链接地址:https://www.777doc.com/doc-25674 .html