您好,欢迎访问三七文档
数据仓库小组成员:朱敏、崔文值、胡滨、张硕研主讲人:朱敏数据库的分家1.操作型数据库主要用于业务支撑。一个公司往往会使用并维护若干个数据库,这些数据库保存着公司的日常操作数据,比如商品购买、酒店预订、学生成绩录入等;2.分析型数据库主要用于历史数据分析。这类数据库作为公司的单独数据存储,负责利用历史数据对公司各主题域进行统计分析;1.数据组成差别-数据时间范围差别一般来讲,操作型数据库只会存放90天以内的数据,而分析型数据库存放的则是数年内的数据。这点也是将操作型数据和分析型数据进行物理分离的主要原因。2.数据组成差别-数据细节层次差别操作型数据库存放的主要是细节数据,而分析型数据库中虽然既有细节数据,又有汇总数据,但对于用户来说,重点关注的是汇总数据部分。操作型数据库中自然也有汇总需求,但汇总数据本身不存储而只存储其生成公式。这是因为操作型数据是动态变化的,因此汇总数据会在每次查询时动态生成。而对于分析型数据库来说,因为汇总数据比较稳定不会发生改变,而且其计算量也比较大(因为时间跨度大),因此它的汇总数据可考虑事先计算好,以避免重复计算。3.数据组成差别-数据时间表示差别操作型数据通常反映的是现实世界的当前状态;而分析型数据库既有当前状态,还有过去各时刻的快照,分析型数据库的使用者可以综合所有快照对各个历史阶段进行统计分析。4.技术差别-查询数据总量和查询频度差别操作型查询的数据量少而频率多,分析型查询则反过来,数据量大而频率少。要想同时实现这两种情况的配置优化是不可能的,这也是将两类数据库物理分隔的原因之一。5.技术差别-数据更新差别操作型数据库允许用户进行增,删,改,查;分析型数据库用户则只能进行查询。6.技术差别-数据冗余差别数据的意义是什么?就是减少数据冗余,避免更新异常。而如5所述,分析型数据库中没有更新操作。因此,减少数据冗余也就没那么重要了。7.功能差别-数据读者差别操作型数据库的使用者是业务环境内的各个角色,如用户,商家,进货商等;分析型数据库则只被少量用户用来做综合性决策。8.功能差别-数据定位差别这里说的定位,主要是指以何种目的组织起来。操作型数据库是为了支撑具体业务的,因此也被称为面向应用型数据库;分析型数据库则是针对各特定业务主题域的分析任务创建的,因此也被称为面向主题型数据库。数据仓库的定义:数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。面向分析的存储系统,或者叫做面向主题型数据库。数据仓库的特点1.面向主题(主要特点)面向主题特性是数据仓库和操作型数据库的根本区别。操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立。2.集成性集成性是指数据仓库会将不同源数据库中的数据汇总到一起。3.企业范围数据仓库内的数据是面向公司全局的。比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来。4.历史性较之操作型数据库,数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年。5.时变性时变性是指数据仓库包含来自其时间范围不同时间段的数据快照。有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告。数据仓库与数据库的联系与区别不同二者的联系:数据仓库的出现,并不是要取代数据库。大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。■二者的区别:■1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。■2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。■3、设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。■4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计,■5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。■6、容量不同:数据库在基本容量上要比数据仓库小的多。■7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。数据仓库的组成■数据库■数据抽取工具■元数据■访问工具■数据集市■数据仓库管理工具■信息发布系统数据仓库数据库数据仓库系统中的数据库是整个数据仓库系统的核心,是数据信息存放的地方,对数据提供存取和检索支持。相对于传统数据库来说,它突出的特点是对海量数据的支持和快速的检索技术。数据抽取工具数据抽取工具把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库中。对各种不同的数据存储方式的访问能力是数据抽取工具的关键,数据转换通常包括:■删除对决策分析没有意义的数据■转换成统一的数据名称和定义■计算统计和衍生数据■填补缺失数据■统一不同的数据定义方式元数据–元数据是描述数据仓库内数据的结构和建立方法的数据。元数据(Metadata)是描述数据的数据。–在关系数据库中,数据是存放在表中的,表结构的定义、关于结构的描述就是元数据。在数据仓库中,元数据就是定义数据仓库对象的数据。–元数据分为:■技术元数据■业务元数据技术元数据–技术元数据是系统的开发和管理人员使用的、描述数据的技术细节的元数据。主要包括:–数据仓库结构的描述■仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容–操作元数据■包括数据血统(datalineage)、数据类别(currencyofdata),以及监视信息–汇总用的算法–由操作环境到数据仓库的映射–关于系统性能的数据■索引,数据刷新、更新或复制事件的调度和定时数据仓库的组成■业务元数据(商务元数据)–从业务角度描述了系统中的数据,是介于使用者和真实系统之间的语义层,使得不懂计算机技术的业务人员也能够“理解”系统中的数据。–业务元数据主要包括:■用户的业务术语和它们表达的数据模型信息■对象名称及其属性■数据的来源信息和数据访问的规则信息。■商务术语和定义、数据拥有者信息、收费政策等元数据的作用–元数据与数据一起,构成了数据仓库中的数据模型,元数据所描述的更多的是这个模型的结构方面的信息。–在数据仓库中,元数据的主要用途包括:■用作目录,帮助决策支持系统分析者对数据仓库的内容定义■作为数据仓库和操作性数据库之间进行数据转换时的映射标准■帮助业务人员和技术人员更好地理解当前业务和系统数据■提高系统的管理效率。■便于系统集成和可重用访问工具■访问工具–访问工具是为用户访问数据仓库提供手段,如数据查询和报表、应用开发工具、数据挖掘工具和数据分析工具。数据集市■数据集市(DataMart),也叫数据市场。–数据集市是企业级数据仓库的一个子集,是为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。–在分析、内容、表现,以及易用性方面迎合专业用户群体的特殊需求。–在数据仓库的实施过程中,通常可以从一个部分的数据集市着手,再逐渐用几个数据集市组成一个完整的数据仓库(自底向上)。数据仓库的组成■数据仓库管理–数据仓库管理包括安全与权限管理、数据更新跟踪、数据质量检查、元数据的管理与更新、数据仓库使用状态的检测与审计、数据复制与删除、数据分割与分发、数据备份与恢复、数据存储管理等。■信息发布系统–信息发布系统是把数据仓库中的数据或其他相关的数据发送给不同的地点和用户。基于Web的信息发布系统是当前流行的多用户访问的最有效方法。典型的数据仓库系统结构■从系统构建方面来说,一个典型的数据仓库系统通常划分成四个模块:–数据源–数据存储和管理(数据仓库服务器)–OLAP服务器–前端工具与应用数据仓库架构数据仓库提取清理转换装入刷新OLAP服务器查询报告分析数据挖掘监控、整合元数据存储数据源前端工具输出数据集市操作数据库其他外部信息源数据存储和管理OLAP服务器数据源■数据源是数据仓库系统的基础,即系统的数据来源,通常包含企事业单位的各种内部信息和外部信息。–内部信息,例如存于操作型数据库中的各种业务数据和办公自动化系统中包含的各类文档数据;–外部数据,例如各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及其它有关文档等。数据的存储与管理■数据的存储与管理是整个数据仓库系统的核心。■存储–在现有各业务系统的基础上,对数据进行抽取、清理、并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库的元数据(包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。■管理–对数据仓库系统的管理也就是对其相应数据库系统的管理,通常包括数据的安全、归档、备份、恢复等维护工作。OLAP服务器■OLAP(联机分析处理)是针对某个特定的主题进行联机数据访问、处理、分析,通过直观的方式,从多个维度、多种数据综合度进行分析,并将结果呈现给使用者。■OLAP让使用者能够从多角度对信息进行快速、一致、交互地存取。前端工具与应用■前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具(例如关联分析、分类、预测等)以及各种基于数据仓库或数据集市开发的应用。■其中:–数据分析工具主要针对OLAP服务器–报表工具、数据挖掘工具既可以用于数据仓库,也可针对OLAP服务器ETL简介■数据从源系统加载到数据库仓库之前,需要进行抽取E(Extract)、清洗C(cleaning)、转换T(transform),最后加载L(load),这就是ETL过程。■抽取和加载通常是定期的,每天、每周、或者每月,根据数据仓库面向的主题而定。■ETL过程是一个数据流动的过程,中间的“T”(转换)是关键数据仓库系统的体系结构数据仓库系统的体系结构根据应用需求的不同,可以分为四种类型:(1)两层架构(GenericTwo-LevelArchitecture)。(2)独立型数据集市(IndependentDataMart)。(3)依赖型数据集市和操作型数据存储(DependentDataMartandOperationalDataStore)。(4)逻辑型数据集市和实时数据仓库(LogicalDataMartandReal-TimeDataWarehouse)。从体系结构的角度去看,数据仓库模型可以有以下三种:–企业仓库■搜集关于跨越整个组织的主题的所有信息–数据集市■企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市–独立的数据集市VS.非独立的数据集市(数据来自于企业数据仓库)–虚拟仓库■操作数据库上的一系列视图■只有一些可能的汇总视图被物化独立的数据仓库系统(企业数据仓库)唯一的、企业级的数据仓库数据仓库DataWarehouse外部的内部的源数据系统(SourceDataSystems)数据集结区(DataStagingArea)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)转换(transform)输出到仓库(exporttoDW)抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT基于独立数据集市的数据仓库系统多个数据集市导致数据访问复杂性数据集市Datamart外部的内部的源数据系统(SourceDataSystems
本文标题:数据仓库_2
链接地址:https://www.777doc.com/doc-26828 .html