您好,欢迎访问三七文档
北理工珠海学院计算机科学技术学院第一讲数据仓库基础姓名:陈令江QQ:453579383电话:13570611456Email:chenlingjiang@gmail.com内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施问题什么是数据仓库?为什么要建数据仓库?建数据仓库能带来哪些好处?1.1什么是数据仓库数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策和信息的全局共享。——数据仓库之父[WilliamH.Inmon]1.1.1数据仓库特点(面向主题的)生产系统操作型数据库数据仓库操作型数据库是面向特殊处理任务,各个系统之间各自分离数据仓库是按照一定的主题域进行组织。一个主题通常与多个操作型信息系统相关销售系统财务系统客户1.1.2数据仓库特点(集成的)面向特定应用集成的每一个数据库面向特定的应用,各类应用(包括其相关的数据库)之间相互独立数据仓库中的数据面向整个企业的分析处理,经营分析系统中的数据是已经集成了的,消除了数据的不一致性操作型数据库数据仓库1.1.3数据仓库特点(相对稳定的)实时更新,数据根据需要及时发生变化定期加载,加载后的数据极少更新,在某个时间段内保持相对稳定操作型数据库数据仓库modifydeleteinsertupdateLoad/Update1.1.4数据仓库特点(反应历史变化的)主要关心当前数据通常包含历史数据操作型数据库数据仓库1.2对数据仓库系统的理解数据仓库系统用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库;数据仓库系统是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。1.3数据仓库的组成数据仓库数据库;数据抽取工具;OLAP服务器;元数据(Metadata);数据展现工具;数据集市(DataMarts);数据仓库管理;信息发布系统。1.3.1数据仓库数据库数据仓库数据库是整个数据仓库的核心,是数据信息存放的地方,对数据提供存取和检索支持。相对于传统数据库来说,其突出的特点是对海量数据的支持和快速的检索技术。数据库OracleDB2SQLServerSybaseMySQL……数据库内部性能参数有一些差异:传统数据库:注重增、删、改、查的综合性能。数据仓库:以查询、统计性能为优先重点。1.3.2数据抽取工具数据抽取工具是把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据的存储方式的访问能力是数据抽取工具的关键,可以运用高级语言编写的程序、操作系统脚本、批命令脚本或SQL脚本等方式,访问不同的数据环境。数据转换通常包括如下内容:•删除对决策分析没有意义的数据。•转换到统一的数据名称和定义。•计算统计和衍生数据。•填补缺失数据。•统一不同的数据定义方式。1.3.3OLAP服务器OLAP服务器是用于存储多“维”数据的,存储结构类似与立方体的结构,提供给用户快速的数据分析支持。1.3.4元数据元数据是描述数据仓库数据的结构和建立方法的数据,全面描述了数据仓库中有什么数据,这些数据是怎么得到,数据的来源是哪里等。简言之:元数据就是数据的数据。元数据分为技术元数据和业务元数据。技术元数据是面向设计和管理人员的,包括数据源信息、数据结构定义、数据转换规则等。业务元数据是面向业务使用人员的,主要是从业务的视角来描述业务主题。1.3.5数据展现工具数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘工具等。数据分析工具报表展现工具1.3.6数据集市数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘工具等。数据集市的划分有很多中,如•按照时间划分(07年、08年、09年等)•按照地域划分(广州、深圳、珠海等)•按照业务划分(生产、销售、财务等)•……1.3.7数据仓库管理数据仓库管理包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据的管理和更新、数据仓库使用状态的监测与审计、数据复制与删除、数据分割与分发、数据备份与恢复、数据存储管理等。数据仓库1.3.8信息发布系统信息发布系统是把数据仓库中的数据,或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是当前比较流行的多用户访问的最有效方法。数据仓库问题什么是数据仓库?为什么要建数据仓库?•数据集成问题•数据动态集成问题•历史数据问题•数据的综合问题建数据仓库能带来哪些好处?•公司领导层:了解公司全貌,辅助进行战略决策•中间管理层:掌控部门业务情况,协助制定管理策略•基层管理人员:掌握基层单位或个人绩效,实施有效管理内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施2.1什么是OLAPOLAP(OnlineAnalysisProcess)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。对OLAP的理解•OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。2.2OLAP基础概念(一)•维度(Dimension)人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。•量度(Measure)具体的指标值,如客户数、收入等•层次(Hierarchy)人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:年-季度-月份-日期)。•成员(Member)维的一个取值。是数据项在某维中位置的描述。2.2OLAP基础概念(二)多维分析多维分析是只对以“维”形式组织起来的数据(多维数据集)采取切片(slice)、切块(dice)、钻取(drilldown和drillup)和旋转(pivot)等各种分析操作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。2.3OLTP与OLAP的比较OLTPOLAP用户操作人员、基层管理人员决策人员、高级管理人员功能日常操作型事务处理分析决策设计目标面向应用面向主题数据特点当前的、最新的、细节的、二维的、分立的历史的、聚集的、维多的、集成的、统一的存取规模通常一次读或写数十条记录可能读取百万条以上记录工作单元一个事务一个复杂查询用户数通常是成千上万个用户可能只有几十个或上百的用户数据库大小通常在GB级(100MB~1GB)在TB级(100GB~100TB)2.4OLAP特性快速性用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。2.5OLAP类型ROLAP结构MOLAP结构ROLAP(RelationOLAP):关系型OLAP,数据存储在数据库中,查询方便灵活。MOLAP(Multi-dimensionOLAP):多维OLAP,数据采用立方体的方式,独立存储,查询效率高。HOLAP(HyperOLAP):混合型OLAP,也就是ROLAP和MOLAP的联合体。分为三种类型:ROLAP、MOLAP、HOLAPHOLAP结构2.6ROLTP与MOLAP的比较ROLTPMOLAP优点没有大小限制现有的关系数据库的技术可以沿用可以通过SQL实现详细数据与概要数据的存储现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等大大提高ROALP的速度性能好、响应速度快专为OLAP所设计持高性能的决策支持计算复杂的跨维计算多用户的读写操作行级的计算缺点一般比MDD响应速度慢不支持有关预计算的读写操作SQL无法完成部分计算无法完成多行的计算无法完成维之间的计算增加系统复杂度,增加系统培训与维护费用受操作系统平台中文件大小的限制,难以达到TB级(只能10~20G)需要进行预计算,可能导致数据爆炸无法支持维的动态变化缺乏数据模型和数据访问的标准内容1、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型3、数据仓库系统的体系结构5、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理数据仓库4、数据仓库的实施3.1数据仓库系统的体系结构独立的数据仓库体系结构独立的数据集市体系结构数据仓库+数据集市体系结构实时数据仓库体系结构3.2独立的数据仓库体系结构唯一的、企业级的数据仓库数据仓库DataWarehouse外部的内部的源数据系统(SourceDataSystems)数据集结区(DataStagingArea)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)转换(transform)输出到仓库(exporttoDW)抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT3.2独立的数据集市体系结构多个数据集市导致数据访问复杂性数据集市Datamart外部的内部的源数据系统(SourceDataSystems)数据集结区(DataStagingArea)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdimensions)转换(Transform)输出到数据集市(exporttoDM)抽取Extract抽取Extract抽取Extract抽取Extract清洗的维数据加载Load数据及元数据存储区(Data&MetadataStorageArea)数据展示:查询工具报表生成器终端用户应用建模与挖掘工具可视化工具填充Feed查询结果与挖掘结果终端用户表示工具(End-UserPresentationTools)ELT数据集市Datamart数据集市Datamart数据集市Datamart加载Load加载Load加载Load3.3数据仓库+数据集市体系结构企业级数据仓库外部的内部的源数据系统(SourceDataSystems)数据集结区(ODS:OperationalDataStore)数据存储:关系型的(relational)快速的(fast)处理过程:清洗(clean)调和(reconcile)导出(derive)匹配(match)合并(combine)消除重复(removedups)标准化(standardize)一致维(conformdim
本文标题:第一讲数据仓库基础
链接地址:https://www.777doc.com/doc-28067 .html