您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > ch04数据仓库与OLAP技术
1DataMining:ConceptsandTechniques—Chapter4—2第4章:数据仓库与OLAP技术数据仓库:基本概念数据仓库建模:数据立方体和OLAP数据仓库设计和使用数据仓库实现数据泛化:面向属性的归纳小结3什么是数据仓库?(1)著名的数据仓库专家William.H.Inmon在其著作《BuildingtheDataWarehouse》中给予如下描述:数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,用于支持管理决策面向主题的(subject-oriented):数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关4什么是数据仓库?(2)集成的(integrated):数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以确保命名约定、编码结构、属性度量等的一致性时变的(time-variant):数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测5什么是数据仓库?(3)非易失的(nonvolatile):数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据的初始化装入和数据访问,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,即数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新,不需要事务处理、恢复和并发控制机制数据仓库的构造需要数据集成、数据清理和数据统一数据仓库的构造需要决策支持技术数据仓库使用更新驱动而不是查询驱动的方法对异种数据库集成数据仓库vs.操作数据库系统联机操作数据库系统的主要任务是执行联机事务和查询处理,称为OLTP系统数据仓库在数据分析和决策方面为用户提供服务,称为OLAP系统OLTP和OLAP的主要区别OLTP和OLAP的主要区别OLTPOLAP功能日常操作长期信息需求,决策支持特征操作处理信息处理系统面向性事务和查询处理数据分析用户面向性客户知识工人数据内容当前的,确保最新历史的,跨时间维护汇总性原始的,高度详细汇总的,统一的数据库设计基于E-R,面向应用星型/雪花,面向主题视图详细,一般关系汇总的,多维的访问模式短的,原子事务复杂查询存取方式读/写只读关注目标数据进入信息输出操作方式主关键字上索引/散列大量扫描访问记录数量数十个数百万DB规模100MB到GB100GB到TB用户数数千数百优先需求高性能,高可用性高灵活性,端点用户自治性能度量方式事务吞吐量查询吞吐量,响应时间8数据库与数据仓库分离的原因?提高两个系统各自的性能操作数据库—为已知的任务和负载设计,如主关键字索引和散列、检索特定的记录等数据仓库—查询很复杂,涉及大量数据在汇总级的计算,需要特殊的数据组织、存取方法和基于多维视图的实现方法操作数据库—支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制;OLAP查询—只需要对数据记录只读访问,进行汇总和聚类。若将并行控制和恢复机制用于OLAP操作,危害并行事务的运行,大大降低OLTP的吞吐量系统数据结构、内容和用法不同操作数据库—数据丰富,但不提供历史数据,只维护详细的原始数据决策支持—需要历史数据,需要将异种源的数据统一、聚集和汇总数据仓库:多层架构数据仓库抽取转换装载刷新OLAP机制分析查询报表数据挖掘监测器&集成器元数据数据源前端工具服务数据集市操作数据库其它资源数据存储OLAP服务器多维化处理多维化处理可视化处理可视化处理10三种数据仓库模型企业仓库(Enterprisewarehouse)搜集了关于主题的所有信息,跨越整个组织包含详细数据和汇总数据,需要广泛的商务建模数据集市(DataMart)包含企业范围数据的一个子集,对于特定的用户是有用的。范围限于选定的主题根据数据来源的不同,分为独立的和依赖的两类独立数据集市的数据来自一个或多个操作的系统或外部信息提供者,或来自特定部门或地域产生的数据依赖数据集市的数据直接来自企业数据仓库虚拟仓库(Virtualwarehouse):是操作数据库上视图的集合11数据抽取,转换和加载(ETL)数据抽取从多个不同的外部数据源收集数据数据清理检测数据中错误,可能时订正错误数据转换将数据由遗产或宿主格式转换成数据仓库格数据加载排序、综合、合并、计算视图、检查整体性、建立索引和划分数据刷新传播由数据源到数据仓库的更新12元数据存储元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。对于给定数据仓库的数据名和定义,创建元数据元数据的存储应当包括数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容操作元数据,包括数据血统(移植数据的历史和用于它的转换序列),数据流通(主动的、档案的或净化的),以及监视信息(仓库使用统计、错误报告、审计跟踪)汇总用的算法,包括度量和维定义算法,数据所处粒度、分割、主题领域、聚集、汇总、预定义的查询与报告由操作环境到数据仓库的映射,包括源数据库和他们的内容、网间连接程序描述、数据分割、数据提取、清理、转换规则和缺省、数据刷新和剪裁规则、安全(用户授权和存取控制)关于系统性能的数据,除刷新、更新和复制周期的定时和调度的规则外,还包括改善数据存取和检索性能的索引和配置商务元数据,包括商务术语和定义、数据拥有者信息和收费策略元数据应当持久存放和管理在磁盘上13第4章:数据仓库与OLAP技术数据仓库:基本概念数据仓库建模:数据立方体和OLAP数据仓库设计和使用数据仓库实现数据泛化:面向属性的归纳小结14表电子数据表数据立方体数据立方体由维和事实定义,以多维对数据进行建模和观察,如sales维是关于一个组织想要记录的透视或实体。每个维都有一个表与之相关联,称为维表,如item(item_name,brand,type),ortime(day,week,month,quarter,year)多维数据模型围绕中心主题组织。该主题用事实表(如dollars_sold)表示。事实是数值度量的。事实表包括事实的名称或度量,以及每个相关表的关键字数据仓库中,数据立方体是n-D的,第n-D(最低层)方体称为基本方体(basecuboid),最顶层0-D方体存放最高层汇总,称作顶点方体(apexcuboid),方体的格称作数据立方体(datacube)概念比较:维数据立方体聚集15立方体:方体的格time,itemtime,item,locationtime,item,location,supplieralltimeitemlocationsuppliertime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,suppliertime,location,supplieritem,location,supplier0-D(顶点)方体1-D方体2-D方体3-D方体4-D(基本)方体16数据仓库的概念模型星型模式(Starschema):维表围绕中心表显示在射线上事实表:一个包含大批数据和不含冗余的中心表维表:一组小的附属表,每维一个雪花模式(Snowflakeschema):星型模式的变种,每维不止一个表表示易于维护,节省存储空间查询需要更多的连接操作,影响系统的性能事实星座模式(Factconstellations):多个事实表共享维表,又称星系模式(galaxyschema)或事实星座数据仓库通常使用事实星座模式,因为它能对多个相关的主题建模;数据集市一般采用星型或雪花模式,因为它们都适合对单个主题建模17ExampleofStarSchema:例4.1time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch18ExampleofSnowflakeSchema:例4.2time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity19ExampleofFactConstellation:例4.3time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper20概念分层:location维allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity21数据立方体度量的分类分布的(distributive):假设数据被划分为n个集合,函数在每个部分上的计算得到一个聚类值。如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算E.g.,count(),sum(),min(),max()代数的(algebraic):一个聚集函数是代数的,如果它能够由一个具有代表M个参数的代数函数计算(M是一个有界整数),而每个参数都可以用一个分布聚集函数求得E.g.,avg(),min_N(),standard_deviation()整体的(holistic):一个聚集函数是整体的,如果描述它的子聚集所需的存储没有一个常数界。即不存在一个具有M个参数的代数函数进行这一计算(M是常数)E.g.,求中值函数median()、求最常出现的项mode()、rank()等22数据仓库和概念分层Specificationofhierarchi
本文标题:ch04数据仓库与OLAP技术
链接地址:https://www.777doc.com/doc-25820 .html