您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库与数据挖掘第2章
一、多维数据模型二、数据仓库的系统结构三、数据仓库的实现四、基于数据仓库的数据挖掘第二章数据仓库的OLAP技术第一节多维数据模型1.数据立方体数据仓库和OLAP工具基于多维数据模型,多维数据模型将数据看作数据立方体(datacube)形式。数据立方体允许以多维对数据建模和观察,由维和事实定义第一节多维数据模型1.数据立方体维是关于一个组织想要记录的透视或实体每一个维都有一个表与之相关联,该表称为维表,它进一步描述维多维数据模型围绕中心主题组织,主题用事实表表示事实是数值的度量,事实表包括事实的名称或度量,以及每个相关维表的关键字第一节多维数据模型1.数据立方体设某BSEK北星易家连锁公司由下列关系表描述:Customer(cust_id,name,address,age,…)Item(item_id,name,type,price,…)Employee(empl_id,name,salary,…)purchases(trans_id,cust_id,empl_id,date,time,method_paid,amount,…)Branch(branch_id,name,address)第一节多维数据模型1.数据立方体例如,BSEK可能创建一个数据仓库sales,记录商店的销售情况,涉及time,item和location。典型3-D立方体如图:timelocationitem第一节多维数据模型2.多维数据库模式E-R数据模型适用于OLTP,而数据仓库需要简明的、面向主题的模式,便于联机数据分析。数据仓库的数据模型采用多维数据模型星型模式雪花模式事实星座模式第一节多维数据模型2.多维数据库模式星型模式:是最常见的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表事实表包含大批数据和不含冗余的中心表维表附属表,每维一个表第一节多维数据模型2.多维数据库模式星型模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcitycountryitem_keyitem_namebranchtypetime_keydayWeekmonth…Sales事实表time维表branch维表location维表item维表第一节多维数据模型2.多维数据库模式雪花模式:是星型模式的变种,其中某些维表是规范化的,因而数据被进一步分解到附加的表中雪花模式的规范化维表,可以减少冗余,便于维护,并且节省存储空间;同巨大的事实表相比,空间节省有限执行查询需要更多连接操作,雪花模型可能降低浏览的性能第一节多维数据模型2.多维数据库模式雪花模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…type_keytype_namecity_keycitycountrySales事实表timebranchlocation维表item维表type维表city维表第一节多维数据模型2.多维数据库模式事实星座模式复杂的应用可能需要多个事实表共享维表,这种模式可以视为星型模式集,因此称为星系模式,或事实星座模式第一节多维数据模型2.多维数据库模式事实星座模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…item_keytime_keyfrom_locationshipper_keymoney_costunits_shippedshipper_keyshipper_namelocation_keySales事实表timebranchlocation维表item维表shipping事实表shipper维表第一节多维数据模型3.度量的分类与计算数据立方体度量是一个数值函数,该函数可以对数据立方体的每一个点求值。通过对给定点的各维-值对聚集数据,计算该点的度量值度量根据所用的聚集函数分成三类:分布的度量、代数的度量、整体的度量第一节多维数据模型3.度量的分类与计算分布的:一个聚集函数是分布的,如果它能以如下分布方式进行计算设数据被划分为n个集合,函数在每一部分上的计算得到一个聚集值。如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。一个度量是分布的,如果它可以用分布聚集函数得到第一节多维数据模型3.度量的分类与计算代数的:一个聚集函数是代数的,如果它能由一个具有M个参数的代数计算(M是一个有界整数),而每个参数都可以用一个分布聚集函数求得一个度量是代数的,如果它可以用代数聚集函数得到第一节多维数据模型3.度量的分类与计算整体的:一个聚集函数是整体的,如果描述它的子聚集所需的存储没有一个常数界,即不存在一个具有M个参数的代数函数进行这一计算(M是常数),而每个参数都可以用一个分布聚集函数求得一个度量是整体的,如果它可以用整体聚集函数得到第一节多维数据模型3.度量的分类与计算多数数据立方体的应用需要有效地计算分布的和代数的度量,存在许多有效的技术;而有效计算整体的度量是很困难的,往往采取计算以满意的结果估计大数据集的中值,不进行精确计算。例如,median()和mode()第一节多维数据模型4.多维数据模型上的OLAP操作上卷(roll-up)下钻(drill-down)切片(slice)、切块(dice)转轴(pivot)钻过(drill-across)钻透(drill-through)第一节多维数据模型4.多维数据模型上的OLAP操作概念分层将属性或维组织成渐进的抽象层,它将低层概念映射到更一般的高层概念。概念分层对于多抽象层上的挖掘有用第一节多维数据模型4.多维数据模型上的OLAP操作上卷:通过一个维的概念分层向上攀升或通过维归约,在数据立方体上进行聚集第一节多维数据模型4.多维数据模型上的OLAP操作上卷TimeItem芝加哥纽约芝加哥温哥华一季度二季度三季度四季度家庭娱乐计算机电话安全TimeItem美国加拿大一季度二季度三季度四季度家庭娱乐计算机电话安全分层定义为全序:“streetcityprovince_or_statecounty”第一节多维数据模型4.多维数据模型上的OLAP操作下钻:通过沿维的概念分层向下或引入新的维来实现,它是上卷的逆操作,由不太详细的数据到更详细的数据第一节多维数据模型4.多维数据模型上的OLAP操作下钻分层定义全序为:“daymonthquarteryear”芝加哥纽约芝加哥温哥华Time一季度二季度三季度四季度Item家庭娱乐计算机电话安全Item家庭娱乐计算机电话安全Time1月2月3月4月5月6月7月8月9月10月11月12月芝加哥纽约芝加哥温哥华第一节多维数据模型4.多维数据模型上的OLAP操作切片:切片操作在给定的数据立方体的一个维上进行选择,导致一个子方第一节多维数据模型4.多维数据模型上的OLAP操作切片TimeItem芝加哥纽约芝加哥温哥华一季度二季度三季度四季度家庭娱乐计算机电话安全Item芝加哥温哥华家庭娱乐计算机电话安全Location纽约多伦多Time=“Q1”第一节多维数据模型4.多维数据模型上的OLAP操作切块:切块操作通过对两个或多个维执行选择,定义子方第一节多维数据模型4.多维数据模型上的OLAP操作切块(location=“Toronto”or“Vancouver”)and(Time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)TimeItem芝加哥纽约芝加哥温哥华一季度二季度三季度四季度家庭娱乐计算机电话安全TimeItem多伦多温哥华一季度二季度家庭娱乐计算机第一节多维数据模型4.多维数据模型上的OLAP操作:转轴:是一种目视操作,它转动数据的视角,提供数据的替代表示第一节多维数据模型4.多维数据模型上的OLAP操作转轴Item芝加哥温哥华家庭娱乐计算机电话安全Location纽约多伦多Item家庭娱乐安全芝加哥纽约多伦多温哥华Location计算机电话第一节多维数据模型4.多维数据模型上的OLAP操作钻过:执行涉及多个事实表的查询钻透:操作使用关系SQL机制,钻到数据立方体的底层,到后端关系表OLAP的许多特征体现在统计数据库(SDB)的早期工作中,而SDB关注社会经济应用,OLAP旨在商务应用以及有效处理海量数据第二节数据仓库的系统结构1.数据仓库的设计步骤数据仓库设计需要考虑的四种视图:自顶向下视图:可以帮助选择数据仓库所需的相关息,这些信息能够满足当前和未来商务的需求数据源视图:揭示被操作数据库系统捕获、存储和管理的信息数据仓库视图:包括事实表和维表商务查询视图:从最终用户的角度透视数据仓库中的数据第二节数据仓库的系统结构1.数据仓库的设计步骤数据仓库的设计包括如下步骤:选取待建模的商务处理。如果商务过程针对整个组织,并涉及多个复杂对象,选用数据仓库模型;如果是某一部门的、或某一类商务处理,应选择数据集市。选取商务处理的粒度选取用于每个事实表记录的维选取安放在事实表中的度量第二节数据仓库的系统结构2.数据仓库的结构数据仓库通常采用三层结构:底层:数据仓库服务器中间层:OLAP服务器顶层:前端工具第二节数据仓库的系统结构清理转换集成输出业务数据库外部信息源数据仓库数据集市OLAP服务器底层:数据仓库服务器顶层:前端工具中间层:OLAP服务器元数据存贮第二节数据仓库的系统结构2.数据仓库的结构从结构的角度,有三种数据仓库模型:企业仓库数据集市虚拟仓库第二节数据仓库的系统结构2.数据仓库的结构企业仓库企业仓库(Enterprisewarehouse)收集跨越整个企业的各个主题的所有信息。它提供全企业的数据集成,数据通常来自多个操作型数据库和外部信息提供者,并且是跨越多个功能范围的。它通常包含详细数据和汇总数据企业数据仓库可以在传统的大型机上实现,例如UNIX超级服务器或并行结构平台。它需要广泛的业务建模,可能需要多年的时间来设计和建造第二节数据仓库的系统结构2.数据仓库的结构数据集市数据集市(datamart)包含对特定用户有用的,企业范围数据的一个子集。它的范围限于选定的主题,例如一个商场的数据集市可能限定它的主题为顾客、商品和销售。数据集市中的数据通常为汇总数据第二节数据仓库的系统结构2.数据仓库的结构数据集市实现数据集市的周期一般是数周,而不是数月或数年,然而,如果它的规划不是企业范围的,从长远讲,可能会涉及很复杂的集成根据数据的来源不同,数据集市分为独立的依赖的二类。在独立的数据集市中,数据来自一个或多个操作型数据库或外部信息提供者,或者是一个特定的部门或地区本地产生的数据。在依赖的数据集市中,数据直接来自企业数据仓库第二节数据仓库的系统结构2.数据仓库的结构虚拟仓库虚拟仓库(virtualwarehouse)是操作型数据库上视图的集合。为了有效地处理查询,只做了一些可能的汇总视图。虚拟仓库易于创建,但需要操作型数据库服务器具有剩余能力第二节数据仓库的系统结构3.OLAP服务器的类型关系OLAP(ROLAP)服务器多维OLAP(MOLAP)服务器混合OLAP(HOLAP)服务器特殊的SQL服务器第二节数据仓库的系统结构4.关系OLAP(Relati
本文标题:数据仓库与数据挖掘第2章
链接地址:https://www.777doc.com/doc-26971 .html