您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库与数据挖掘2-2
0第二章数据仓库原理1第二章数据仓库原理2.1数据仓库定义2.2数据仓库特征2.3数据库体系化环境2.4数据仓构造模式2.5数据仓库概念结构2.6数据仓库中的数据组织小节2数据仓库中的数据组织粒度分区维度元数据数据仓库的数据组织形式数据仓库的数据追加2.6数据仓库中的数据组织3数据仓库中的数据组织粒度分割维度元数据数据仓库的数据组织形式数据仓库的数据追加2.6数据仓库中的数据组织42.6数据仓库中的数据组织为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分析处理环境。数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。52.6数据仓库中的数据组织数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度6数据仓库的数据组织结构元数据高度综合级轻度综合级当前细节级早期细节级2.6数据仓库中的数据组织7数据仓库中的数据存在着不同的综合级别•早期细节级—一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。—为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储。2.6数据仓库中的数据组织8数据仓库中的数据存在着不同的综合级别•当前细节级—来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进行存储。—这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。—当前细节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数据。2.6数据仓库中的数据组织9数据仓库中的数据存在着不同的综合级别•轻度综合级—为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综合。—这一设定的时间段参数又称为“粒度”。—以较小的粒度生成的综合数据,称为“轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率。2.6数据仓库中的数据组织10数据仓库中的数据存在着不同的综合级别•高度综合级—以较长的时间段,即较大的粒度,对当前细节级的数据进行综合而形成的结果,称为“高度综合级数据”。—高度综合级的数据内容十分精练,可以认为是一种“准决策数据”。—这里,“高度”和“轻度”只是一种相对的概念没有绝对的界限。2.6数据仓库中的数据组织11数据仓库的数据组织结构的一个例子高度综合级轻度综合级当前细节级早期细节级1990-2004年每月销售表1996-2004年每周销售表1996-2004年销售情况表1990-1995年销售明细表数据仓库中的数据组织2.6数据仓库中的数据组织12数据仓库中的数据组织粒度分割维度元数据数据仓库的数据组织形式数据仓库的数据追加2.6数据仓库中的数据组织13粒度•对数据仓库中的数据综合程度高低的一个度量。•例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。•粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。2.6数据仓库中的数据组织14粒度一个顾客一个月中每次通话的细节一个顾客一个月中通话的综合CassSquire上星期给他在波士顿的女友打过电话没有?能回答,尽管需要一定数量的检索根本不能回答,细节已经丢失“上个月,华盛顿人平均打出多少个电话?”由此可见,粒度级别对于能回答什么问题和问答问题所需资源多少有深刻的影响。2.6数据仓库中的数据组织15粒度粒度的权衡是固有的,所以大多数企业的最佳解决方法是采用多重粒度的形式低粒度高粒度能回答任何问题效率低数据量大不能回答所有问题效率高数据量小2.6数据仓库中的数据组织16粒度分为两种形式:①对数据仓库中的数据的综合程度高低的一个度量•粒度越小,细节程度越高,综合程度越低•粒度大小影响数据仓库效率、能回答询问的种类“张三在某时某地是否给李四打过电话?”“张三去年共打了几次长途电话”“某地区今年长途与普通电话费用之比”“今年长途/普通电话费用增长率”“预测未来长途/普通电话费用变化趋势”•数据仓库是多粒度的,不同的粒度回答不同的查询2.6数据仓库中的数据组织17粒度分为两种形式:②样本数据库•在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。•样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。•样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。2.6数据仓库中的数据组织18②样本数据库•用处:代替源数据进行模拟分析,适用于趋势分析和预测分析•抽样的方法:随机抽取,必要时可采用“判断样本”•优点:—高效率,在启发式分析中,—源数据量很大的情况下,抽样数据可以大大下降,—分析结果误差极小—有助于抓住主要因素和主要矛盾2.6数据仓库中的数据组织19数据仓库中的数据组织粒度分区维度数据仓库的数据组织形式数据仓库的数据追加2.6数据仓库中的数据组织20分区•数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。•在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的灵活性。•恰当进行分区的好处:—数据装载、数据访问、数据存档、—数据删除、数据监控、数据存储、•当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区。2.6数据仓库中的数据组织21分区数据分区小的数据单元易于:•重构•索引•顺序扫描•重组•恢复•监控19891990198719911988独立管理的数据单元可以有不同的定义处理设备A处理设备B2.6数据仓库中的数据组织22分区•有多种数据分区的标准:—时间—业务范围—地理位置—组织单位—所有上述标准•数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部分。2.6数据仓库中的数据组织23分区•人寿保险公司选择时间和保险种类,将数据分区为以下物理单元:—2000年健康索赔—2001年健康索赔—2002年健康索赔—1999年人寿保险索赔—2000年人寿保险索赔—2001年人寿保险索赔—2002年人寿保险索赔—2000年意外伤亡索赔—2001年意外伤亡索赔—2002年意外伤亡索赔2.6数据仓库中的数据组织24分区数据分区优点:•提高系统性能–“1996年家电类商品销售的季节分布如何?”–“每年的第一季度商品销售在各类商品上的分布情况是怎样的?”•提高灵活性修改数据定义容易不同年份的险种的定义描述是相互独立2.6数据仓库中的数据组织25数据仓库中的数据组织粒度分区维度数据仓库的数据组织形式数据仓库的数据追加2.6数据仓库中的数据组织26维度•管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道、发生的时间等角度来分析决策问题。•用户的这些决策分析角度或决策分析出发点就是数据仓库中的维。•数据仓库中的数据就按照这些维来组织,维也就成了数据仓库中识别数据的索引。•同时,数据仓库中的维还可以作为数据仓库操作过程的路经,这些路径通常位于维的不同层次结构中。2.6数据仓库中的数据组织27维度•是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。•例如:—一个销售系统中的数据可分为时间维、产品维和地理位置维等;2.6数据仓库中的数据组织28一个数据立方体,比如数据仓库sales,允许以多维对数据进行建模和观察。〖例〗销售分析:数据仓库sales围绕商品销售量这个主题。同时,销售量涉及以下几个方面:time,item,location,branch。有了这些方面的信息,能够记录商品的月销售,销售商品的地点。2.6数据仓库中的数据组织29VancouverChicagoTorontoNewYorkTime(季度)ItemQ1Q2Q3Q460568081292782595210231038143130384005125015808541087818882968746893843623872591家庭娱乐计算机电话安全2.6数据仓库中的数据组织30维:人们观察数据的特定角度。本例中涉及time,item,location。每一个维都有一个表与之相关联,称为维表。事实:数据仓库的主题,数值度量的。本例中指销售量。事实对应事实表。2.6数据仓库中的数据组织31ASampleDataCubeTotalannualsalesofTVinU.S.A.DateCountrysumsumTVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum32基于维的常见操作•上卷:用户在数据仓库的应用中,从较低层次的数据开始逐步将数据按照不同的层次进行概括处理•下钻:从数据仓库中的高层数据开始逐步向低层数据探索,了解组成概括数据的具体细节2.6数据仓库中的数据组织33数据仓库中的数据组织粒度分区维度元数据数据仓库的数据组织形式数据仓库的数据追加2.6数据仓库中的数据组织34数据仓库的元数据与数据库管理系统中的数据字典或数据目录相似。数据字典中保存了逻辑数据结构,文件和地址、索引等信息。数据字典包含的是关于数据库中数据本身信息的数据。2.6数据仓库中的数据组织352.6数据仓库中的数据组织362.6数据仓库中的数据组织372.6数据仓库中的数据组织将元数据看作是电话黄页。你需要当地商店的信息吗?他们在哪里,他们的名字是什么,他们的专营是什么?去查电话黄页吧。电话黄页是当地部门信息的一本字典。元数据部分与电话黄页的作用类似,它是数据仓库内容的一本字典。38什么是元数据?假设,用户希望在运行查询之前,了解数据仓库中名叫CUSTOMER的表或实体。在元素据存储库中与CUSTOMER相关的信息内容是什么?2.6数据仓库中的数据组织39定义:从公司购买产品或服务的一个人或者一个机构。备注:客户实体包含了常规的、当前以及过去的客户;源系统:已经完成的产品订单,维护合同,在线销售建立日期:1999年1月15日最后更新日期:2001年1月21日更新周期:每周最后的完全刷新日期:2000年12月29日完全刷新周期:每6个月数据质量回顾:2001年1月25日最后的副本:2001年1月10日计划归档:每6个月负责人:janebrown2.6数据仓库中的数据组织实体名称:customer别名:Account,Client402.6数据仓库中的数据组织数据仓库的关键需求:对数据仓库使用的必要性•在订单处理程序中,用户通过系统提供的图形界面及预定义的报表进行信息访问;•使用数据仓库时,自己从数据仓库中获取信息。需要使用元数据。412.6数据仓库中的数据组织对构建数据仓库的必要性数据抽取和数据转换•源
本文标题:数据仓库与数据挖掘2-2
链接地址:https://www.777doc.com/doc-26911 .html