您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第2章-数据仓库环境
第2章数据仓库环境数据仓库的定义以1992年W.H.Inmon出版《BuildingtheDataWarehouse》为标志,数据仓库速度发展起来,Inmon也被誉为“数据仓库之父”。W.H.Inmon对数据仓库的定义是:“数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。数据仓库是体系结构化环境的核心,是决策支持系统DSS处理的基础数据仓库的特征数据仓库是面向主题(Subject-Orientation)的;数据仓库是集成(Integration)的;数据仓库是稳定/非易失性(Nonvolatile)的;数据仓库是随时间变化(TimeVagrancy)的;数据仓库是信息的概括和聚集。面向主题汽车人寿健康意外伤亡操作型环境应用顾客保险单保险费索赔数据仓库主题集成操作型环境应用Am,f应用B1,0应用Cx,y应用D男,女数据仓库m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量应用A描述应用B描述应用C描述应用D描述应用Achar(10)应用Bdecfixed(9,2)应用Cpic‘9999999’应用Dchar(12)多重信息源描述char(12)冲突的键码集成?操作型环境数据仓库JJones女1945年7月20日。。。。。JJones去年有两张罚单一次大事故。。。。。JJonesMain大街123号已婚。。。。。JJones两个孩子高血压。。。。。人寿保险汽车保险房产保险健康保险JJones女1945年7月20日出生去年两张罚单一次大事故已婚两个孩子高血压。。。。。。顾客非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问操作型环境数据仓库随时间变化操作型环境数据仓库时间期限:当前到60—90天记录更新键码结构可能包括也可能不包括时间元素时间期限:5—10年数据的复杂快照关键字结构包括时间元素数据仓库的结构元数据高度综合级轻度综合级(数据集市)销售细节级2000-2001操作型转换早期细节级每月销售1994-2001每周销售1994-2001当前细节级销售细节级1994-1999面向主题数据仓库面向在高层企业数据模型中已定义好的企业主题域每个主要主题域都是以一组相关的表来具体实现的,一般通过一个公共关键字联系起来数据仓库中可能有多个DBMS对数据进行管理,或根本没有DBMS管理GIS中表现为:河流、宗地、土地利用图斑、地形等面向主题---“顾客”主题主题可能包含不同介质上的数据每个表都有时间元素粒度粒度——是指数据仓库的数据单位中保存数据的细化或综合程度的级别。粒度是设计数据仓库最重要的方面。细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。粒度——细节的级别粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。多重粒度:图幅比例尺大小、投影方式、数据采集的精度、数据的时间和空间分辨力、系统功能等来合理划分不同的粒度。粒度——细节的级别高细化——低粒度例如:一个顾客一个月内的每个电话的细节低细化——高粒度例如:一个顾客一个月内的电话的综合数据仓库中粒度化的数据是重用性的关键可利用数据仓库对数据一致性进行协调粒度数据包含了整个企业的活动和事件历史可以预测将来未知的需求低粒度化数据的优点:可由多个用户以不同的方式使用低级别粒度具有更高的灵活性不足:粒度级别低会占用更多的存储空间粒度级别低会降低数据的访问能力粒度级别低需要更多的索引项高粒度化数据的优点:如果数据仓库空间有限,高粒度表示数据将比用低粒度级表示效率高很多高粒度级只需要较少的字节表示,而且只需较少的索引数据压缩在数据仓库中很有用不足:高粒度的数据回答细节查询的能力较低DSS中对单个事件查询很少数据仓库设计必须满足实体需要的最低粒度级鉴于费用,效率,访问的便利和能够回答任何可以回答的查询的能力,数据双重粒度级是大多数机构建造数据仓库细节级的最好的体系结构选择.只有当一个机构的数据仓库环境中数据相对较少时,才能尝试采用数据粒度的单一级别多重粒度级在该时间仓库中包括两种类型数据:轻度综合数据和细节数据大部分处理针对轻度综合数据针对更大细节数据可以深入真实档案层(5%)活样本数据库活样本数据库是从数据仓库中取得的真实档案数据或轻度综合数据的一个子集.“活”是指这个数据库需要进行周期性的刷新.在某些情况下,使用活样本数据库可以节约大量资源活样本数据库不是通用的数据库,主要适于作统计分析和观察发展趋势数据装载—用一个抽取/选择程序搜索一个大规模的数据库,选择其中部分记录送到活样本数据库对活样本中记录的选取一般是随机的,必要时可采用一个判断样本最大的好处—存取效率非常高,误差在可接受范围在活样本数据库中要想取得高精度的统计结果,需要将要求形式化,并在活样本数据库上进行反复处理分区设计方法数据分区是指把数据分散到可独立处理的分离物理单元中.数据分区的优点:数据装载数据访问数据存档数据删除数据监控数据存储分区的目的—把数据划分成小的可管理的物理单元任何给定的数据单元属于且仅属于一个分区分区设计方法数据分区的标准:时间业务范围地理位置组织单位所有上述标准其中,日期几乎总是分区标准中的一个必然组成部分分区方式:系统层上分区—一定程度上指某些DBMS和操作系统的功能应用层上分区—由设计的应用程序完成,并由开发者和程序员严格控制应用层上分区相对更有意义,因为每年的数据可以有不同的定义,而且数据从一个物理设备转到另一个物理设备不会有问题数据仓库的数据组织简单堆积数据轮转综合数据简化直接数据连续数据简单堆积文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………轮转综合文件星期一星期二……星期天第一周第二周……第五周一月二月……十二月………………轮转综合文件与简单堆积结构的比较简单直接文件数据库快照姓名顾客号地址张平C960100北京王珂C960101上海刘辉C960102天津李强C960103成都...一月份顾客表操作型数据生成简化直接文件连续文件姓名顾客号地址张平C020100北京王珂C020101上海张顺C020102天津李强C020103成都姓名顾客号地址张平C020100北京王珂C020101上海张顺C020101广州李强C020103成都刘诚C020105杭州姓名顾客号日期地址张平C0201001-2月北京王珂C0201011-2月上海张顺C0201031月天津张顺C0201032月广州李强C0201031-2月成都刘诚C0201052月杭州1月份顾客表2月份顾客表1-2月份顾客表审计与数据仓库能对数据仓库进行审计,但不该审计,原因在于:原先在数据仓库中没有的数据会突然出现当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化会使数据粒度处于最低的级别上数据的同构/异构数据仓库中的数据是异构的第一次划分是按企业主要主题进行的,但每一个主题域还有更细的划分,主题域中的数据又划分到多个表中。数据的同构/异构数据仓库中的数据按下列标准划分:主题域表数据在表中的位置基于数据仓库数据建立的体系结构,数据的各个部分非常容易理解和访问。数据仓库中的错误数据数据仓库中的数据出错时,具有多种解决方案.但每种方法都是优势与劣执共存,没有一种是绝对正确或错误的.只是在某种条件下一种占优.例:假设7月1日在操作型系统中,账户ABC加入了一条5000美元的账目。7月2日在数据仓库中为账户ABC产生了这5000美元账目的一个快照。接着,在8月15日发现错误。这个账目不是5000美元,而是750美元。那么,该如何纠正这个错误呢?数据仓库中的错误数据修正方法一:直接将7月2日的数据5000修改为750,问题:数据集成破坏更新必须在数据仓库环境中进行许多时候不是要修正一个条目,而是很多修正方法二:加入修正条目。在8月16日加入两个条目,一条是-5000,另一条是+750,这可能是最新数据的最好反映,但也有不足:也可能要修正很多条目数据仓库中的错误数据有时候由于修正公式非常复杂,以致根本不能调整修正方法三:重新设置8月16日账户为正确值750,不考虑以前的活动,缺点:及时简单地将账户重设为当前值需要对应用与过程进行约定不能对过去的错误进行准确解释。
本文标题:第2章-数据仓库环境
链接地址:https://www.777doc.com/doc-27984 .html