您好,欢迎访问三七文档
第5章数据仓库与数据挖掘的决策支持5.1数据仓库的基本原理数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源据美国《幸福》杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。5.1.1数据仓库的概念(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。1、数据仓库的概念(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。1、数据仓库的概念传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:DB数据DW数据细节的综合或提炼的在存取时准确的代表过去的数据可更新的不更新一次操作数据量小一次操作数据量大面向应用面向分析支持管理支持决策2、数据仓库特点(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。面向主题汽车人寿健康意外伤亡操作性环境应用顾客保险单保险费索赔数据仓库主题2、数据仓库特点(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。2.2集成数据库应用Am,f应用B1,0应用Cx,y应用D男,女数据仓库m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量应用A描述应用B描述应用C描述应用D描述应用Achar(10)应用Bdecfixed(9,2)应用Cpic‘9999999’应用Dchar(12)多重信息源描述char(12)冲突的键码集成2、数据仓库特点(3)数据仓库是稳定/非易失的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。非易失性插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问数据库数据仓库2、数据仓库特点(4)数据仓库是随时间变化的数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。2.4随时间变化数据库数据仓库时间期限:当前到60—90天记录更新键码结构可能包括也可能不包括时间元素时间期限:5—10年数据的复杂快照键码结构包括时间元素2、数据仓库特点(5)DW中数据量大。大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。2、数据仓库特点(6)是信息的概括和聚集。操作性数据仓库JJones女1945年7月20日。。。。。JJones去年有两张罚单一次大事故。。。。。JJonesMain大街123号已婚。。。。。JJones两个孩子高血压。。。。。人寿保险汽车保险房产保险健康保险JJones女1945年7月20日出生去年两张罚单一次大事故已婚两个孩子高血压。。。。。。顾客2、数据仓库特点(7)对计算机软硬件要求较高:需要一巨大硬件平台和并行计算的数据库系统。5.1.2数据仓库中的数据组织1数据的粒度2数据仓库的数据组织结构3数据的分割4数据仓库的数据组织形式5数据仓库的数据组织模式6数据的追加1粒度粒度——是指数据仓库的数据单位中保存数据的细化或总合程度的级别。细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。粒度——细节的级别粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。多重粒度粒度的一个例子高细化低细化每月200个记录每月40,000个字节每月一个记录每月200个字节通过检索可以回答无细节无法回答询问某一电话的细节近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。2数据仓库的数据组织结构2数据仓库的数据组织结构元数据高度综合级轻度综合级(数据集市)销售细节级2000-2001操作型转换早期细节级每月销售1994-2001每周销售1994-2001当前细节级销售细节级1994-19993分割分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分片——数据分割后的独立单元。数据的分割提高了数据管理的灵活性重构、索引、重组、恢复、监控分割的标准:日期、地域、业务领域。分割的一个例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保险生命保险健康保险4数据仓库的数据组织形式简单堆积数据轮转综合数据简化直接数据连续数据简单堆积文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………轮转综合文件星期一星期二……星期天第一周第二周……第五周一月二月……十二月………………简化直接文件数据库快照姓名顾客号地址张平C960100北京王珂C960101上海刘辉C960102天津李强C960103成都...一月份顾客表操作性数据生成简化直接文件连续文件姓名顾客号地址张平C020100北京王珂C020101上海张顺C020102天津李强C020103成都姓名顾客号地址张平C020100北京王珂C020101上海张顺C020101广州李强C020103成都刘诚C020105杭州姓名顾客号日期地址张平C0201001-2月北京王珂C0201011-2月上海张顺C0201031月天津张顺C0201032月广州李强C0201031-2月成都刘诚C0201052月杭州1月份顾客表2月份顾客表1-2月份顾客表元数据(Metadata)元数据——关于数据的数据,它描述了数据的结构、内容、码、索引等。元数据的内容不仅为数据仓库的创建提供必要的信息、描述和定义,还为DSS分析人员访问数据仓库提供直接的或辅助的信息。数据仓库中元数据必须包含的内容数据仓库的主题描述:主题名、主体的公共码键、有关描述信息等外部数据和非结构化数据的描述:外部数据源名、存储地点、存储内容简述记录系统定义:主题名、属性名、数据源系统、源表名、源属性名逻辑模型的定义:关系名、属性1、属性2……属性n数据进入数据仓库的转换规则数据的抽取历史粒度的定义数据分割的定义广义索引:广义索引名,属性1、属性2……属性n有关存储路径和结构的描述它是现有的业务系统的数据源的描述信息。这类元数据是是对不同平台上的数据源的物理结构和含义的描述。具体为:■数据源中所有物理数据结构,包括所有的数据项及数据类型。■所有数据项的业务定义。■每个数据项更新的频率,以及由谁或那个过程更新的说明。■每个数据项的有效值。(1)关于数据源的元数据数据仓库的数据模型是星型模型。通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变换。(2)关于数据模型的元数据这类元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。(3)关于数据仓库映射的元数据这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据:(1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。(2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。(4)关于数据仓库使用的元数据5数据仓库的数据组织模式星型模式(starschema)雪花模式(snowflakeschema)混合模式事实表维量维表中间有一个单一表,沿半径向外连接到多个表是星型模式的扩展,每一个点都沿半径向外连接到多个点星型模式产品标识符类标识符大类标识符产品名类名大类名现货存量销售表产品标识符商店标识符日期标识符单价销售金额日期表日期标识符日月季年商店标识符市名省名国名洲名商店表产品表雪花模式销售表产品标识符商店标识符日期标识符单价销售金额日期表日期标识符日月月季月表季年季表产品表产品标识符类标识符产品名现货存量类表类标识符大类标识符类名大类表大类标识符大类名商店表商店标识符市名市名市名省名市表省名国名省表国名洲名国表6数据追加时标方法对新插入或更新的数据记录,加入更新时的时标,扫描整个数据库。DELTA文件由应用生成的,记录了应用所改变的所有内容。DELTA文件的应用并不普遍。前后映象文件对比占用大量资源。日志文件是DB的固有机制,不会影响到OLTP的性能。数据冗余。数据仓库的数据初装完成后,再向数据仓库输入数据的过程。数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。5.1.3数据集市(DataMarts)数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。DataMarts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。数据集市概念独立数据集市(IndependentDataMart)从属数据集市(DependentDataMart)数据集市的种类数据源数据源分析工具分析工具独立数据集市两种数据集市分析工具中央数据仓库数据源数据源从属数据集市分析工具分析工具1、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、工具集的紧密集成10、更详细的、预先存在的数据仓库的摘要子集11、可升级到完整的数据仓库数据集市的特性(1)数据仓库是基于整个企业的数据模型建立的,是面向企业范围内的主题;而数据集市是按照某一特定部门的数据模型建立的;(2)部门的主题与企业的主题之间可能存在关联,可能无关联;(3)数据集市的数据组织一般采用星型模型,而大型数据仓库的组织采用第三范式。数据集市与数据仓库的差别5.2数据仓库系统5.2.1数据仓库系统结构数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。1、数据仓库管理系统(1)定义部分用于定义和建立数据仓库系统。它包括:(1)设计和定义数据仓库的数据库(2)定义数据来源(3)确定从源数据向数据仓库复制数据时的清理和增强规则(2)数据获取部分该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。(3)管理部分它用于管理数据仓库的工作,包括:(1)对数据仓库中数据的维护(2)把仓库数据送出给分散的仓库服务器或DSS用户(3)对仓库数据的安全、归
本文标题:DSS第5章
链接地址:https://www.777doc.com/doc-3132720 .html