您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 基础医学 > 数据仓库与数据挖掘课件ppt
课程安排数据仓库:18学时数据挖掘:18学时考试:撰写论文第一章数据仓库的基本概念案例讨论:下图展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析过程和结果。试讨论为什么两部门分析结果不同。企业级数据库市场部分析程序1分析结果1:前景很好计划部分析程序2分析结果2:前景不好第一章:数据仓库的基本概念1-1数据仓库的产生与发展传统的数据库技术作为数据管理手段,主要用于联机事务处理(OLTP,On-LineTransactionProcess),数据库中保存的是大量的日常业务数据。在数据共享、数据与应用程序的独立性、维护数据的一致性与完整性、数据的安全保密性等方面提供了有效的手段。第一章数据仓库的基本概念与分析型应用结合时存在的问题:决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细节性的描述。事务处理型应用与分析决策型应用对数据库系统的性能要求不同。传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据。第一章数据仓库的基本概念结论:在事务处理型应用环境中直接构建分析决策型应用是不可行的。于是:面向分析决策型应用而组织和存储数据的数据仓库技术应运而生。第一章数据仓库的基本概念时间:20世纪80年代初人物:W.H.Inmon定义:数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。Adatawarehouseisasubject-oriented,integrated,time-variant,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmakingprocess.第一章数据仓库的基本概念数据仓库的四大特征:数据是面向主题的数据是集成的数据是具有时间特征的数据是相对稳定的数据仓库的其它特点:数据量非常大(10GB---1000GB)是数据库技术的一种新的应用使用人员较少第一章数据仓库的基本概念1-2数据仓库与数据库操作型数据库分析型数据仓库系统目的支持日常操作支持管理需求,获取信息使用人员办事员、DBA、数据库专家经理、管理人员、分析专家数据内容当前数据历史数据、派生数据数据特点细节的综合的或提炼的数据组织面向应用面向主题存取类型添加、修改、查询、删除查询、聚集数据稳定性动态的相对稳定第一章数据仓库的基本概念续上表:操作型数据库分析型数据仓库需求特点需求事先可知道需求事先不知道操作特点一个时刻操作一单元一个时刻操作一集合数据库设计基于E-R图基于星型模式、雪花模式一次操作数据量一次操作数据量小一次操作数据量大存取频率较高较低响应时间小于3秒几秒—几十分钟第一章数据仓库的基本概念1-3数据仓库技术的术语主题:(Subject)主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。例:面向主题:产品订货分析,货物发运分析,新产品开发分析;面向应用:财务,销售,供应,人力资源,生产调度…….主题域的特征:独立性,完备性第一章数据仓库的基本概念粒度:(Granularity)粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效率低)数据越综合,粒度越大,级别越高,回答查询的种类就越少。第一章数据仓库的基本概念维度:(Dimension)维度是指人们观察事物的角度。例如:当人们关注产品销售情况时,有如下维度:时间维:随时间变化的销售数据;地区维:不同地区的销售数据;客户维:不同客户的销售;……根据观察事物角度的细节程度不同,维又具有维层次。数据;渠道维:不同销售渠道的销售数据;产品维:不同产品的销售数据例:时间维:日期、周、月份、季度、年等;地区维:城市、地区、国家等。第一章数据仓库的基本概念数据立方体:数据立方体是指由两个或更多个属性即两个或更多个维来描述或者分类的数据。在三维的情况下可以用图形来表示,一般称为数据立方体。实际的数据仓库的应用中,数据是多维的。第一章数据仓库的基本概念联机分析处理:(OLAP)联机分析处理是快速、灵活的多维数据分析工具。OLAP的目的是支持分析决策,满足多维环境的查询和报表需求。数据仓库的多维数据存储结构为OLAP的实施提供了理想的多维数据环境。第一章数据仓库的基本概念数据集市:(DataMart)数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。一般在某个业务部门建立数据集市,或称为部门级数据仓库。建立数据集市与数据仓库,一般是采用“自顶向下”和“自下而上”相结合的设计思想。第一章数据仓库的基本概念第一章数据仓库的基本概念讨论题:1、结合武汉理工大学学生学籍管理系统进行数据仓库的主题划分,列举有哪些主题。1-4多维数据模型多维数据模型是进行决策支持数据建模的最好方式,数据仓库采用多维数据模型不仅能使其使用方便,而且能提高系统的性能。1-4-1实体关系模型与多维模型实体关系模型应用于操作型数据库系统,多维模型应用于分析型数据仓库系统。实体关系模型不适用于以查询为主的分析型应用,具体表现在:使用者、界面、检索手段。第一章数据仓库的基本概念多维数据模型以直观的方式组织数据,每一个多维数据模型由多个多维数据模式(DimensionalDataSchema)表示。每一个多维数据模式都是由一个事实表(FactTable)和一组维表(DimensionTable)组成。事实表的主码是组合码,维表的主码是简单码,每一张维表中的简单码与事实表组合码中的一个组成部分相对应。第一章数据仓库的基本概念企业销售数据的多维数据模式图第一章数据仓库的基本概念时间码日期月份季度年度时间码产品码地区码销售量销售额销售成本产品码产品大类产品细类产品名称地区码国家地区城市时间维表事实表产品维表地区维表多维数据模型的优势:多维数据模型是已知标准化的结构,即包含多个多维数据模式,每一个多维数据模式都对应一张事实表和多张维表。这种多维结构能支持最终用户不可预知的操作,原因在于多维数据模型的各个维是逻辑等价的。多维数据模型对决策分析有好的扩展性。汇总数据的巨大价值。第一章数据仓库的基本概念1-4-2星型模式星型模式是事实表与维表通过星型方式连接而成,如下图:第一章数据仓库的基本概念产品码(PK)产品大类产品细类产品名称地区码(PK)国家地区城市产品维表地区维表时间码(FK)产品码(FK)(PK)地区码(FK)销售量销售额销售成本事实表时间码(PK)日期月份季度年度时间维表第一章数据仓库的基本概念星型模式的优点:星型模式结构简单,表的数目少,建模方便。星型模式支持多维数据建模,支持使用人员从不同的维度对数据进行分析。星型模式能较好地为数据仓库提供查询支持。星型模式可以提高查询速度。第一章数据仓库的基本概念主码、外码和代理码:主码(PrimaryKey):主码是表中的一个属性或属性的组合,它能唯一地标识表中的每条记录。外码(ForeignKey):外码是出现在一个表中,同时在另一个表中被定义成主码的属性。代理码(SurrogateKey):所有的主码和外码一般都是采用没有具体含义的代理码,例如,从1开始的自然数编码。第一章数据仓库的基本概念事实表:事实表是星型模式的核心,它是按维进行分析形查询的对象,其中存储的是业务事实,例如:销售量、销售额、销售成本等。事实表中的数据一般是数值型,具有可加性。事实表的主码为外码的组合,唯一的标识各条事实记录,事实表的外码对应各维表的主码。第一章数据仓库的基本概念维表:维表用于指导从不同的角度在事实表中选择数据行。维表中有一个主码,其余非主码的列为属性,维表中的属性数据通常是字符型数据。维表具有层次性,维表的层次性可用来分割其他的明细维表,维表层次的级别数量取决于查询的粒度。第一章数据仓库的基本概念1-4-3数据仓库的总线型结构著名的数据仓库专家RalphKinball认为,数据仓库的建设应该是一步步完成的,以部门级数据集市的建设为出发点,但必须统观全局,使数据集市成为完整的企业级数据仓库的一个逻辑子集。这种建设思想的实现是以一种特定的结构为指导的,称为数据仓库的总线型结构(DataWarehouseBusArchitecture)。第一章数据仓库的基本概念统一的维:统一的维是指:一个维,无论其维表与哪一个事实表相连接,维的含义是完全相同的。建立、公布、维护和完善统一的维是全局数据仓库项目小组一项非常重要的工作。公布了统一维之后,各数据集市必须严格执行。第一章数据仓库的基本概念统一的事实:统一的事实的定义工作与统一的维的定义工作同时进行,由数据仓库项目:小组负责,工作量相对较少,但要注意以下几点;统一的计算口径统一的计量单位统一的含义事实表中要包含最详细的事实数据,即粒度最小的数据第一章数据仓库的基本概念讨论题:1、根据学籍管理系统数据仓库的建设,确定事实表与维表,列举各个维,并划分维层次。1-5数据仓库的体系结构1-5-1体系结构的内容总体框架Zachman框架:回答问题数据体系结构------数据仓库的内容是什么?系统体系结构------存放在什么平台上?技术体系结构------如何实现?第一章数据仓库的基本概念前端工具数据预处理工具技术体系结构图如下:第一章数据仓库的基本概念预处理数据数据源数据集市数据集市数据集市总线查询服务数据元数据OLAP数据挖掘其他工具报表生成器抽取、转换、装载可视化分析结果后台前台第一章数据仓库的基本概念1-5-2相关的数据存储数据源:数据源是数据仓库的原始来源,是数据仓库系统开发与应用的数据基础,分为两部分;企业内部数据源企业外部数据源第一章数据仓库的基本概念主题数据:主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面向分析型用户的访问。主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过计算,含有大量数据,并存储在数据仓库中的实实在在的表。第一章数据仓库的基本概念实视图的好处:通过建立实视图可以提高系统的响应速度;由于数据源到主题数据映射关系的复杂性,采用普通视图的方式不可行。实视图的特点:时间是数据仓库中几乎所有数据的属性之一;数据在装于数据仓库后,基本不发生变化;实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程;主题数据分为最小粒度数据和聚集数据。第一章数据仓库的基本概念预处理数据:从数据源向主题数据的变换,就如同穿越冰山的过程,工作量大而繁杂,预处理数据正是这一过程的中间结果。对于数据仓库的建设而言,预处理数据是一非常重要数据存储环节。预处理数据的作用:保存大量的细节型业务处理数据保存净化后的数据存储代理码的分配创建并存储统一的事实和统一的维作为数据仓库的数据备份之一第一章数据仓库的基本概念查询服务数据:在数据仓库的主题数据中直接得到所需的信息仍然存在一定的难度,因此,在很多情况下,需要查询服务数据作为主题数据和最终查询结果之间的过渡数据。查询服务分为:查询服务数据同前台分析工具紧密联系,临时地存储在分析工具中,以便进一步分析查询;将查询服务数据转存起来,留待以后在进行分析或同其他系统结合起来使用;将查询服务数据存储到数据仓库的主题数据中,典型例子是数据挖掘工具同数据仓库结合应用。第一章数据仓库的基本概念1-5-3相关的数据服务后台数据预处理:数据抽取(DataExtraction)数据转换(DataTransformation)数据装载(DataLoading)前台数据查询服务:多种展现形式的数据查询灵活的分析报表生成访问安全保障第一章数据仓库的基本概念1-5-4相关的数据管理——元数据元数据的含义:后台元数据与过程相关,它指导着抽取、净化和装载的过程;前台元数据更具有描述性质,它帮助查询工具和报表生成器更顺利地工作。它是所
本文标题:数据仓库与数据挖掘课件ppt
链接地址:https://www.777doc.com/doc-10311517 .html