您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第1章 数据仓库的概念与体系结构
2012/11/6数据仓库与数据挖掘1第1章数据仓库的概念与体系结构授课教师:马楠前言:关于数据仓库DataWarehouse(DW)?1:数据仓库的提出?2:数据仓库的应用情况及前景?1:数据仓库的提出?:数据库(Database)的作用数据库实训?数据存储、数据安全、并发缓存控制。。。历史与实时数据的处理方式不同历史数据作用:统计分析、大规模访问实时数据:更新、小规模访问放到一个系统中的问题?数据仓库主要存放历史数据?1:数据仓库的提出?数据仓库是替代数据库的吗不是,并存数据仓库的数据主要用来做统计分析、数据挖掘代价:数据冗余硬件、软件投资维护人员数据导入导出异构系统的融合。。。?1:数据仓库的提出?数据仓库就是数据库数据的简单备份吗不是数据结构不一样二维表立方体访问方式不一样SQL查询旋转、下钻、上卷、切片等?2:数据仓库的应用情况及前景20世纪90年代兴起2000年以来,在中国发展迅速,各大领域分别启动数据仓库项目中国移动、淘宝、银行、保险、旅游、气象。。。?2:数据仓库的应用情况及前景中国移动:2003年,经过激烈竞争,中国移动选中Teradata数据仓库解决方案以开发其业务分析支持系统(BASS)项目,用以分析来自31个省级分支机构和总公司的业务数据,从而获得纵览企业全局的单一视图,以提高决策质量,提高竞争优势。用数据仓库来寻找潜在用户中国移动建立BASS系统比利时国家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为。?2:数据仓库的应用情况及前景淘宝:淘宝自己的数据仓库实施团队淘宝于2004开始基于Oracle产品构建企业级数据仓库(EDW),并于2007年、2008年和2009年三次利用OracleRAC10g和OracleRAC11g对数据仓库系统进行了升级和扩充实现了数据处理和分析时效性的不断提升,过去需要数天才能完成的计算现在当天就能完成,部分以前属于小时级别的计算更是提高到了分钟级别。目前,淘宝数据仓库能够每天处理几亿次的用户行为,日处理的数据量接近30TB,堪称目前国内每天数据处理量最大、最忙的数据仓库。?2:数据仓库的应用情况及前景银行:2002年,招行选择了业界著名厂商Sybase的数据仓库系统。数据仓库和数据挖掘技术在国际上早已成为商业银行业快速发展、科学管理的平台。根据美国META集团的调查,数据仓库技术在美国金融业、制造业、商贸业以及社会服务业等方面都得到广泛的应用,已经采用数据仓库的企业的投资回报率均在40%以上,部分企业高达每年600%。目前,华尔街62%的银行、保险、证券等机构采用数据仓库技术进行风险管理,其中包括著名的摩根·斯坦利、花旗银行、加拿大蒙特利尔银行、加皇银行等。数据仓库服务器SybaseIQ、复制服务器ReplicationServer,以及其他相关软件,帮助金融机构进行风险的评估、预测以及防范等工作,从而使风险控制到最小。?2:数据仓库的应用情况及前景气象:2008年,我校与国家气象中心的预报系统开放实验室合作研究气象数据仓库的建设,目前已经4年多,系统运行并不断推广。2012/11/6数据仓库与数据挖掘111.1数据仓库的概念、特点与组成一、概念数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)。2012/11/6数据仓库与数据挖掘121.1数据仓库的概念、特点与组成二、特点:面向主题:指用户使用数据仓库进行决策时所关心的重点领域。典型的主题领域:客户、产品、交易、账目。集成的:数据抽取、清理、加工、汇总、整理相对稳定的:通常一起载入数据,不进行一般意义的数据更新;反映历史变化:时间维概念何谓数据仓库?一种面向分析的环境;一种把相关的各种数据转换成有商业价值的信息的技术。2012/11/6数据仓库与数据挖掘13采购子系统:订单(订单号,供应商号,商品号,类别,单价。数量,总金额,日期,…)供应商(供应商号,供应商名,地址,电话,…)销售子系统:客户(客户号,姓名,地址,电话,…)销售(客户号,商品号,数量,单价,日期,…)库存子系统:进库单(编号,商品号,数量,单价,日期,…)出库单(编号,商品号,数量,单价,日期,…)库存(商品号,库房号,类别,单价,库存数量,总金额,日期,…)商品固有信息:商品号,类别,单价,颜色,…商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,…商品销售信息:商品号,客户号,数量,单价,销售日期,…商品库存信息:商品号,库房号,库存数量,日期,…)商品主题域:采购子系统销售子系统库存子系统数据仓库中的数据组织数据仓库中的数据分为四个级别:早期细节级,当前细节级,轻度综合级,高度综合级。1985~1998年销售明细表1998~2003年销售明细表1998~2003年每月销售表1998~2003年每季度销售表2012/11/6数据仓库与数据挖掘171.1数据仓库的概念、特点与组成三、数据仓库的组成:数据仓库数据库:数据信息存取的场所,对数据提供存取和检索功能。数据抽取工具:数据提取、转化、整理、再存入数据仓库。2012/11/6数据仓库与数据挖掘181.1数据仓库的概念、特点与组成三、数据仓库的组成:一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)2012/11/6数据仓库与数据挖掘191.1数据仓库的概念、特点与组成三、数据仓库的组成:元数据(Metadata):描述数据仓库内数据的结构和建立方法的数据,是关于数据的数据。元数据是描述数据仓库中数据结构和构建方法的数据。分成技术元数据与业务元数据;2012/11/6数据仓库与数据挖掘20举例2012/11/6数据仓库与数据挖掘211.1数据仓库的概念、特点与组成三、数据仓库的组成:访问工具;数据集市(DataMarts):从数据仓库中独立出来的一部分数据,即部门主题数据。数据仓库管理;信息发布系统。工业控制技术研究所数据挖掘的社会需求国民经济和社会的信息化•社会信息化后,社会的运转是软件的运转•社会信息化后,社会的历史是数据的历史1.2数据挖掘的概念与方法2012/11/6数据仓库与数据挖掘231.2数据挖掘的概念与方法一、概念数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)。2012/11/6数据仓库与数据挖掘241.2数据挖掘的概念与方法一、概念数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。2012/11/6数据仓库与数据挖掘251.2数据挖掘的概念与方法二、数据挖掘的方法:直接数据挖掘间接数据挖掘2012/11/6数据仓库与数据挖掘261.2数据挖掘的概念与方法三、数据仓库与数据挖掘的关系若将数据仓库(DataWarehouse)比作矿井,那么数据挖掘(DataMining)就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术2012/11/6数据仓库与数据挖掘271.3数据仓库的技术、方法与产品一、联机事务处理(OLTP)与联机分析处理(OLAP)的比较日常事务处理负责的分析操作,侧重决策支持补充:数据模型数据模型是对现实世界的一种抽象,根据抽象程度的不同,可形成不同抽象层次上的数据模型。与数据库的数据模型相类似,数据仓库的数据模型也分为三个层次:概念模型逻辑模型物理模型1.3数据仓库的技术、方法与产品客观世界到计算机系统的一个中间层次,它最常用的表示方法是E-R法(实体-关系)。指数据的逻辑结构,如多维模型、关系模型、层次模型等。数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现物理存取方式、数据存储结构、数据存放位置以及存储分配等2012/11/6数据仓库与数据挖掘291.3数据仓库的技术、方法与产品二、联机分析处理(OLAP)有关概念维:人们观察数据的特定角度,从不同维属性上的数据进行研究。例如,企业常常关心不同销售数据随时间的变化情况,所以时间就是一个维多维数据集度量值:描述了要分析的数值,例如话费、用户数量等;2012/11/6数据仓库与数据挖掘301.3数据仓库的技术、方法与产品二、联机分析处理(OLAP)有关概念多维分析:OLAP对数据仓库中数据的操作是针对多维数据视图(又称为超立方体)进行的。对立方体的典型操作包括:切片、切块以及旋转等。1.上卷(上钻):数据的汇总通过一个维的概念分层向上攀升或者通过维归约来实现2.下钻(下卷):上卷的逆操作通过沿维的概念分层由高粒度向下下钻到低粒度的层次或者通过引入新的维来实现3.切片选定多维数组的一个二维子集;4.切块选定多维数组的一个三维子集;5.旋转改变一个立方体显示的维方向,切片切块旋转地域年份地域产品图2.1对超立方体的典型操作多维数据模型数据立方体sales中每格的度量可以看作是关联Product、Region和Month的函数ProductMonth涉及的维:Product,Location,Time属性的层次结构和格结构IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay数据立方体样本全年度美国电视机的销售量DateCountrysumsumTVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum2012/11/6数据仓库与数据挖掘341.3数据仓库的技术、方法与产品二、联机分析处理(OLAP)有关概念OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAPOLAP工具2012/11/6数据仓库与数据挖掘351.3数据仓库的技术、方法与产品三、数据仓库实施中的三个关键环节数据抽取:涉及互连、复制、增量、转换、调度和监控等方面。数据存储与管理:大量数据、并行处理、数据表现2012/11/6数据仓库与数据挖掘361.3数据仓库的技术、方法与产品四、数据仓库实施方法论数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败2012/11/6数据仓库与数据挖掘371.3数据仓库的技术、方法与产品五、常用数据仓库产品比较常用OLAP工具介绍;各数据仓库厂商提供的解决方案IBM、Oracle、NCR、Microsoft、SAS等常用的数据仓库产品(请大家课后调研)ORACLE最新版本:11gOWB(OracleWarehouseBuilder)ODI(OracleDataIntegrator)BIEE-BusinessIntelligenceEnterpriseEdition:前端展现工具IBMInfoSphereWarehouse:一款功能全面的数据仓库平台,提供了卓越的可伸缩性与可用性,以及设计、构建、管理工具和业务分析功能。InfoSphereWarehouse由DB2提供支持公司网址:Sybase:WarehouseStudio,包括数据仓库的建模、数
本文标题:第1章 数据仓库的概念与体系结构
链接地址:https://www.777doc.com/doc-4960662 .html