您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第一讲数据仓库概述.
数据仓库与数据挖掘(DATAWAREHOUSINGANDDATAMINING)厦门大学软件学院2教学方式►教学方式课堂教学+实验(15-13=10+3)无指定教材,以电子教案的内容为主线厦门大学软件学院3主要参考书数据仓库基础,[美]PaulrajPonniah著,段云峰等译,电子工业出版社,2004数据仓库,[美]WilliamH.Inmon著王志海等译,机械工业出版社,2006,原书第4版数据挖掘概念与技术,[加]JiaweiHan,MichelineKamber著,范明等译,机械工业出版社,2007厦门大学软件学院4课程考核方法►课程作业2-3次作业比例:20%►平时10%►期末考试70%厦门大学软件学院5教学内容——章节安排1.数据仓库概述2.维度分析与维度建模3.数据抽取、转换与转载4.联机分析处理5.数据挖掘概述6.数据预处理7.挖掘频繁模式、关联与相关8.分类与预测9.聚类分析厦门大学软件学院6第一讲数据仓库概述►WhyDataWarehousing?►DW’sDefinition►DW’sComponent►NowandFuture厦门大学软件学院7§1.WhyDW►对战略信息的不断增长的需要►以往的决策支持系统的失败►操作型系统和决策支持系统►数据仓库:唯一可行的解决方案►数据仓库的功能性定义厦门大学软件学院8►1960年开始的TPS,MIS,DSS►20世纪90年代复杂的商业活动零售业制造业客户忠诚度成本消减市场策划后勤管理金融行业公益事业风险管理资产管理欺诈检测资源管理航空业政府机关航线收益率人力计划区域管理成本控制获得竞争优势的行业厦门大学软件学院9一、对战略信息的不断增长的需要►战略信息(决策信息,strategicinformation)不为企业日常运作所用►商业决策有赖于正确的战略信息►战略信息的特点综合性必须有一个独立的、从企业整体来看的视角数据完整性信息必须是准确的、必须符合商业规则可用性必须通过直观方法容易获得的、对于分析是有用的可靠性每个商业因素都必须有且仅有一个值及时性信息必须是在规定时间内准备好的、待用厦门大学软件学院10二、以往的决策支持系统的失败►IT部门一直努力为公司关键人物提供用于战略决策的信息忙受不到应有的尊重个人价值无法真正的体现►IT部门所作的大部分工作以失败告终从不同的系统查询数据►费了九牛二虎之力得到的报表生命如此短暂数据的不一致性数据完整性差用户不能明确的告诉我们他们到底想要什么►给了第一张报表,他要另外一张报表厦门大学软件学院11决策支持系统的历史►决策支持系统的历史即席查询报表特殊抽取程序小应用程序信息中心决策支持系统主管信息系统厦门大学软件学院12缺乏提供战略信息的能力►过去,每个试图提供战略信息的系统都不能令人满意IT部门接到了太多的特别查询要求,负荷过重这些请求不仅量大,而且总在变用户需要越来越多的补充报表,例如各种可能的组合用户只能依赖IT部门,不能直接访问信息IT部门不能提供适合制定战略决策信息灵活、对分析有指导作用的环境厦门大学软件学院13三、操作型系统和决策支持系统►IT部门试图提供决策的战略信息的尝试大都以失败告终!Why???我们一致试图从操作型系统中提供战略信息我们必须构建能提供战略信息的决策支持系统或者信息系统厦门大学软件学院14操作型系统vs.信息型系统►操作型系统,OLTP取订单处理呼叫装货开发货单收取现金预定座位►信息型系统给我销售量最好的产品名单告诉我出问题的地区告诉我为什么(向下钻取)让我看看其他的数据(横向钻取)显示最大利润当一个地区的销售低于目标值时,提醒我将数据写入数据库从数据库中读取战略信息厦门大学软件学院15操作型系统vs.信息型系统操作型信息型数据内容当前值存档的,推导出来的,总结的值数据结构适于事务处理适于复杂查询访问频率高中、低访问连接类型读取、更新、删除读取使用方法可预知的、反复性的特别查询、随机的、启发式的应用响应时间快一般用户大量较少数厦门大学软件学院16四、数据仓库:唯一可行的解决方案►一种新类型的系统环境为分析任务而设计的数据库从多种应用程序获取的数据使用方便,有益于用户的长时间交互式操作大量读取的数据使用用户可以与系统直接交互内容可靠,定期更新数据包括当前的和历史的用户可以查询,并在线得到结果用户可以创建报表厦门大学软件学院17►新环境下的需求处理:分析性的处理需求。分为四个层次对当前和历史数据简单查询和报表处理可以用很多不同的方法进行“WhatIf”分析可以查询、后退、分析认清过去的发展趋势,并将其应用于对未来结果的分析厦门大学软件学院18►数据仓库的商业智能BI:BusinessIntelligence操作型系统基本商业处理抽取、清洗、聚合数据转换关键度量,商业维度厦门大学软件学院19五、数据仓库的功能性定义►数据仓库是提供战略信息的唯一可行的解决方案►数据仓库功能性的定义数据仓库是一种信息环境,它能够:►提供对企业综合、完整的概括►使决策者所需要的当前数据和历史数据都方便易得►无需妨碍操作型系统,也能使支持决策的处理成为可能►使企业的信息保持一致性►提供了一个灵活的、交互的战略信息来源厦门大学软件学院20数据仓库是信息传递的一种简单概念►数据仓库的来源在于对战略信息的需求和对操作型计算环境的不满►数据仓库不“创造”新的数据►数据仓库概念简单使用所有现存的数据通过清洗、转换提供有用的决策信息厦门大学软件学院21►数据仓库是一种环境,而不是产品你不可能买到数据仓库但你可以构建自己的数据仓库数据仓库新型计算环境的特点►数据分析和决策支持的理想环境►不固定,灵活、交互式操作►100%用户驱动►适合”提问-回答-再提问”的模式厦门大学软件学院22数据仓库是多种技术的混合体►数据仓库的基本概念从操作型系统中提取所有数据在需要的时候可以将外部数据包含其中将多种数据源的所有数据进行整合转换数据,去掉不一致性用适合决策的易于存取的格式存储数据数据建模数据管理数据获取元数据管理分析开发工具应用存储管理数据质量管理§厦门大学软件学院23第一讲数据仓库概述►WhyDataWarehousing?►DW’sDefinition►DWvs.DataMart►DW’sComponent►NowandFuture厦门大学软件学院24►数据仓库的创始者BillInmon:“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’sdecisions.”“数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合”►数据仓库的开拓者SeanKelly,认为数据仓库中的数据是:彼此分离可利用的综合的§2.数据仓库定义包含时间标记的面向主题的非易失性的能访问的能访问的厦门大学软件学院25►“面向主题”的数据在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的在数据仓库中►数据是按主题而不是按照应用程序存储的。►数据是跨应用程序的订单处理客户贷款顾客帐单可接收帐款索赔处理储蓄帐目销售产品客户帐户索赔政策操作型应用程序数据仓库主题厦门大学软件学院26主题:宏观分析领域所涉及的分析对象面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。采用面向事务进行数据组织,其特点为:充分考虑企业的部门组织结构和业务活动反映企业内部数据流动情况,业务处理的数据流程与业务处理流程中的单据、票证、文档有良好的对应数据与应用(数据的处理)有一定的对应►例:保险公司:面向应用(操作):财产险、寿险、健康险、意外险。面向主题:客户、保单、保费、理赔(赔款)。厦门大学软件学院27储蓄帐户支票帐户贷款帐户主题=帐户来自应用程序的数据数据仓库主题►“综合”的数据数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)数据进入数据仓库前,需要进行的标准化工作:►命名规则►编码数据特性度量单位厦门大学软件学院28►数据的“时间特性”数据仓库中的每一个数据结构都包含了时间要素。数据仓库中的数据是和时间变化相关的数据►可以对过去进行分析►与当前的信息相关►可以对未来进行预测厦门大学软件学院29►数据的非易变性(相对稳定)操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新数据仓库中的数据用来进行查询和分析的►不能在数据仓库中实时地删除数据►不能在数据仓库中修改数据决策支持系统操作型系统OLTP数据库数据仓库读取增加修改删除读取厦门大学软件学院30数据粒度(DataGranularity)►数据粒度:数据的细节程度在操作型系统中,数据粒度一般都很细。一般不保存加和的数据。在数据仓库中,保存加和这一个数据项。一般来说,按不同层次组织数据,用户是从高层次向低层次的细节过渡。根据需求的不同,需要不同层次的数据细节。每日数据帐户交易日期数额存款取款月汇总帐户月份交易数取款存款期初结余期末结余季度汇总帐户月份交易数取款存款期初结余期末结余银行数据仓库三个层次的数据粒度厦门大学软件学院31第一讲数据仓库概述►WhyDataWarehousing?►DW’sDefinition►DW’sComponents►NowandFuture厦门大学软件学院32§3.数据仓库的组成部分►数据仓库:各个功能块或组件厦门大学软件学院33一、源数据部分主要类别►生产数据:多个系统多种数据的标准化、转换、整合►内部数据:表格、文档►存档数据:旧的历史的数据►外部数据:社会的企业,社会的人厦门大学软件学院34二、数据准备部分►ETL(ETCL)数据抽取(Extract):多源、异构数据的抽取数据转换(Transform):清洗(Clean)、标准化等过程数据装载(Load)►这个过程需要很多的时间►最初的装载工作需要载入大量的数据►更新周期的决定(年、季、月、日)厦门大学软件学院35三、数据存储部分►数据仓库的数据存储器是一个独立的部分►与操作型的数据库分开存储大多数数据仓库都采用关系数据库管理系统厦门大学软件学院36四、信息传递部分►多种信息传递方式特别的报表复杂的查询多维分析统计分析主管信息系统的需求数据挖掘厦门大学软件学院37五、元数据MetaData描述数据的数据数据仓库内容的一本字典元数据是数据仓库数据本身信息的数据元数据的类型►操作型元数据包含了所有操作型数据源的信息►抽取和转换元数据包含了源数据系统的数据抽取信息(抽取方法、抽取商业规则)►最终用户元数据允许最终用户使用自己的商业术语和自己一般认可的方式来找寻信息元数据对于数据仓库极其重要厦门大学软件学院38第一讲数据仓库概述►WhyDataWarehousing?►DW’sDefinition►DW’sComponents►NowandFuture厦门大学软件学院39§4.数据仓库的发展趋势►数据仓库的持续增长►重要趋势►标准的出现►支持Web的数据仓库厦门大学软件学院40一、数据仓库正在成为主流►最初,有4个主要因素促使大量的公司使用数据仓库激烈的竞争环境政府减少管制重构内部流程的需要急需为用户定制的市场销售策略►目前,DW存在于可以想象得出的所有行业公益事业、媒体/出版业、航空业、咨询业、零售业、高科技产业、金融服务、制药业、软硬件业、商业服务、制造业、消费者服务业、电信业、保险业、运输业、政府部门、医疗卫生、其他、银行业、法律业、教育、石油化工今天电信和银行业继续在DW投入上保持领先的地位,这两个行业的15%预算都用在了DW的建设上►在DW发展初期,建造DW非常昂贵,今天完整的解决方案越来越便宜。厦门大学
本文标题:第一讲数据仓库概述.
链接地址:https://www.777doc.com/doc-2117364 .html