您好,欢迎访问三七文档
数据仓库与数据挖掘讲解人:李婧洁讲稿设计:曾国强刘欢资料收集:吴婷婷李冰洁刘婧桃杜晓霜日常生活的问题:人们在日常生活中经常会遇到这样的情况:•超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;•保险公司想知道购买保险的客户一般具有哪些特征;•医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;企业面临的问题•经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据,它是企业生产经营活动的真实记录,由于缺乏集中存储和管理,这些数据不能为本企业加以利用,不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息数据爆炸:自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中。我们会淹死在数据中,但却为信息、知识所饿!面临的问题•如何使企业或组织在激烈的市场竞争中保持对客户的吸引力?•如何预先发现和避免企业运作过程中不易察觉的商业风险?•如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?不同层次的信息处理需求•事物处理需求•分析处理需求事务处理需求(OLTP)–不同的事务处理子系统•采购子系统:订单、订单细则、供应商•销售子系统:顾客、销售•库存子系统:出库领料单、进料入库单、库存台帐•人事子系统:员工、部门–各种事务处理需求•一笔订购、一笔销售、一次进料、一次出料•要求–强调多用户并发环境,数据的一致性、完整性分析处理需求(OLAP)–今年销售量下降的因素(时间、地区、商品、销售部门)–某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?•要求–多个子系统中的数据(数据集成)–历史数据–汇总、综合的数据•随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持数据库数据仓库•数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP)应用和以分析处理为主的决策支持系统(DSS)应用共存于一个数据库系统时,就会产生许多问题(混乱现象)。•例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。•人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离(不能都在一个数据库环境中)。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。•数据仓库技术正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的定义•数据仓库是一种面向主题的数据管理技术,它提供集成化的、历史的数据管理功能,支持综合性的数据分析,特别是战略分析。•数据仓库构成了DSS和DBMS的技术基础,它必将推动DSS研究的全面发展和方法的实用性化。通俗的解释•人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫作数据仓库。特征及体系结构•数据仓库的特征•数据仓库的体系结构数据仓库的体系结构•一个完整的数据仓库结构一般由6个基本层次组成•1)数据源层。•2)数据后端处理层。•3)数据仓库及其管理层(包括源数据管理)。•4)数据集市层。•5)数据仓库应用层(或称前端处理层)。•6)数据展示层。数据仓库层次结构示意图•数据展示层•数据仓库应用层•数据集市层•数据仓库及管理层•数据后端处理层•数据源层数据挖掘•定义:数据挖掘(DataMining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。经典案例——尿布与啤酒•在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。•原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?数据挖掘能做以下七种分析方法•分类(Classification)•估计(Estimation)•预测(Prediction)•相关性分组或关联规则(Affinitygroupingorassociationrules)•聚类(Clustering)•描述和可视化(DescriptionandVisualization)•复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)数据挖掘分类•直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。•间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘。数据挖掘过程和主要步骤数据挖掘过程简介(1).确定业务对象(2).数据准备1)、数据的选择2)、数据的预处理3)、数据的转换(3).数据挖掘(4).结果分析(5).知识的同化数据挖掘的发展前景•当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。•具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统,例如Weka等软件。•数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就国内情况而言,还有至少20年的发展空间。•决策支持系统(decisionsupportsystem,简称DSS)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。•它是管理信息系统(MIS)向更高一级发展而产生的先进信息管理系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。应具备的特性效率足够高数据质量可靠可扩展性数据仓库的四个主要特征•数据的时变性•数据的非易失性•数据是集成的•面向主题subject-oriented(面向主题性)•面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数据都是围绕着某一主题组织展开的。例如,企业中的客户、产品、供应商等都可以作为主题看待。•从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。•从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。•确定主题是组织数据仓库中数据的前提。integrated(数据集成性)•数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。•数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。time-variant数据的时变性•数据仓库的时变性,就是数据应该随着时间的推移而变化。•尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10前的数据进行决策分析,那决策所带来的后果将是十分可怕的。non-volatile数据的非易失性•数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。原因是数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。数据源•数据源是数据仓库的数据来源,它是多种OLTP系统及外部文件,•一个数据仓库往往可以含多个数据源,这些数据源可以有多种不同数据结构类型,可以有桌面式数据库如Access,也可以是对象关系数据库、面向对象数据库.同时,数据源也可以包括各种数据文件如Excel、Word以及基于、XML等文件形式。•数据源一般可以分布于网络的各个结点,通过网络中的数据接口与数据仓库相互连接。数据后端处理•数据后端处理:数据源中数据经提取、清洗、转换最终成为数据仓库所需的数据。•它的主要工作是为数据仓库提供统一的数据并按阶段及时更新这些数据。数据后端处理•一个完整的后端处理包括下面5个方面•1)数据提取•2)数据清洗•3)数据转换•4)数据加载•5)数据刷新后端处理4个环节的流程图数据仓库及管理层1.数据仓库•数据仓库是存储分析与决策数据的实体。它一般以关系结构形式存储,能支持数据共享。数据仓库及管理数据仓库管理系统(DWMS)是一种专门于管理数据仓库的软件,包括数据仓库中的数据结构构建;数据操纵;数据维护、控制、数据服务等内容。•其具体功能如下:(1)、数据仓库数据模式定义它能定义数据仓库的关系结构,包括数据模式、数据子模式。数据仓库及管理(2)数据仓库的数据操纵在数据仓库中能向用户直接提供的只有一种操作,即只读(或称查询)操作。(3)数据仓库的数据控制数据仓库具有完整性约束控制、数据授权和数据安全以及数据并发控制、故障恢复能力,均与传统数据库类似。数据仓库及管理•(4)数据仓库的数据服务数据仓库管理系统提供对数据仓库中数据的多种服务功能,如数据拷贝,转储,性能监测及网络监控等功能。数据集市•数据集市是一种特殊形式的数据仓库。•数据仓库是面向整个企业决策的数据集合,面向多种应用,具有全局性;而数据集市则是面向企业中部门决策的数据集合,面向特定应用,具有局部性;•由此可见,数据集市是由数据仓库派生而出,针对特定应用的规模更小的,结构更集中的决策数据集合体。•数据仓库与数据集市的有效结合可以使数据仓库更能适应多种应用的不同需求。数据仓库应用层•数据仓库应用层又称前端处理层。该层主要是以数据仓库为基础的应用。目前,该层主要包括有两种应用:(1)分析、决策应用分析、决策应用主要是归纳型的分析、决策。即是以数据仓库中的数据为对象作归纳以获得分析、决策的模式(pattern)或规则(rule)。数据仓库应用层(2)统一平台的建立与应用除了分析、决策应用外,数据仓库还具有为企业已有的多种平台、多种结构、多种语法/语义、多种接口建立统一数据平台的功能,并在该平台上建立企业级应用。数据展示层•在数据仓库应用层之上是数据展示层,即是将应用结果,特别是分析、决策结果以多种媒体形式表示,它还可以通过Web发布数据仓库的数据展示具有多种固定的图板,即固定的表示形式,而每个图板又有多种不同灵活表现手段。图板的类型有多种不同的直方图、条状图、饼图、报表、曲线等。数据展示层•在Web方式下一般还有安全授权功能以控制结果数据的安全性。•目前市场上有多种数据展示工具,有名的有BRIO、BO等,当然也可以通过工具以编程方式实现。OLTP技术•联机事务处理系统(OLTP)也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。最大优点:即输即答,具有实效性。重要性能指标:系统性能,具体体现为实时响
本文标题:数据仓库与数据挖掘
链接地址:https://www.777doc.com/doc-4709393 .html