您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 基于数据仓库的数据挖掘技术
第一章数据库、数据库管理系统与数据仓库第1章数据库、数据库管理系统与数据仓库1.1数据库与数据库技术1.1.1数据、数据库与数据库系统1.1.2数据库系统的特点1.1.3数据库技术新发展1.2数据仓库1.2.1从传统数据库到数据仓库1.2.2数据仓库的基本特性1.3数据仓库及其数据分析工具1.3.1联机分析与数据挖掘1.3.2数据仓库与数据挖掘1.3.3数据仓库未来发展方向1.1数据库与数据库技术数据库是按一定组织方式存储在计算机存储器中的相互关联的数据集合,数据库的建立独立于程序。数据库管理系统是一个管理数据库的软件系统,它为用户提供了描述数据库、操纵数据库和维护数据库的方法和命令,并且能自动控制数据库的安全以及数据完整。数据库系统是在文件系统的基础上发展起来的。数据库系统是一个具有管理数据库功能的计算机系统,它包括应用软件、数据库、数据库管理系统和数据库管理人员几部分。1.1.1数据、数据库与数据库系统1.数据(Data)数据是信息系统的基本概念和计算机系统要处理的基本对象之一。严格地说,数据可定义为:数据是对客观事物记录下来的、可以鉴别的符号。数据是客观事物的属性、数量、位置及相互关系等等的抽象表示。2.数据库(DataBase,DB)数据库是自描述的,这个描述称作数据字典(或数据目录,或元数据)。3.数据库系统(DataBaseSystem,DBS)数据库系统是指在计算机系统中引入数据库后的系统。4.数据库管理系统随着计算机软、硬件和相应技术的发展,数据管理经历了人工管理、文件系统和数据库系统3个阶段。1.1.2数据库系统的特点1.数据的结构化2.数据的共享性3.数据的独立性4.数据统一由DBMS管理和控制(1)数据的安全性(2)数据的完整性(3)并发控制(4)数据库恢复1.1.3数据库技术新发展1.数据模型:关系数据库与面向对象数据库(1)关系数据库用数字来表明自然界的各种事物是按照实体、属性、值进行的。关系数据库是支持关系模型的数据库系统,而关系模型由关系数据结构、关系操作集合和完整性约束三部分组成。(2)结构化查询语言SQLSQL是结构化查询语言(StructedQueryLanguage),也被称为StandardQueryLanguage(标准化查询语言)。SQL有两大突出的特点:一是所有SQL数据库中的数据都存储在表中,一个表有行和列组成。二是这种语言被设计为不允许按照某种特定的顺序来取出,使用SQL只能按查询条件来读取记录。(3)面向对象数据库面向对象数据库系统是数据库技术与面向对象程序设计方法相结合的产物。图1-4数据库系统ODBCAPI应用程序ODBC驱动程序管理器ODBC驱动程序ODBC驱动程序ODBC驱动程序数据源数据源数据源将传统数据库技术与其他学科的内容相结合以开发新型数据库是数据库技术的一个新发展,目前已经发展出一些新型的数据库系统。如:分布式数据库、并行数据库、知识数据库、主动数据库系统、多媒体数据库、模糊数据库。2.传统数据数据库技术与其他技术结合3.面向应用的数据库数据库技术被应用于特定领域中时,就出现了数据仓库、工程数据库、统计数据库、空间数据库、科学数据库等多种数据库,使数据库领域的应用范围不断扩大。1.2.1从传统数据库到数据仓库传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:(1).决策处理的系统响应问题(2).决策数据需求的问题(3).决策数据操作的问题(4).数据仓库与传统数据库的比较1.2.2数据仓库的基本特性1.数据仓库的定义数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。表1-1数据仓库与数据库的对比对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序,重复处理面向主题域,分析应用数据特性动态变化,按字段更新静态、不能直接更新,只能定时添加、刷新数据结构高度结构化、复杂,适合操作计算简单、适合分析使用频率高中到低数据访问量每个事物只访问少量记录有的事物可能需要访问大量记录对响应时间的要求以秒为单位时间长2.数据仓库的基本特征(1)数据仓库的数据是面向主题的(2)数据仓库的数据是集成的(3)数据仓库是随时间变化的(4)数据仓库是不可更新的1.3.1联机分析与数据挖掘1.联机分析处理技术及工具联机分析处理OLAP(On-LineAnalyticalProcessing)应用是不同于与联机事务处理(OLTP)的一类应用。它专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。2.数据挖掘技术和工具数据挖掘(DataMining,DM)是从超大型数据库(VLDB)或数据仓库中发现并提取隐藏在内部的信息的一种新技术。目的是帮助决策者寻找数据间潜在的关系,发现经营者被忽略的要素,而这些要素对预测趋势、决策行为也许是十分有用的信息。数据挖掘技术是可以满足和解决当前“数据太多,信息不足”的技术。对于数据挖掘和知识发现(KnowledgeDiscoveryinDataBase,KDD)的确切定义一直有混淆。(1)数据挖掘严格来说,数据挖掘可定义为:应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。(2)知识发现过程1.数据准备2.数据挖掘3.结果表述和解释1.3.2数据仓库与数据挖掘1.数据仓库与数据挖掘数据挖掘和数据仓库作为决策支持新技术,在近10年来得到了迅速发展.数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。二者的联系可以概括为以下几点:(1)数据仓库为数据挖掘提供了更好的、更广泛的数据源(2)数据仓库为数据挖掘提供了新的支持平台(3)数据仓库为更好地使用数据挖掘工具提供了方便(4)数据挖掘为数据仓库提供了更好的决策支持(5)数据挖掘对数据仓库的数据组织提供了更高的要求(6)数据挖掘还为数据仓库提供了广泛的技术支持2.数据仓库与数据挖掘的区别数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含大量的历史数据、当前的详细数据以及综合数据,能为不同用户的不同决策需求提供所需的数据和信息。3.基于数据库技术的DSS解决方案1.3.3数据仓库未来发展方向1.数据仓库技术和应用数据仓库技术的发展包括数据抽取、数据管理、数据表现和方法论等方面。数据仓库的发展趋势主要表现在三个方面:(1)对非结构化数据的处理(2)实现共享数据(3)对信息进行打包2.国内数据仓库的需求与应用特点国内数据仓库的需求主要表现在如下方面:(1)由于银行商业化的步伐正在加大,各大、中型银行开始重新考虑自身的业务,特别是加强对自身的信贷风险的管理,因而对有关信贷风险管理和风险规避的决策支持系统的需求逐渐多了起来。(2)由于电子商务的迅速发展,不少网站开始考虑如何提高对顾客的忠诚度,为客户提供更进一步的“贴身”服务。(3)各大型企业如移动通信局等开始考虑着手进行决策支持以及数据仓库规则。虽然国内的数据仓库市场经过了多年的发展,但是比起国外大企业所建的巨型企业级数据仓库来讲,还只能算是刚刚起步,还存在很多的不足之处,主要表现为以下几点:(1)计算机应用水平较低,无法提出决策支持需求,所以很多企业无法马上实施数据仓库。(2)缺乏数据仓库方面的人才。(3)缺乏以国内环境为背景的范例和成功应用。(4)数据仓库概念过大,很多用户感觉可望不可及。小结1.1数据库与数据库技术1.1.1数据、数据库与数据库系统1.1.2数据库系统的特点1.1.3数据库技术新发展1.2数据仓库1.2.1从传统数据库到数据仓库1.2.2数据仓库的基本特性1.3数据仓库及其数据分析工具1.3.1联机分析与数据挖掘1.3.2数据仓库与数据挖掘1.3.3数据仓库未来发展方向
本文标题:基于数据仓库的数据挖掘技术
链接地址:https://www.777doc.com/doc-26465 .html