您好,欢迎访问三七文档
(一)中文翻译结果Part1.什么是数据挖掘简单来说,数据挖掘可解释为从大量数据中提取或“挖掘”知识。该术语事实上用的不妥。记住从矿石或砂子中挖掘黄金叫做黄金挖掘,而不是矿石挖掘。所以,数据挖掘应当更恰当地命名为“从数据中挖掘知识”,这不幸的是这个有点儿长。“知识挖掘”,一个短语,可能不能反映出从大量数据中挖掘的重点。毕竟,挖掘是一个生动的术语,特点在于从大量的、未加工的材料中发现少量金块这一过程。于是,这种用词不当携带了“数据”和“挖掘”,就成了流行的选择。还有一些术语,具有和数据挖掘类似但稍有不同的含义,如数据库中的知识挖掘、知识提取、数据及模式分析、数据考古和数据捕捞等。很多人把数据挖掘视为另一个常用的术语,即在数据库中的知识发现或KDD。可选择地,另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现的过程由以下步骤组成:1.数据清理:消除噪声或不一致数据2.数据集成:多种数据可以组合在一起3.数据选择:从数据库中检索与分析任务相关的数据4.数据变换:通过例如概括汇总或者聚集操作的方式将数据变换或统一成适合挖掘的形式5.数据挖掘:一项不可或缺的步骤,使用智能方法提取数据模式6.模式评估:在某种兴趣度度量的基础上,识别代表知识的真正有趣的模式,7.知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。这种数据挖掘的步骤可以与用户或知识库进行交互。有趣的模式可提供给用户,或作为新的知识存放在知识库中。注意,根据这种观点,数据挖掘只是整个过程中的一个步骤,却是最重要的一步因为它为模式评估揭开了隐藏的模式。我们同意数据挖掘是一个知识发现过程。但是,在产业界、媒体和数据库研究界,“数据挖掘”比那个较长的术语“数据库中知识发现”更为流行。梭子,在书中,我们选用术语是数据挖掘。我们采用数据挖掘的广义观点:数据挖掘是从存放在数据库中或其他信息库中的大量数据中挖掘出有趣知识的过程。基于上述观点,一个典型的数据挖掘构造具有以下主要成分:1.数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。2.数据库、数据仓库服务器:根据用户的数据挖掘请求,数据库、数据仓库服务器负责提取相关数据。3.知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其他例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。4.数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。5.模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚集在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能深地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。6.图形用户界面:本模块在用户和数据挖掘系统之间进行通信,允许用户与系统进行交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式进行可视化。从一个数据仓库观点来看,数据挖掘可以看作联机分析处理(OLAP)的高级阶段。但是,通过结合更高级的数据理解技术,数据挖掘比数据仓库的汇总型分析处理得更远。尽管市场上已有许多“数据挖掘系统”,但是并非所有系统的都能进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多是被分类为一种机器学习系统、统计数据分析工具或实验系统原型。一个系统只能够进行数据或信息检索,包括在大型数据库中找出聚集的值或回答演绎查询,应当归类为数据库系统,或信息检索系统,或演绎数据库系统。数据挖掘涉及多学科技术的集成,例如数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析。我们采用数据库的观点。即,着重强调在大型数据库中有效的和可伸缩的数据挖掘技术。一个算法是可伸缩的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。通过数据挖掘,可以从数据库提取有趣的知识、规律或者高层信息,并可以从不同的角度来观察或浏览。发现的知识可以用于决策、过程控制、信息管理、查询处理,等等。因此,数据挖掘被信息产业界认为是数据库系统最重要的前沿之一,是信息产业中最有前途的交叉学科。数据挖掘是一个交叉学科的领域,受到多个学科的影响,包括数据库系统、统计学、机器学习、可视化和信息科学。此外,依赖于所用的数据挖掘方法,以及可以使用的其他学科的技术,如神经网络、模糊和/或粗糙集理论、知识表示、归纳逻辑程序设计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可以集成空间数据分析、信息检索、模式识别、图形分析、信号处理、计算机图形学、Web技术、经济、商业、生物信息学或心理学领域的技术。因为多个学科对数据挖掘有所帮助,数据挖掘研究中就产生了大量的、各种不同类型的数据挖掘系统。所以,对数据挖掘系统提供一个清楚的分类很有必要。这种分类可以帮助用户区分数据挖掘系统,识别出最适合其需要的数据挖掘系统。根据不同的标准,数据挖掘系统可以有以下分类:1.根据挖掘的数据库类型进行分类。数据挖掘系统可以根据挖掘的数据库类型进行分类。数据库系统本身可以根据不同的标准(如数据模型,或数据或所涉及的应用类型)来分类,每一类都可能需要自己的数据挖掘技术。这样,数据挖掘系统就可以据此进行相应的分类。例如,如果是根据数据模型来分类,我们可以有关系的、事务的、面向对象的、对象-关系的或数据仓库的数据挖掘系统。如果是根据所处理的数据的特定类型分类,我们可以有空间的、时间序列的、文本的或多媒体的数据挖掘系统,或是的数据挖掘系统。2.根据挖掘的知识类型进行分类。数据挖掘系统可以根据所挖掘的知识类型进行分类。即根据数据挖掘的功能,如特征化、区分、关联、分类聚类、孤立点分析和演变分析、偏差分析、类似性分析等进行分类。一个全面的数据挖掘系统应当提供多种和/或集成的数据挖掘功能。此外,数据挖掘系统也可以根据所挖掘的知识的粒度或抽象层进行区分,包括概化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层)。一个高级的数据挖掘系统应当支持多抽象层的知识发现。数据挖掘系统还可以分类为挖掘数据规则性(通常出现的模式)和数据不规则性(如异常或孤立点)这几种。一般地,概念描述、关联分析、分类、预测和聚类挖掘数据规律,将孤立点作为噪声排除。这些方法也能帮助检测孤立点。3.根据所用的技术进行分类。数据挖掘系统也可以根据所用的数据挖掘技术进行分类。这些技术可以根据用户交互程度(例如自动系统、交互探查系统、查询驱动系统),或利用的数据分析方法(例如面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等)来描述。一个复杂的数据挖掘系统通常采用多种数据挖掘技术,或是执行有效的、集成的技术,这些技术结合一些独立方法的优点。Part2.数据挖掘教程塞思保罗杰米麦克伦南唐昭辉斯科特欧俉桑摘要:微软SQLServer2005年为创建和实行数据挖掘模型工作提供了一个完整的环境。本次教程引用以下四个例子:目标邮购,预测分析,市场篮子,序列簇等来阐释如何使用挖掘模型算法,挖掘模型浏览器,和数据挖掘工具,以上是包含在本次发布的SQLServer中。本文件所包含的信息代表了微软公司对于当前出版日期的讨论的看法。因为微软必须响应不断变化的市场条件,它不应被解释为是一种代表微软的承诺,微软和Microsoft不能保证出版日期后提出的任何资料的准确性。介绍数据挖掘教程设计形成旨在引领你体验使用微软SQLServer2005创建数据挖掘模型的过程。这种数据挖掘算法和工具在SQLServer2005中能够很容易地建立一个全面的解决方案适用于各种各样项目的实现,包括市场篮子分析,预测分析,和目标邮购分析。对这些解决方案的描述在教程里有更深入的细节解释。SQLServer2005最明显可见的部分是用于创建和从事数据挖掘模型的工作室。在线分析处理(OLAP)和数据挖掘工具被统一为两个工作环境:商业智能开发工作室和SQLServer管理工作室。使用商业智能开发工作室,你可以在与server断开下建立一个分析服务项目。当项目准备好,你可以发布它到server上。你也可以直接从事服务器工作。SQLServer管理工作室的主要功能是管理服务器server。后面每一个环境都有详尽细节解释。想获取更多关于从两个环境中选择的信息,请看SQLServer联机丛书中的“在SQLServer工作室和商业智能开发工作室中选择”。所有数据挖掘工具中存在于数据挖掘编辑器中。使用这种编辑器,你能够管理挖掘模型,创造新模式,审视模型,比较模型,和在已有模型上形成预测。在你建立一个挖掘模型后,你会想探索它,寻找有趣的模式和规则。编辑器中每个挖掘模型视图都被定制为用一种具体算法创建的探索模型。想了解更多关于视图的信息,请看SQLServer联机丛书中的“查看数据挖掘模型”。通常你的项目会包含许多挖掘模型,所以在使用模式创建来预测之前,你要能决定定哪些模式最准确。基于这个原因,编辑器包含一个模型比较工具挖掘精度的图表标签。使用此工具,你可以比较准确的预测模型和你确定最佳模式。为创建数据预测,你将使用DME语言,DMX扩展了SQL语法,包含了一些创建修改和建立数据预期的命令,关于DMX的详细信息,请看SQLBOL中的“DataMiningExtensions(DMX)Reference”章节。因为建立一个数据预测可能会比较复杂,所以数据挖掘编辑器包含了一个工具叫做预测查询创建器,它允许你在一个图形化的界面下编辑DMX查询语句,你也能在该工具中可以查看自动生成的DMXcode。同样重要的是了解数据挖掘模型的结构本身。建立一个数据模型的关键在于数据挖掘算法。这种算法在你翻阅数据中寻找需要的部分,并且转换这些数据成为一个可操作的数据模型,SQL2005包含以下9钟算法:1.决策树2.簇3.传统贝叶斯4.序列簇5.时间系列6.联结7.神经网络8.线性回归9.逻辑回归结合使用这9种数据算法,你能够创建适应大部分商业逻辑的数据挖掘解决方案,本教程将详细的介绍这些算法。一些重要的创建数据挖掘解决方案的步骤是来整理准备那些用于建立数据模型的数据,SQL2005包含一个DTS的工作环境以及一些DTS的工具用于清理验证准备数据,关于DTS的更多信息请查看SQLBOL中的DTSDataMiningTasksandTransformations。为阐述SQL2005中的数据挖掘特性,本教程使用了一个新的示例数据库AdventureWorksDW,该数据库包含在SQL2005中它提供OLAP以及数据挖掘的一些实例数据。为了使用这个数据库你需要在安装SQL的时候选择它。Adventure数据库AdventureWorks是在一个叫做“AdventureWorksCycles”虚构的自行车制造公司的基础上而创建的。AW公司生产并向北美,欧洲和亚洲的商业市场销售金属和复合材料的自行车,主要的操作都在WashingtonBothell通过500员工来完成,,以及一些地区销售部门遍及市场。AdventureWorks通过网络批发和出售他们的产品,本教程中的数据模型实例需要你使用这些网络销售数据作为数据模型。商业智能开发工作室商业智能开发工作室是一套设计来创建商务智能工程的工具。因为商业智能开发工作室是创建在IDE环境中的,在该环境中,你可以在与server断开状态下创建一个完整的解决方案。你能想改多少数据挖掘对象就改多少,但在你发布该项目前,这些改变不会反映在服务
本文标题:数据挖掘的译文
链接地址:https://www.777doc.com/doc-2333572 .html