您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 能源与动力工程 > 数据挖掘的新技术资料
数据仓库与数据挖掘李志刚教授李志刚教授第8章数据挖掘的新技术本章要点:1.文本挖掘技术的基本概念,挖掘过程和应用;2.Web数据挖掘技术;3.数据可视化技术,可视化数据挖掘技术的应用;4.地理信息系统,空间数据挖掘;5.分布式数据挖掘系统及分布式数据挖掘研究现状。数据仓库与数据挖掘李志刚教授第8章数据挖掘的新技术8.1文本挖掘技术8.2Web数据挖掘技术8.3可视化数据挖掘技术8.4基于GIS的空间数据挖掘技术8.5分布式数据挖掘数据仓库与数据挖掘李志刚教授8.1文本挖掘技术8.1.1文本挖掘概述8.1.2文本挖掘的过程8.1.3文本挖掘的方法8.1.4文本挖掘与信息检索8.1.5文本挖掘的应用数据仓库与数据挖掘李志刚教授8.1.1文本挖掘概述文本挖掘(TextMining)是数据挖掘的一个分支,它是把文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从中寻找信息的结构、模型、模式等各种隐含的知识,这种知识对用户而言是新颖的,具有潜在价值。文本挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系,它从大型数据库中提取尚未被人们认识到的模式或关联。因此,文本挖掘技术的出现为文本信息的整理、分析、挖掘提供了有效手段。数据仓库与数据挖掘李志刚教授8.1.1文本挖掘概述文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和数据挖掘技术。它的主要用途是从原本未经使用的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。文本挖掘在商业智能、信息检索、生物信息处理等方面都有广泛的应用。例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。数据仓库与数据挖掘李志刚教授8.1.2文本挖掘的过程文本挖掘过程一般包括文本准备、特征标引、词频矩阵将维、知识模式的提取、知识模式的评价、知识模式的输出等过程。如下图:特征标引文本准备词频矩阵降维知识模式的提取特征标引知识模式的输出数据仓库与数据挖掘李志刚教授8.1.2文本挖掘的过程(1)文本准备阶段是对文本进行选择、净化和预处理的过程,用来确定文本型信息源以及信息源中用于进一步分析的文本。具体任务包括词性的标注、句子和段落的划分、信息过滤等。(2)特征标引是指给出文本内容特征的过程,通常由计算机系统自动选择一组主题词或关键词可以作为文本的特征表示。(3)词频矩阵将维就是自动从原始特征集中提取出部分特征的过程,一般通过两种途径:一是根据对样本集的统计分析删除不包含任何信息或只包含少量信息的特征;二是将若干低级特征合成一个新特征。数据仓库与数据挖掘李志刚教授8.1.2文本挖掘的过程(4)知识模式的提取是发现文本中的不同实体、实体间概念关系以及文本中其他类型的隐含知识的过程。(5)知识模式评价阶段的任务是从提取出的知识模式集合中筛选出用户感兴趣的、有意义的知识模式。(6)知识模式输出的任务是将挖掘出来的知识模式以多种方式提交给用户。文本挖掘可以完成不同文档的比较,以及文档重要性和相关性排列,或者找出多文档的模式及趋势。数据仓库与数据挖掘李志刚教授8.1.3文本挖掘的方法文本挖掘可以对大量文档集合的内容进行总结、关联分析、分类和聚类分析等。挖掘文本数据库的方法如下:(1)文本总结。文本总结是从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要创览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用。例如,搜索引擎在向用户返回查询结果时,可以给出文档的摘要,便于用户的理解。数据仓库与数据挖掘李志刚教授8.1.3文本挖掘的方法(2)基于关键字的关联分析。关键字的关联分析首先要收集经常一起使用的关键词或词汇,然后找出其关联或相互关系。在这类分析中,每一个文档被视为一个事务,文档中的关键字组可以视为事务中的一组事务项。这样,这种基于关键字的关联分析就变成事务数据库中事务项的关联挖掘问题。一些经常连续出现或紧密相关的关键字可以形成一个词或词组。关联分析有助于找出复合关联,即领域相关的词或词组,如[计算机,软件,硬件]。与文本数据库中大多数数据分析和搜索引擎中的方法一样,关联分析首先要对文本数据进行分析、词根处理(即词根还原,一个词的多种变形视为一个词,如do、done、doing、does、did均视为一个词)、去除停用词、去除一部分对文章语义分析无意义的词(主要是介词、冠词,如in、the、of等),然后调用关联挖掘算法。在文档数据库中,把每个文档作为一个事务,文档中的关键词组可视为事务中的一组事务项。这样文档数据库中关键字关联规则挖掘的问题就转化为事务数据库中项集的关联规则挖掘问题。数据仓库与数据挖掘李志刚教授8.1.3文本挖掘的方法(3)文档分类分析。通过对文档分类分析,可以把大量的联机文档自动分类组织,便于对文档的检索和分析。在文档的分类分析中,一般的做法是先把一组预先分类过的文档作为训练集,然后对训练集加以分析以便得出分类模式。这种分类模式一般要经过一定的测试过程,不断细化。最后用分类模式对其他文档加以分类。常用的一种对文档分类的有效方法是基于关联的分类。这种分类方法是基于一组相关联的、经常出现的文本模式对文档加以分类。其处理过程为:首先通过简单的信息检索技术或关联分析技术提出关键字或词汇,然后使用已有的词类,或基于专家知识,或用关键字分类系统,生成关键字和词的概念层次,最后使用词级关联挖掘方法发现一组关联词。这样,每一类文档相关由一组关联规则表示。这些分类规则可以基于其出现频率和识别能力加以排序,并用于对新的文档进行分类。数据仓库与数据挖掘李志刚教授8.1.3文本挖掘的方法(4)文档聚类分析。文档聚类是把文档集合分成不同组的自动过程。文档聚类与分类的不同之处在于,聚类没有预先定义好主题类别,它的目标是将文档集会分成若干个组,要求同一组内文档内容的相似度尽可能大,而不同组间的相似度尽可能小。当文档的内容作为聚类的基础时,不同组对应于集合中讨论的不同主题或论题。因此,聚类是找出集合所含内容的一条途径。为帮助识别出一组主题,聚类工具可以识别出在此组文档中频繁出现的术语或词的列表。聚类也能根据文档的属性集(例如它们的长度、日期等)实施。数据仓库与数据挖掘李志刚教授8.1.4文本挖掘与信息检索信息检索的过程就是根据用户的输入,例如关键词或示例文档,查找相关文档的过程。由于数据库系统和信息检索是处理不同类型数据的,因此有些数据库问题,诸如并发控制和恢复、事务管理与更新,通常并不在信息检索系统中出现。同样,信息检索系统处理的某些问题在数据库系统中也未得到充分的重视。例如,信息检索领域中处理非结构化文档的问题(比如用关键词进行模糊查询),以及处理基于查询文档的相关程度检索文档的问题。文本挖掘中对文本信息的表示则更加准确,通常使用词和短语来表示文本的概念内容。在文本挖掘系统中,大多采用神经网络模型描述文本及文本集合中各概念之间、文本与文本之间以及概念和文本之间的相互关系。而在信息检索系统中,则不需要分析文本中概念之间的相互关系,只是根据用户的查询要求返回相关文本集合。数据仓库与数据挖掘李志刚教授8.1.4文本挖掘与信息检索信息检索领域一般用查全率和查准率,对检索的效果进行量化评价。信息检索主要解决文本的标引问题,使用倒排文本数据结构来表示文本信息。为了提高信息检索的效率,信息检索系统在不断添加新的功能,如文本分类、文本聚类、自动摘要和主题词自动抽取等方法,使用户能够更加方便地从不同途径准确地查找到所需信息。自动摘要能够减轻用户测览相关文本所需的时间,使用户能够快速地掌握相关文本中的内容。文本的自动分类和自动聚类能够根据文本的内容信息将文本集合划分为不同的类或者簇,方便用户查找所需信息。数据仓库与数据挖掘李志刚教授8.1.5文本挖掘的应用人们已经开发出许多基于文本挖掘技术的实用软件,如基于用户兴趣的文本过滤器、基于语义和统计相结合的文本摘要系统、基于各种机器学习算法的文本分类系统、可视化的中文文本挖掘系统等。这些软件或使用某种文本挖掘技术,或综合使用多种文本挖掘技术,其中一些作为核心功能部件被集成到其他类型的应用软件中,成为智能搜索引擎、网络信息智能过滤系统、知识管理系统、电子商务应用系统、电子政务应用系统、办公自动化系统和竟争情报系统等软件系统的一部分。数据仓库与数据挖掘李志刚教授8.1.5文本挖掘的应用具体说来,文本挖掘的应用可以概括成以下几个方面:1.在电子邮件管理申的应用利用文本挖掘构建的电子邮件路由,可以在对电子邮件进行文本挖掘以后,确定由哪个部门、哪个人来处理这些电子邮件,并且可以根据电子邮件的内容进行相关统计。2.在文档管理中的应用文档管理是许多组织中十分繁琐而又重要的工作,通过文本挖掘可以帮助组织对成千上万的文档实现有效的管理,可以使组织很快地了解需要查询的文档的所在位置,以及其包含的内容。数据仓库与数据挖掘李志刚教授8.1.5文本挖掘的应用3.在客户自动问答系统中的应用企业可以用文本挖掘来建立一个客户自动问答系统,对客户所寄的邮件、电子邮件进行文本挖掘以后,根据其反映的主要问题,能够在确定客户的需求还拒度以后,自动给客户发送合适的回信。4.在市场研究中的应用企业可以用连机文本挖掘系统对因特网上所出现的特定词、概念和主题进行挖掘统计,进而对市场进行客观的统计分析。5.在情报收集中的应用企业可以用一些具有文本挖掘功能的自动智能网络爬虫,收集与企业有关的市场、竞争对手以及市场环境的信息,并给出总结性的分析报告。数据仓库与数据挖掘李志刚教授8.2Web数据挖掘技术8.2.1Web挖掘概述8.2.2Web的特点8.2.3Web挖掘分类8.2.4Web挖掘流程8.2.5Web数据挖掘的常用工具8.2.6Web挖掘的应用数据仓库与数据挖掘李志刚教授8.2.1Web挖掘概述Web挖掘指使用数据挖掘技术在数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。在这些大量、异质的Web信息资源中,蕴含着具有巨大潜在价值的知识.人们迫切需要能够从Web上快速、有效地发现资源和知识的工具.Web上的搜索引擎部分地解决了资源发现问题,但由于精确度不高等原因,其效果远不能使人满意.数据仓库与数据挖掘李志刚教授8.2.1Web挖掘概述搜索引擎的目的在于发现Web上的资源,就Web上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任.为此,我们需要开发比信息检索层次更高的新技术.为了从大量数据的集合中发现有效、新颖、有用、可理解的模式,数据库领域采用了数据挖掘技术.但是,数据挖掘的绝大部分工作所涉及的是结构化数据库,很少有处理Web上的异质、非结构化信息的工作.Web挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣.同时,它也是一个富于争议的研究方向.目前,对于Web挖掘的含义、功能等尚无统一的结论,需要国内外学者在理论上开展更多的讨论以进行精确地定义.此外,Web挖掘系统的开发对其研究也将起到很大推进作用。数据仓库与数据挖掘李志刚教授8.2.2Web的特点Web是一个非常成功的基于超文本的分布式信息系统。Web的特点如下:1.庞大性。Web为全球范围发布和传播信息提供了机会,它允许任何人在任何地方任何时间传播和获取信息。由于Web的开放性,使得WCb上的信息与日俱增,呈爆炸性增长。2.动态性。Web不仅以极快的速度增长,而且其信息还在不断地发生更新。新闻、公司广告、股票市场、Web服务中心等都在不断地更新着各自的页面。链接信息和访问记录也在频繁更新之中。数据仓库与数据挖掘李志刚教授8.2.2Web的特点3.异构性。从数据库研究的角度出发,We
本文标题:数据挖掘的新技术资料
链接地址:https://www.777doc.com/doc-3629421 .html