您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 数据挖掘在WI中的应用综述
数据挖掘在WI中的应用综述摘要:基于WEB的数据挖掘是当前相当热门的方向之一,本文对此作了一个比较全面的综述。概括了基于WEB的数据挖掘的主要概念和特点,说明各类WEB挖掘尤其是基于WEB使用的挖掘所常用的技术,最后简单介绍了XML在基于WEB数据挖掘中的应用。关键字:数据挖掘、Web智能、基于WEB的数据挖掘、基于WEB使用的数据挖掘、半结构化、XMLAbstract:Aswebminingisoneofthehottestresearchfieldspresently,thissurveyintroducesit,sbasicconceptsandcharacteristics,includingsemi-structureddatamodel.Threetypesofwebminingandtheirapplicationsarediscussedinthispaper,especiallythewebusagemining.UsingXMLinwebminingisalsostatedinthelastofthearticle.Keywords:Datamining,WI,WebMining,WebUsageMining,Semi-structured、XML随着Internet技术特别是技术的飞速发展,Internet已经变成了一个庞大的、分布式的、异构的数据库和应用计算平台。Web的大小和复杂性导致了对web页面的存储、管理和检索的巨大困难,原有的基于数据库和文本的理论、方法和技术很难直接应用到web上,因此,必须增强和发展相关的理论和技术来有效处理与web相关的问题。在这样的背景下,一个崭新的研究方向——web智能(Webintelligence,WI)应运而生,并已成为一个新的研究热点。Web挖掘及其分类万维网(World-wide-Web)是一个巨大的、分布广泛的和全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。Web上包含有丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,于是产生了一个更具挑战性的研究领域——Web挖掘。一、数据挖掘所谓数据挖掘DataMining就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程。数据挖掘的诞生是人们对数据库技术进行长期研究和开发的结果,而数据挖掘技术发展的同时它又反过来促使数据库技术进入了一个更高级的阶段:传统的数据环境基本上是数据操作型的传统的信息系统只负责数据的增删及修改操作而在数据库的基础上可实现的工作就是OLTP(OnLineTransactionProcess联机事务处理)。现在由于数据积累的不断增多,人们需要分析型的数据环境,于是就出现了由数据库导出的数据仓库,以此为基础则可以实现OLAP(OnLineAnalysisProcess联机分析处理):随着海量数据搜集的可能计算机处理技术的增强和先进数据挖掘算法的提出,数据挖掘技术不仅能对过去的数据进行查询和遍历,而且能够找出过去数据之间潜在有价值的联系并以一定的形式表现出来,从而极大的满足了人们对知识的迫切需求。数据挖掘基于的原始数据是形成知识的源泉,它既可以是结构化的如关系数据库中的数据,也可以是半结构化[4]的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。本文将着重讨论一种针对半结构化数据的挖掘—基于WEB的数据挖掘[10],主要介绍了它的基本概念以及经常采用的技术最后简单说明了XML在其中的应用。二、WI框架1、WI的概念web智能(Webintelligence,WI)是一个崭新的研究方向,要想给出它的一个精确的定义是非常困难的,但是,我们又必须给出一个定义来界定它的研究内容和范畴。WI的4位发起人NingZhong,JimingLiu,YiyuYao和OhsugaSetsuo在他们的有关WI的文献和报告中都给出了WI的初步概念,总的来说,不外乎下列两种:(1)WI是指在web和Internet上充分利用人工智能(AI)和高级信息技术(IT)。WI的目标是AI和IT在新的Web平台上的联合目标,即wI将AI和IT应用到基于Web的智能信息系统的设计与实现上。(2)WI是指在Web支持的系统、环境和活动中,探测人工智能和高级信息技术的基本作用和实际影响。WI的目标是产生使我们能够在生活、工作和娱乐中充分利用web基础结构所提供的全局连通性的理论和技术。综上两个定义可以得到这样一个定义公式:WI=AI+IT引。这个公式说明AI和IT是WI的基础,WI是AI和IT的融合。也有学者提出了计算Web智能(computationalwebintelligence,CWI)的概念,即将计算智能(computationalintelligence,CI)与高级信息技术结合起来并应用到web上,并列出CWI技术的7个主要研究领域,即模糊WI(fuzzyWI,FWI)、神经网络WI(neuralWI,NWI)、进化WI(evolutionaryWI,EWI)、概率WI(probabilisticWI,PWI)、粒度wI(granularWI,GWI)、粗糙WI(roughWI,RWI)和混合WI(hybridWI,HWI)。在他们看来,WI定义中的AI是指经典的基于符号的AI。其实,就像CI与AI的关系一样,从广义上来说,WI应该包括CWI,CWI是WI重要的组成部分。2、WI功能和技术框架从功能和技术层次上来说,WI技术至少可以分成如图1所示的4个概念层次:Level-4Application-levelubiquitousandsocialintelligenceutilitiesLevel-3Knowledge-levelinformationprocessingandmanagementtoolsLevel-2Interface-levelmulti-mediapresentationstandardsLevel-1Internet-levelcommunication,infrastructureandsecurityprotocols图1:WI的概念层次其中:(1)Internet层。Web被看做计算机网络系统,WI技术需要解决web的分布式存取问题、安全和通信问题以及网络本身的特性研究问题。(2)接口层。Web被看做人与Internet交互的接口,在该层,WI技术需要开发具有交叉语言处理能力、个性化多媒体表示能力和多模式处理能力的智能web接口。(3)知识层。Web被看做一个分布式的知识库或数据库,为便于机器的理解和基于Agent的自动计算,WI技术需要开发语义标记语言来表示web的语义内容。(4)应用层。Web被看做建立社会智能网络的基础。WI技术需要对建立在Internet上的社会网络或各种虚拟社团提供智能支持。进一步地,WI技术还要对日趋增长的各种无线普及设备的访问提供个性化服务。上述关于WI功能和技术层次的划分,对于WI技术的研究具有整体层次上的指导意义,使我们能够从宏观上把握各层所要研究的内容及各层所要支持的功能。Support对于一个具体的应用来说,一般要涉及到其中的几个层次或需要几个层次从下到上的共同支持。例如基于Agent的Web挖掘、无线普及设备的访问和与WI相关的软计算等。因此,不能简单地将某个层次隔离开来进行研究。3、WI目前的研究内容为了更好地说明WI的定义,可以进一步从外延上界定WI的研究范围,目前WI的具体研究内容包括web信息系统的环境和基础、web信息管理、web挖掘、webAgent、web信息检索、web人本媒体工程(webhumanmediaengineering)以及基于web的应用等7个方面。随着Internet的不断发展和WI研究的不断深入,WI的研究范围将会进一步地变化和扩展。三、基于WEB的数据挖掘的主要概念1、什么是基于WEB的数据挖掘当前网络发展迅速,各种网站比比皆是。但在竞争日益激烈的网络经济中,只有赢得用户,才能最终赢得竞争的优势。作为一个网站的管理员或拥有者,应该知道用户都在他的网站上干什么,知道网站哪些部分最为用户喜爱,哪些让用户感到厌烦,什么地方出了安全漏洞,什么样的改动带来了显著的用户满意度,提高什么样的改动反而丢失了用户等等。“知己知彼”,才能“百战不殆”。而基于WEB数据挖掘技术正能满足这些需求。就基于WEB数据挖掘的确切定义,到目前为止还没有很明确而权威的说法。国外有认为:基于WEB数据挖掘,就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。国内则众说纷纭,有认为是在大量已知数据样本的基础上得到数据对象间的内在特性,并以此为依据在WEB中进行有目的的信息提取过程。同时,也有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发等等。总之,基于WEB的数据挖掘(WebMining)正是从万维网(WorldWideWeb)上获取原始数据中从中挖掘出隐含其中且潜在可用的知识最终应用于商业运作以满足管理者的需要。2、基于WEB数据挖掘的分类根据挖掘的对象不同我们可以把基于WEB的数据挖掘分为三大类:基于WEB内容的挖掘(WebContentMining);基于WEB结构的挖掘(WebStructureMining);基于WEB使用的挖掘(WebUsageMining)[5]。如图2所示。图2:Web挖掘三种基本类型(1)基于WEB内容的挖掘Web内容挖掘是对web上大量文档的集合进行总结、分类、聚类与关联分析来获取有用信息。web页面的内容主要分为三类:无结构的自由文本,半结构的超文本文档和结构化的文档。web内容挖掘[8]的主要目的是改进信息查询与过滤的过程,通过建立新的Web数据模型以便可以进行不只是基于关键字的更复杂的查询。Web文本/超文本的内容挖掘是Web内容挖掘的重点,但是作为Web内容挖掘一部分的多媒体数据挖掘在近几年来受到许多的研究人员的关注。文本总结就是从文档中抽取关键信息,对文档信息进行摘要,这样用户可以不必查看全文就能获得文档的大体内容。文本分类就是根据预先定义的主题,将文档分到不同的主题类别中去。文本聚类与分类不同,它没有预先定义的主题类别,而是根据文档内容的相似性将尽可能相似的文本归为一类。文本聚类可将搜索引擎的检索结果划分为若干类,用户只需相关的类从而减少所需要浏览结果的数量。关联分析就是从Web文档中找出不同词语之间所隐含的联系。Brin提出了一种从大量文档中发现一对词语出现模式的算法,并用来在Web上寻找作者与文章名之间出现的模式,从而发现数千本在Amazon网站上找不到的新书籍。2、基于WEB结构的挖掘Web文档不但包括文档内容,而且包括页面之间的链接。然而大多数信息检索工具仅仅利用网页上的内容,却忽视了页面链接所包含的有价值信息。web结Web挖掘内容挖掘结构挖掘使用挖掘文本挖掘多媒体挖掘个性化使用分析访问模式分析文档内结构挖掘超链接挖掘URL挖掘构不仅含有不同页面之间的超级链接,还包括以HTML或XML表示的树形结构,文档URL的目录路径结构。通过挖掘这种网页结构信息可以获得能有助于加深对Web文档内容理解的模式,这些模式能展示大量有用的隐含信息。比方说,指向一个文档的链接体现了该文档的被引用情况,而从一个文档发出的链接则体现了该文档所覆盖的主体的种类。这可以同文献的引用情况相比较,如果某篇文章经常被引用,说明它非常重要。通过分析网页的URL信息,可以找到已经改变位置的网页。还可以通过分析文档的内存结构可以找到相似网页。CLEVER中的方法正是利用了文档间的链接信息来查找相关的网页。Web结构挖掘有着广泛的应用,主要有:1)指导采集网页:利用网页间链接的信息对网页质量进行评定,按照网页的质量依次对网页进行采集,使得用户能从少量的网页中找到高质量的网页。2)聚类检索结果:目前大多数方法都是采用文本
本文标题:数据挖掘在WI中的应用综述
链接地址:https://www.777doc.com/doc-2333453 .html