您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > Web数据挖掘现状分析及技术研究
Web数据挖掘现状分析及技术研究[摘要]Web数据挖掘是建立在数据挖掘理论的基础之上的,在庞大的Internet信息源上快速获取有用信息。目前在世界范围内对Web数据挖掘的研究尚处于初级阶段,与国外相比,我国对Web挖掘的研究相对较晚。试图对国内关于Web数据挖掘的研究与应用现状进行综述性地介绍,在把握当前研究现状的基础上,明确今后主要的研究方向与重点问题。[关键词]Web数据挖掘云计算搜索引擎门户网站中图分类号:G655文献标识码:A文章编号:1009-914X(2015)07-0289-01数据挖掘(DataMining,DM)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。1.Web挖掘概述近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,因此,如何在这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而Web挖掘便是指使用数据挖掘技术在数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。2.Web挖掘流程与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:(1)查找资源。从目标Web文档中得到数据。这些信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Web形成的交易数据库中的数据等。(2)信息选择和预处理。从取得的Web资源中剔除无用信息,将信息进行必要的整理。例如,从Web文档中自动去除广告连接和多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。(4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。3.Web数据挖掘的分类Web数据挖掘是一项具有挑战性的课题,它实现对Web存取模式、结构和规则以及动态的Web内容的查找。一般来说,Web数据挖掘可分为4类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0而出现的。3.1Web内容挖掘Web内容挖掘指从Web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。目前,Web内容挖掘一般从两个不同的观点来进行研究:一种是从资源(IR)查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bagofwords)或称向量表示法(vectorrepresentation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。另外一种是从数据库(DB)的观点进行Web内容挖掘,主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。3.2Web结构挖掘Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中,所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的Web文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是图的边,然后利用图对Web的拓扑结构进行分析。Web结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算Web页面之间超链接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。3.3Web使用记录挖掘Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。3.4Web用户性质挖掘Web用户性质挖掘是伴随着Web2.0出现的。基于RSS、Blog、SNS以及Wiki等互联网软件的广泛应用,Web2.0帮助人们从Web1.0时代的各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。面对Web2.0的诞生,Web数据挖掘技术又面临着新的挑战。在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web用户性质挖掘分为5类:(1)个性挖掘。(2)系统改进。(3)站点修改。(4)智能商务。(5)Web特征描述。4.结束语Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学习、跟踪和探索阶段。尽管Web挖掘的形式和研究方向层出不穷,但随着电子商务的兴起和迅猛发展,未来Web挖掘的一个重要应用方向将是电子商务系统,下一步将会有更多的研究者把此作为研究方向。参考文献[1]程苗.基于云计算的Web数据挖掘[J].计算机科学.2011(S1)[2]刘忠沁.Web数据挖掘在高校网站建设中的运用[J].电脑知识与技术.2011(25)
本文标题:Web数据挖掘现状分析及技术研究
链接地址:https://www.777doc.com/doc-2025614 .html