您好,欢迎访问三七文档
Web挖掘关键技术及研究摘要:近年来,随着计算机的快速发展,利用计算机从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。随着互联网的普及和迅猛发展、Web上信息量的爆炸式增长,网上的资源得到极大丰富,但也充斥着大量的垃圾信息,人们迫切需要能从这些纷繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成熟完善,人们自然而然想到了要把数据挖掘技术应用到Web上来。Web挖掘指在上挖掘潜在的、有用的模式及隐藏的信息过程。该文首先概述了数据挖掘的概念、挖掘算法及其主要应用领域,然后对Web分类以及方法进行了科学的概述,通过对Web内容挖掘、Web结构挖掘和Web日志挖掘详细分析和对主要的挖掘算法及最新研究进展的综合表述,最后介绍了Web挖掘的研究方向和发展趋势。关键词:Web挖掘;Web内容挖掘;Web结构挖掘;Web日志挖掘;结构算法WebminingkeytechnologyandapplicationAbstract:Inrecentyears,withtherapiddevelopmentofcomputerUsecomputerdatafromalargeintelligentlyandautomaticallyextractvaluableknowledgemodelstomeetpeopleofdifferentapplications.WiththepopularityoftheInternetandrapiddevelopment,Web'sexplosivegrowthontheamountofinformation,onlineresourcesareextremelyabundant,butalsofilledwithalotofspam,itistheurgentneedfortheinformationfromthesenumerousWuzafindusefulknowledgeTools.Inviewoftheincreasinglysophisticateddataminingtoolsimprove,peoplenaturallythinkofdataminingtechnologyshouldbeappliedtoWebup.Webminingreferstothe:WebMining;Webcontentmining;WebStructureMining;Weblogmining;StructureAlgorith目录一、引言....................................................5二、WEB数据挖掘的概述.......................................7(一)数据挖掘的基本概念.....................................7(二)WEB数据挖掘分类........................................7(三)数据挖掘的技术方法.....................................8(四)WEB数据挖掘与相关技术...................................91.Web挖掘与传统挖掘......................................92.Web挖掘与信息检索......................................93.Web挖掘与信息抽取......................................9三、WEB挖掘的步骤..........................................11四、WEB挖掘的分类...........................................12(一)WEB内容挖掘...........................................121.Web内容挖掘...........................................122.从资源查找的观点挖掘非结构化文档.......................133.用资源查找的观点挖掘半结构化文档.......................144.从数据库(Database)的观点挖掘非结构化文档.............155.目前Web内容挖掘的主要应用有:........................16(二).Web结构挖掘:......................................161.Web结构挖掘的对象.....................................172.Web结构挖掘在一定程度上得益于社会网络和引用分析的研究..173.Web结构挖掘主要应用领域..............................184.Web结构挖掘领域开展的研究.............................19(三)WEB用法挖掘(WEBUSAGEMINING).........................20五、WEB挖掘相关技术........................................21(一)统计分析方法........................................21(二)关联规则挖掘技术....................................22(三)序列模式挖机技术....................................22(四)分类技术............................................23(五)聚类技术............................................23六、WEB挖掘的发展方向.....................................24七、结束语..................................................25八、参考文献................................................26一、引言Web作为一个巨大的信息源,不仅内容复杂、而且形式各异。随着Web站点自身信息越来越丰富和拓扑结构越来越复杂,目前信息服务中普遍存在着“信息过载”和“资源迷向”的状况。近年来,因特网的飞速发展与广泛应用,使得Web上的量以惊人的速度增长,未来Web将包含人类信息的主要部分,因此,如何从Web中找到感兴趣的内容变得越来越重要。为数据挖掘提供了丰富的数据源和新的研究课题。面对Web丰富的信息内容,巨大的数据量,加之万维网分布、动态、海量、异质、复杂、开放性的特点,人们如何从海量的数据中,查找自己想要的数据和有用信息,迫切需要一种新的技术能自动地从Web资源上发现、抽取盒过滤信息,随之Web挖掘技术应运而生。Web挖掘就是从与相关的资源和用户浏览行为中发现、抽取感兴趣的潜在的有用模式和隐藏的信息。它以从Web上挖掘有用知识为目标,以数据挖掘,内容挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库、人工智能、信息检索、可视化等技术,将传统的数据挖掘技术与Web结合起来。但是,Web挖掘与传统挖掘的数据挖掘相比又有很多独特之处。首先,Web挖掘的对象是大量、异质、分布的Web文档;其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的;此外,由于文档本身是半结构化或无结构的,且缺乏机器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等够来发现知识,因此数据挖掘技术要应用于Web挖掘,应当对Web文档进行预处理。这样,开发新的Web挖掘技术,以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘研究的重点。Web挖掘可在多方面发挥作用,如电子商务中销售搭配、营销策略,搜索引擎结构的挖掘,搜索引擎的的开发,改进网站结构,确定权威界面,Web文档分类,只能查询,个性化信息服务等。二、Web数据挖掘的概述(一)数据挖掘的基本概念数据挖掘(DataMining)就是从大量的、不安全的、有噪声的、模糊的、随机的实际应用数据中,提取潜在的、不为人知的有用信息、模式和趋势,是一种新兴的处理技术。(二)Web数据挖掘分类从挖掘对象、挖掘任务、挖掘方法等几个方面,将数据挖掘划分一下类型。根据挖掘任务分:分类或预测行知识发展、依赖关系或依赖模型发展、异常和趋势发展等等。根据挖掘对象分,有如下若干种数据库或数据源:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、遗产数据库、Web等。根据挖掘方法可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(体统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。机器学习中可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传学习方法等。神经网络方法可细分为:前向神经网络(BP算法)、自组织神经网络(自组织特征映射、竞争学习等)等。(三)数据挖掘的技术方法数据挖掘的方法通常可以分为两大类:一类是统计型,常用的技术概率分析、相关性、聚类分析和判别分析等:另一类是人工智能中的机器学习型。通过训练和学习大量的样品集得出需要的模式或参数。数据挖掘的应用中,最终的目标都是发现有价值的知识信息,有共同的思路和步骤,但是存在很大的差异和区别。由于各种方法有自身的功能特点及应用领域,数据挖掘技术的选择将影响最后结果地质量和效果。下面对数据挖掘中常用的关联分析、决策树和神经网络等几种技术方法进行讨论,包括技术的基本思想、优势与缺点和主要应用领域(见表1)表1技术方法主要功能和特点主要应用领域关联分析分类、聚类零售业、保险业和通讯业决策树归纳分类、直观制造业、医药和零售业等遗传算法聚类、优化、高效性金融业、保险业和农业等贝叶斯网络分类、聚类和预测;易理解医学、制造业和电信等粗糙集方法不去定性分类零售业、金融业和制造业等神经网络预测、分类和聚类;解释性差金融业、保险业和制造业等统计分析聚类;结果精确、易理解金融业、制造业和医学等(四)Web数据挖掘与相关技术1.Web挖掘与传统挖掘Web挖掘从传统的数据挖掘发展而来,但是与传统的数据挖掘相比有许多不同之处。传统的数据挖掘是以数据仓库为基础,对结构化的数据源进行信息的加工、分析和模式挖掘。而Web挖掘的对象是半结构化或无结构的Web文档,Web使用信息以及大量的动态的超链接信息,缺乏机器
本文标题:基于WEB研究
链接地址:https://www.777doc.com/doc-2572552 .html