您好,欢迎访问三七文档
1七Web挖掘技术Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法2Web挖掘的价值从大量的信息中发现用户感兴趣的信息:因特网上蕴藏着大量的信息,通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的“表面信息”,Web挖掘可以发现潜在的、丰富的关联信息。将Web上的丰富信息转变成有用的知识:Web挖掘是面向Web数据进行分析和知识提取的。因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息,而这些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。对用户进行信息个性化:网站信息的个性化是将来的发展趋势。通过Web挖掘,可以达到对用户访问行为、频度、内容等的分析,可以得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务方的设计,提供个性化的服务。3七Web挖掘技术Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法4Web挖掘的类型Web挖掘依靠它所挖掘的信息来源可以分为:Web内容挖掘(WebContentMining):对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。Web访问信息挖掘(WebUsageMining):Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web结构挖掘(WebStructureMining):Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。5七Web挖掘技术Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法6Web挖掘的含义WeB挖掘是一个看宽泛的概念,可以简单地描述为:针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。7Web挖掘与信息检索两种截然不同的观点:Web上的信息检索是Web挖掘的一个方面:Web挖掘旨在解决信息检索、知识抽取以及更宽泛的商业问题,是Web上IR技术的延伸。这种观点大多来自于数据挖掘研究领域。Web挖掘是智能化的信息检索:对于IR领域的研究人员来说,Web挖掘是IR研究向着智能化的方向发展的结果。信息检索可能经常被说成是Web挖掘的初级阶段,是为了强调Web挖掘不是简单的信息索引或关键词匹配技术,而是实现信息浓缩成知识的过程,它可以支持更高级的商业决策和分析。8Web挖掘与信息抽取Web上的IE的研究目的是希望从众多的Web文挡中抽取可供分析的信息,与Web挖掘的关系也有不同的观点:IE是Web挖掘整个过程的一部分:这是因为Web上的数据一般是半结构化或无结构的,因此需要进行规格化的信息抽取这样的预处理。Web挖掘是IE的一个特殊技术:既然IE是希望把Web蕴藏的信息抽取出来,那么Web挖掘或者文本挖掘只不过是达到这个目的的特殊技术手段。信息抽取经常被说成是Web挖掘的一个预处理阶段,那是因为在数据挖掘领域,Web挖掘的更广义的理解应该是一个知识提取的完整过程。9七Web挖掘技术Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法10Web挖掘的主要数据源Web挖掘的数据来源是宽泛的:凡是在Web站点中对用户有价值的数据都可以成为它挖掘的数据源。由于这些对象的数据形式及含义的差异,其挖掘技术会不同。一些比较有代表性的数据源有:服务器日志数据:Web访问信息挖掘的主要数据源。在线市场数据Web页面Web页面超链接关系其他信息11七Web挖掘技术Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法12Web内容挖掘的主要方法一种Web内容挖掘的分类方法是分为代理人方法和数据库方法。代理人方法使用软件系统(代理)来完成内容挖掘。数据库方法将所有的Web数据描述为一个数据库系统。意味着Web是一个多级的异构的数据库系统,可以通过多种查询语言来获得Web的信息来完成信息的抽取。13文本挖掘是Web内容挖掘的基础文本挖掘(TD)的方式和目标是多种多样的,基本层次有:关键词检索:最简单的方式,它和传统的搜索技术类似。挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。14搜索引擎与Web内容挖掘传统的搜索引擎(SearchingEngine)效率低下。由于是基于Web中超文本结构分解的:它从一个网页开始的,通过查阅和记录这个网页的所有连接并把它们排列起来,然后再从找到的新页面继续开始重复工作。利用数据挖掘技术来改进搜索引擎是有价值的。这种价值体现在许多方面。例如,通过对搜索结果进行关联分析或聚类等,对结果进行清洗和浓缩。面向主题进行搜索,即只检索与某一主题有关的页面。聚焦用户感兴趣的页面,在有限的资源下使有效内容挖掘力度提高。15虚拟的Web视图一个有效的解决在Web中大量无结构数据的方法是在这些数据之上建立一个MLDB(MultipleLayeredDatabase)。这个数据库是多层次的,每层索引都比它下一层要小。对于最底层来说,需要了解Web文档结构,而最高层则有着完善的结构并可以通过类似SQL的查询语言进行访问或挖掘。MLDB提供一个被称为VMV(VirtualWebView)的视图机制,Web中的感兴趣的结构被浓缩在这个视图中。等级概念(近意词组、词汇和语义联系等)将帮助归纳过程来架构更高层的MLDB。16个性化与Web内容挖掘通过个性化,网页的内容和组织将更加适合用户的需要。个性化服务是Web挖掘技术的重要目标之一。通过个性化,基于用户所关心内容的广告会被发送到潜在的用户。当一个特别的用户访问一个站点时,会有一个特别为它定制的广告出现,这对那些可能购买的用户来说是一个极大的诱惑。Web内容挖掘的目的之一是基于页面内容相似度进行用户分类或聚类的,个性化的建立是通过用户过去的检索内容分析而建立起来的。自动的个性化技术可以通过过去的需要和相似用户的需要来预知特定用户将来的需要。17Web页面内文本信息挖掘挖掘的目标是对页面进行摘要和分类。页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。页面分类:分类器输入的是一个Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一个新输入的页面。在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次,那么其值就为k;页面中的词如果不出现在列集上,可以被放弃。这种方法可以表征出页面中词的频度。对中文页面来说,还需先分词然后再进行以上两步处理。18Web页面内多媒体信息挖掘多媒体挖掘是一个大研究分支,总的挖掘过程是先要应用多媒体信息特征提取工具,形成特征2维表,然后就可以采用传统的数据挖掘方法进行挖掘。在特征提取阶段,利用多媒体信息提取工具进行特征提取。一般地,信息提取工具能够抽取出image和video的文件名、URL、父URL、类型、键值表、颜色向量等。对这些特征可以进行如下挖掘操作:关联规则发现:例如,如果图像是“大”的而且与关键词“天空”有关,那么它是蓝色的概率为68%。分类:根据提供的某种类标,针对特征集,利用决策树可以进行分类。19七Web挖掘技术Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法20Web访问信息挖掘的特点Web访问数据容量大、分布广、内涵丰富和形态多样Web访问数据包含决策可用的信息Web访问信息挖掘对象的特点访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。每个页面的内容可以被抽象出不同的概念,访问顺序和访问量部分决定概念。用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。21Web访问信息挖掘的数据源由于Web世界的分布性,用户访问行为被广泛地分布记录在Web服务器、用户客户端,和代理服务器中。在各个分布地点的不同的用户访问信息表征了不同类型的用户访问行为。挖掘工作必须针对数据的特点来决定相应的挖掘任务。用户访问信息的分布简单归结为:服务器方:一般地,在一个Web服务器上,服务器日志记录了多个用户对单个站点的用户访问行为。客户方:一般地,在客户端计算机上,客户端的代理记录了单个用户对单个站点或单个用户对多个站点的用户访问行为。客户端的Cache记录了用户访问内容。客户端的BookMark也记录了单个用户对单个站点的访问偏好。客户端代理服务器:代理服务器记录了多个用户对多个站点的访问行为,同时代理服务器内部的Cache记录了多个用户对多个站点的访问内容。22Web访问信息挖掘的预处理Web访问信息挖掘的基础和最烦琐的工作是数据的预处理。预处理用户访问信息是整个数据准备的核心工作,也是开展下一阶段Web访问信息挖掘的基础。预处理阶段主要的工作是识别用户访问事务和访问片断。WebUsageMining在预处理阶段主要的工作有:数据清洗识别用户访问事务23在Web访问挖掘中的常用技术1.路径分析路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。2.关联规则发现使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。3.序列模式发现在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。4.分类发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。5.聚类可以从WebUsage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。24七Web挖掘技术Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法25页面重要性的评价方法在设计搜索引擎等服务时,对Web页面的链接结构进行挖掘以得出有用的知识是提高检索效率的重要手段。Web页面的链接类似学术上的引用,因此一个重要的页面可能会有很多页面的链接指向它。定义7-3设u为一个Web页,Fu为所有u指向的页面的集合,Bu为所有指向u的页面的集合。设Nu=|Fu|为从u发出的链接的个数,c(1)为一个归一化的因子(因此所有页面的总的Page
本文标题:Web挖掘技术
链接地址:https://www.777doc.com/doc-7153213 .html