您好,欢迎访问三七文档
通过调查从Web日志中挖掘感兴趣的知识FedericoMicheleFacca,PierLucaLanzi*摘要网站使用挖掘是指在网站区域内从网络服务器产生的信息中采伐并通过处理后提取感兴趣的知识。在篇论文中,我们将从数据挖掘集在从数据挖掘集受到增长关注的这个区域提出一个新发展的调查法。关键字:机械学习;网站挖掘1引言万维网是数据的一个巨大的数据(可能来自某个网站的内容)来源,公开地显示了数亿可利用的页面,或利用网站使用,显示世界上所有服务器每日收集的日志信息。网站挖掘是在数据挖掘的范围内从万维网中处理并提取感兴趣的知识。更加精确地讲,网络内容挖掘是网站挖掘中关注于在网页中未处理的但却有用的信息那一部分;源数据主要包括在网页中的原文数据(例如文字或者标点等);典型的应用是基于内容的范畴和网页基于内容的等弟。网站结构挖掘是网站挖掘中关注于站点结构的那个部分;源数据主要包括在当前网页结构信息(例如连接或者其他页面等);典型的应用是网页中基于链接的范畴,网页等第通过内容和结构的组合反推网站模型工程。网站使用挖掘是网站挖掘中从服务器记录文件中处理并提取知识的那一部分;源数据主要包括收集当用户进入网络服务器时的并且可能以标准格式(例如普通日志格式,延长的日志格式等)表现的(原文)日志。典型的应用是那些基于用户的用户建模技术,例如如网上个性、适应性网站和用户建模。近年来网站挖掘研究领域得到蓬勃的发展,尤其在网站使用挖掘方面更加突出。自20世纪90年代中期,就已经出版了有关网站挖掘的论文,到目前为止已有400多篇了;大概有150个文章,400个全面著作,在2001年前已经出版;差不多50%左右的论文是关于网站使用挖掘。第一个工作小组就这个话题webkdd,于1999年举行研究讨论.自2000年以来发表论文150多篇关于网站使用挖掘的文章,表明了在这一领域引起了人们更多的兴趣。还有一些文章概述了在网站挖掘领域自1996年来的发展状况。(R.Kosala,H.Blockeel,Webminingresearch:asurvey,SIGKDD:SIGKDDexplorations:newsletterofthespecialinterestgroup(SIG)onknowledgediscovery&datamining,ACM2(1)(2000)1–15.)定义了网站挖掘、网络内容挖掘提供分类、网站结构挖掘和网站使用挖掘;定义Web挖掘、网络内容挖掘提供分类、Web结构挖掘和Web使用挖掘;然后它提供的一项主要集中在网站内容挖掘领域的调查结果。(J.Srivastava,R.Cooley,M.Deshpande,P.-N.Tan,Webusagemining:discoveryandapplicationsofusagepatternsfromwebdata,SIGKDDExplorations1(2)(2000)12–23.)展现调查研究在网站使用挖掘领域中主要关于在可利用的商业方式和websift工程(以前称为聚类)。最近,(S.Pal,V.Talwar,P.Mitra,WebMininginsoftcomputingframework:relevance,stateoftheartandfuturedirections,IEEETransactionsonNeuralNetworks13(5)(2002)1163–1177.)也概述了软计算技术(如神经网络、模糊逻辑、遗传算法、而粗糙集)用于应用与网站挖掘特别是网站内容挖掘;同时也展现了几个基于网站使用挖掘技术应用的实例。本文是调查领域的最新发展,网站使用挖掘。相比之下,我们仅仅关注网站使用挖掘,尤其是自2000年来的相关文献报道的研究成果和当前可用的软件。这项调查是基于2000年以来发表的150余篇有关网站使用挖掘话题的论文。由于不可能在此一一列举我们提供一个在线目录()。本文安排如下:起初,我们讨论不同类型且可以从用户导航处收集的网站使用数据(第2部分)。那么我们主要关注对所收集的日志数据(第3部分)的预处理就是网站数据为了不同的需要而被进一步过滤,例如:整理枯燥的数据等,确定用户的上网记录(例如用缓存),成为关系数据库存储数据,或者提供一个架构以便下一步的充分挖掘。下一步,我们概览两个关于提供正交观点的网站使用挖掘课题:挖掘技术(第4部分)及应用(第5部分).在第6部分我们讨论有关商业和当前可供网站使用挖掘展现任务的公共软件包。在第7部分,我们提供了一个对照在典型的网站使用挖掘、雇佣技术和涉及类的数据源。在第8部分,我们讨论的隐私问题在使用中出现的网站使用挖掘应用,可以准确地跟踪用户的行为。最后,在第9部分,我们展现我们所认为在这一领域的未来的研究趋势,。
本文标题:网络日志挖掘
链接地址:https://www.777doc.com/doc-2072068 .html