您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 一种基于网页质量的PageRank算法改进
一种基于网页质量的PageRank算法改进作者:陈小飞,王轶彤,冯小军,ChenXiaofei,WangYitong,FengXiaojun作者单位:复旦大学计算机科学技术学院,上海,200433刊名:计算机研究与发展英文刊名:JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENT年,卷(期):2009,46(z2)被引用次数:0次参考文献(18条)1.BrinS.PageLTheanatomyofalarge-scalehypertextualWebsearchengine1998(1-7)2.KleinbergJMAuthoritativesourcesinahyperlinkedenvironment1999(5)3.ChakrabartiS.DomBE.KumarSRMiningtheWeb'slinkstructure1999(8)4.PalS.TalwarV.MitraPWebmininginsoftcomputingframework:Relevance,stateoftheartandfuturedirections2002(5)5.DingC.HeX.HusbandsPLinkanalysis:Hubsandauthoritiesontheworld,4784720016.XingWGhorbaniAweightedPageRankalgorithm20047.PageL.BrinS.MotwaniRThepagerankcitationranking:BringingordertotheWeb[SIDL-WP-1999-0120]19998.RidingsC.ShishiginMPagerankuncovered20099.CarvalhoALC.PaulAC.EdlenoSMSitelevelnoiseremovalforsearchengines200610.GyongyiZ.Garcia-MolinaH.PedersenJCombatingWebsparewithTrustRank200411.BenczurAA.CsaloganyK.SarlosTSpamrank-fullyautomaticlinkspamdetection200512.PrO-Google'sPageRank0200813.DMOZopendirectoryproject200814.Yahoo!directoryservice200815.Yahoo!YahooDeveloperNetwork200816.GibsonDavid.KumarRavi.TomkinsAndrewDiscoveringlargedensesubgraphsinmassivegraphs200517.WuB.DavisonBDUndueinfluence:EliminatingtheimpactoflinkplagiarismonWebsearchrankings200618.褚静波.王轶彤.汪卫一种有效的自动识别与过滤噪链的方法2008(增刊)相似文献(10条)1.学位论文杨春伟Web挖掘及其在网络搜索引擎中的应用研究2007随着网络技术的迅猛发展,Internet已成为当今世界上最大的信息库,也是全球范围内信息传播的重要渠道。由于Web本身的庞大性、动态性、异构性和半结构化等特点,导致了Web信息搜索的困难。目前人们从这些海量数据中查找有用信息,使用最多的就是网络搜索引擎,然而当前搜索引擎的检索效果很难使用户满意。作为知识挖掘中新的研究内容Web挖掘,由于其在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大的借鉴作用,所以通过应用Web挖掘技术,可以改善搜索引擎的检索性能。查准率是搜索引擎检索性能评价体系中的重要指标,它的高低直接影响用户对搜索引擎的满意度。课题旨在研究Web挖掘技术,并将其应用到搜索引擎中,找到提高搜索引擎查准率的方法。探讨了网络搜索引擎和Web挖掘的相关技术,重点研究了Web结构挖掘算法,分析了目前应用广泛的PageRank算法存在的问题,结合Web内容挖掘中的页面相似度改进了传统的PageRank算法,实验证明对算法的改进是有效的。在此基础上,改进了主题敏感的PageRank算法。通过一个小型Web结构图,阐述了改进的主题敏感PageRank算法是如何应用到搜索引擎中的。同时计算了搜索引擎在分别使用传统PageRank、主题敏感PageRank算法和改进主题敏感PageRank算法时的相对查准率。实验结果表明,针对不同的查询,改进的主题敏感PageRank算法使搜索引擎的相对查准率高于传统的PageRank算法和主题敏感PageRank算法,进而证明了改进的Web挖掘算法能够提高搜索引擎的查准率,改善搜索引擎的检索性能。2.学位论文宋军基于用户访问模式的搜索引擎超链分析技术研究2003第三代搜索引擎有如下几个特点:索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至几十亿个网页;由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点.相关的研究又可以分为两类;一类是对超文本链的分析;另一类是用户信息的反馈.该文从将这两种途径结合的角度出发,在挖掘用户访问模式的基础上对超链分析的算法进行了改进,提出了基于频繁访问路径的PageRank算法.该文的主要工作是在分析现有的计算检索结果相关度算法的基础上,结合对用户反馈信息——用户访问模式的挖掘,提出了一种改进的检索结果排序算法:基于频繁访问路径的PageRank算法.论文还给出了实验结果,在实验对比的基础上说明了基于频繁访问路径的PageRank算法的排序结果与普通的PageRank算法有在排序结果上有了很大的改进.3.期刊论文焦金涛.JIAOJin-tao基于PageRank的Web挖掘改进算法-计算机工程2009,35(15)针对Google使用的PageRank算法,提出一种改进的Web挖掘算法.实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法.实验结果证明,改进算法可以提高网页重要性判断的准确度.4.学位论文周军基于图的模式挖掘及其应用研究2009当前,WorldWideWeb(简称)系统正在从深度和广度两个方面飞速发展着,Web已成为一个巨大的信息来源地,Internet在前所未有地改变我们的生活,浏览则成为人们最主要的日常生活之一。浏览中的两个常见问题是:搜寻与获取有益信息的困难问题及信息搜寻行为的效率低下问题;现有的静态Web站点结构不能满足人们快速、准确地找到其所需要的信息以及享用个性化服务的要求,个性化站点的研究能够改善网络信息泛滥和服务缺乏个性化的问题。如何建立个性化的适应用户各种需求的Web站点已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的理论意义和实际应用价值。本文以WEB使用数据为基础,采用数据挖掘技术研究服务个性化问题,主要进行了以下几个方面的研究:首先,作为对Web使用挖掘和个性化服务进行研究的开始和基础,本文首先对Web使用挖掘中各个阶段以及挖掘技术进行了全面的分析和探讨;并且研究了Web使用挖掘以及实现站点个性化的相关理论;展望了Web使用挖掘未来的研究方向。其次,介于Web挖掘与站点个性化的需要,本文用有向带权图来表示网站结构,通过用户的访问记录估算出各个页面之间相互引用概率同时实现用户聚类,最终通过改进的PageRank算法计算出相对各组用户的权威页面,为实现站点个性化提供了基础。最后在个性化站点系统框架构方面,设计了一个完整的基于WEB使用挖掘的个性化站点系统框架。系统是一个不断循环的过程,先是通过Web站点采集数据,作必要的数据预处理工作后,接着结合预处理以后的数据并结合站点结构数据进行数据挖掘,最后把获得的知识投入应用。整个框架可以应用到现有的WEB站点中,使站点具备个性化的特征。5.学位论文陈时勇Web挖掘中搜索引擎的研究2009随着互联网的快速发展与广泛应用,网络上的信息量几乎每天以百万级的速度增长,互联网已成为当今人们获取所需资源和信息交流的主要场所。Internet是一个开放的网络,网络中的信息具有分布、动态、异质、复杂、开放性及海量数据的特点,没有统一的管理和结构,使得人们很难很快搜索出真正需要的信息,如何快速、准确地从浩瀚的信息资源中找到有用的信息是网络用户面临的一个大问题,因此希望有新的工具来定位信息资源。br 网络信息搜索技术结合了现代信息检索技术和的相关技术,旨在研究开发出一个智能化的搜索软件,能在网络上自动地进行信息发现和索引,建立结构化索引库,向用户提供查询服务,这种技术的呈现给用户的表现就是搜索引擎。br 随着互联网的迅猛发展,搜索引擎的发展越来越需要借助各种技术来进一步推动。作为数据挖掘中新的研究内容的Web挖掘,由于自身在信息处理中的层次较高,与搜索引擎的关系非常密切,对搜索引擎技术有很大推动、辅助作用。所以搜索引擎通过应用Web挖掘技术,可以增强信息处理能力,使得信息检索发展到一个新的水平。搜索引擎中一个很重要的关键点就是把搜索到的页面中最重要的信息展现给用户。这就涉及到网页的排序问题。br 本文在首先学习了Web挖掘和搜索引擎的基础知识,分析了两者之间的区别,指出Web挖掘对搜索引擎发展的辅助作用,并引出本文研究对象——PageRank算法。br 在PageRank排序算法进行深入研究的基础上,提出对PageRank算法的改进PRP(PageRankbasedonPagelevel)算法,并在PRP算法的基础上进行分析完善,提出了BPP(BasedonPageRank’sPageRank)算法,并通过模拟试验证明PRP算法和BPP算法比PageRank算法具有一定的优越性。6.学位论文李树青Web个性化信息推荐技术在搜索引擎中的应用2006快速发展的现代互联网在带给人们大量信息的同时,也不可避免的产生了如何让用户快速有效获取信息的问题。作为一种常见的Web信息资源检索工具,搜索引擎日益受到人们的关注和广泛的使用,它面向任何Web用户,无需用户具有较高的专业检索知识,使用方式也较为简单,搜索引擎已经成为人们获取Web资源的一种主要方式。然而,现代搜索引擎也存在着很多不足,其中最为主要的一个问题就是由于采用了全文检索的匹配方法,所以用户往往会得到相当多的查询结果网页,而用户一般只会访问其中感兴趣的网页,但是相当多的搜索引擎缺乏对用户个性化信息的利用,从而不能实现有针对性的个性化信息服务。事实的情况就表现为即使是具有不同个性化信息需求的用户,在输入相同检索词语的时候也会得到相同的结果,甚至是相同的网页排列次序。这些问题显然需要得到解决。借鉴在电子商务网站中广泛使用的Web个性化信息推荐技术,本文提出了一个较为可行的解决方案,即在搜索引擎中使用Web个性化信息推荐技术以实现个性化搜索引擎。然而,传统的Web个性化信息推荐技术具有很多并不适合搜索引擎的特点,只有结合搜索引擎工作的原理和特点。在现有的Web个性化信息推荐技术基础上加以改进,才能设计出具有个性化信息推荐能力的智能搜索引擎。本文的选题是《Web个性化信息推荐技术在搜索引擎中的应用》,通过对基于个性化信息推荐技术的搜索引擎框架和基本技术的探讨,主要介绍了利用搜索引擎服务器日志中所具有的关键词序列得到用户模式,并按照事务模式聚类的方法实现用户个性化特征的表达,最后在搜索引擎的网页索引中,利用得到的用户个性化特征改进传统的PageRank算法。通过上述工作,本文构建了一个完整的基于Web个性化信息推荐技术的搜索引擎框架结构。这种框架结构的设计思想主要考虑了两点内容:一个是尽量减少用户使用的复杂度,能够让用户在完全无需关注个性化过程的情况下,来表达自己的个性化信息需求和得到所需的个性化信息;另一个是尽量在现有搜索引擎技术基础之上进行优化和完善
本文标题:一种基于网页质量的PageRank算法改进
链接地址:https://www.777doc.com/doc-428627 .html