您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 基于PageRank算法的搜索引擎优化策略研究
基于PageRank算法的搜索引擎优化策略研究作者:张巍学位授予单位:四川大学参考文献(38条)1.SergeyBrin.RajeevMotwaniWhatcanyoudowithaWebinyourPocket2.SergeyBrin.LawrencePage.Theanatomyofalarge-scalehypertexualwebsearchengine19983.DanThiesTSPR理论——如何应对GooglePageRank排名新算法4.李晓明.刘建国搜索引擎技术及趋势2000(16)5.孟小峰.曹巍Web查询语言分析与比较2000(04)6.王芳.张晓林元搜索引擎:原理与利用[期刊论文]-现代图书情报技术1998(6)7.徐永川Internet搜索引擎的探讨[期刊论文]-图书馆学刊2003(4)8.SLawrence.CLGilesAccessibilityofinformationontheWeb19999.RaymondKosala.HendrikBlockeelWebMiningResearch:ASurvey200010.FeldmanDaganKnowledgediscoveryintextualdatabases(kdt)199511.顾晓燕关于Web挖掘技术的研究2005(02)12.李凯.赫枫龄.左万利PageRank-Pro--一种改进的网页排序算法[期刊论文]-吉林大学学报(理学版)2003(2)13.PhilCravenGoogle'sPageRankExplainedandhowtomakethemostofit14.BruceEckel.侯捷Java编程思想200215.TaherHHaveliwalaTopic-SensitivePageRank200216.AlbertoOMendelzon.DavoodRafieiWhatdotheneighborsthink?200017.JullenG.StefanMRLink-basedApproachesforTextRetrieval200118.TaherHHaveliwalaEfficientComputationofPageRank199919.ChrisRidingsPageRankExplained200120.KrishnaB.AndreiB.MonikaHTheConnectivityServer:FastAccesstoLinkageinformationontheWeb1998(1-7)21.KrishnaB.GeorgeA.MihailaWhenExpertsAgree:UsingNon-AffiliatedExpertstoRankPopularTopics2002(01)22.DellZhang.YishengDongAnEfficientAlgorithmtoRankWebResources200023.SBrin.LPage.RMotwaniThePageRankCitationRanking:BringingordertotheWeb199824.ArvindArasu.JunghooCho.HectorGarciaSearchtheWeb2001(01)25.JonMKleinbergAuthoritativeSourcesinaHyperlinkedEnvironment1999(05)26.FarahatA.TLoFaro.LAWardExistenceandUniquenessofRankingVectorsforLinearLinkAnalysisAlgorithms27.RLempelSMoran.TheStochasticApproachforLinkStructureAnalysisandtheTKCeffect2000(33)28.陈定权Web信息检索技术最新进展[期刊论文]-现代图书情报技术2002(2)29.曹军Google的PageRank技术剖析[期刊论文]-情报杂志2002(10)30.刘同明数据挖掘技术与应用200131.陈伟雄基于元搜索的中文搜索引擎的研究与实现200432.JiaweiHan.MichelineKamber.范明.孟小峰数据挖掘概念与技术200133.杨炳儒.李岩.陈新中.王霞Web结构挖掘[期刊论文]-计算机工程2003(20)34.郑琳搜索引擎的质量评价研究[期刊论文]-情报杂志2003(9)35.徐宝文.张卫丰搜索引擎与信息获取技术200336.夏立新论网络信息的索引方式[期刊论文]-情报杂志2003(10)37.RMotwani.PRaghavanRandomizedAlgorithms199538.JohnHMathews.KurtisD.陈渝.周璐.钱方数值方法2002相似文献(10条)1.学位论文陈鑫卿搜索引擎技术中的Web结构挖掘算法研究2003今天,人们寻找上的信息,通常是在搜索引擎上执行一个查询.很多搜索引擎是基于关键词的,对于每一个查询,他们返回一个与查询内容匹配的Web网页的序列.对于宽话题查询,这样的搜索引擎经常得到一个较大的含有相关文档的集合,这些文档大多数是用户不感兴趣的.然而,Web网页中存在着丰富的超链接结构信息,利用Web结构挖掘技术可以从中挖掘出有用的信息来改进搜索引擎技术.在这种情况下,JonKleinberg(在他的论文Authoritativesourcesinahyperlinkedenvironment)介绍了下面的概念:1.权威网页——包含与查询匹配的网页中最具权威性的网页的一个小的子集,该集合中的网页有很多入链接.2.枢纽页——那些指向多个权威网页的网页.Kleinberg认为权威和枢纽之间有一种相互加强的关系:好的枢纽指向好的权威,而好的权威被好的枢纽所指向,并根据这种关系设计了一种计算权威网页的Hub/authority算法.Brin和Page也提出Page-rank算法,并将它应用于搜索引擎google.但是,上述的两种算法还存在一定的不足,文章通过对这两个算法进行分析(研究他们的共性及不足)提出了一种更为一般的计算权威网页的算法;同时还定义了一部分概念用于对这些算法进行评价;最后将新提出的发现权威网页的算法和Hub/authority算法在人工拓扑上和局域网上进行了试验并对实验结果做了比较,得出了该算法在发现权威网页时比Hub/authority算法好.2.期刊论文冉丽.何毅舟.许龙飞基于Web结构挖掘的搜索引擎作弊检测方法-计算机应用2004,24(10)搜索引擎作弊行为从搜索引擎优化中演变而来,却对网络发展带来负面影响.通过构造站内站外精简模型用于判断几类作弊行为,得出PageRank改进算法中惩罚因子的公式和其中三个函数的特征,展望了搜索引擎作弊检测方法的发展前景.3.期刊论文张岭.马范援加速评估算法:一种提高Web结构挖掘质量的新方法-计算机研究与发展2004,41(1)利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度.目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化.一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到.提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证.4.学位论文袁瑞红基于语义相似度的WEB结构挖掘研究及实现2009目前,Internet/Web技术逐渐趋于成熟,Web已经成为人们的重要信息来源之一。但在提供丰富的信息资源的同时,它所具有的数据半结构化或非结构化、数据海量、实时的动态性以及用户的多态性等特点也给Web资源的使用造成了一定的难度。因此,将数据挖掘技术和Web特性结合起来,在浩瀚的信息资源中快捷、准确地检索到人们需要的信息,已成为一项迫切而有意义的研究课题。本文以体现网页链接结构关系的当代经典PageRank算法为对象,深入分析其基本思想并指出其对网页评分时存在的不足。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配,而实际上每个链接的重要性和链接之间的相关性都是有差异的。它完全忽略了网页内容的语义信息,很容易受到无关链接的影响,降低了搜索结果的用户满意度。针对上述缺陷,本文通过引入基于《知网》的语义相似度,使链接锚文本的质量和其所指向网页的内容产生联系。融入出链接与目标网页主题相似度信息,使得那些没有价值的页面,或者主题不相关的网页分得较少的PageRank值,提升了真正与主题相关、有价值的页面的PageRank值。据此更加精确的体现各个链接之间的竞争。最后实现了一个模拟的搜索引擎。该模拟系统几乎包含了搜索引擎的全部基本功能。并且在互联网真实环境下进行测试,对融入语义相似度的PageRank算法进行验证。通过实验和分析,新的算法在不影响原算法的优点和效率的情况下能更好地对网页进行评分,提升了用户满意度。它在网页优先级算法上向人工智能和语义Web又迈进了一步。5.期刊论文顾晓燕关于Web挖掘技术的研究-电脑知识与技术(学术交流)2005,(1)本文讨论了Web的特点,介绍了Web挖掘的概念,给出了Web挖掘研究的三种分类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘,并以搜索引擎为重点说明了Web挖掘技术的应用.6.学位论文宋建康Web结构挖掘系统的研究与应用2002Web商业化至今,搜索引擎始终是网络上被使用最多的服务项目.然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,传统的搜索引擎越来越不能满足人们的各种信息需求,主要存在搜索质量不高、多义和人为欺骗等问题.但是,通过对页面之间的链接结构关系的分析可以提供一种解决上述问题的途径,这种链接关系隐含了人们对被链接页面的一种认同判断.现有的Web结构挖掘系统就是利用页面之间的链接结构关系所隐含的丰富的潜在信息来对页面的重要性进行等级排离从而使其搜索质量有了显著的提高.该文深入的研究了现有的Web结构挖掘系统Google搜索引擎和Clever系统,并在对其核心算法PageRank和HITS中所存在的问题作了详细分析的基础上提出了自己的改进算法,最后设计了一个改进后的Web结构挖掘系统原型并给出了实验结果和数据分析.7.学位论文范聪贤Web结构挖掘中PageRank算法研究2009随着Web信息技术的迅速发展,用户可以越来越方便快捷地获取各种信息,与此同时,也面临着如何从大量Web信息中获取相关及有用信息的问题。虽然,通过使用传统的Google、百度、Lycos等搜索引擎,可以大大减少无用信息的干扰,但这些搜索引擎搜索的结果有时也不完整或不相关,很难完全满足用户的需求。值得庆幸的是,目前Web数据挖掘技术的研究可以解决Web上过量信息的问题,通过对Web超链接结构进行分析,为用户提供更精确、更相关的数据。因此,Web数据挖掘逐渐成为目前研究的热点。本文从Web结构挖掘入手,在对Web结构挖掘中典型算法PageRank深入研究的基础上,针对PageRank算法只考虑Web页面之间的链接关系而忽略Web页面本身的文本内容,对权威性高的网页随着时间的推移赋予很高的权威值,而对新出现的网页赋予很低的权威值,从而导致搜索结果出现“主题漂移”和种种缺陷的问题,提出了一种基于超链接网页之间的距离及强化学习相结合的改进算法——DisRank。该算法把网页之间的距离作为“处罚”因子,以此来计算Web网页的等级值及对其进行排序。我们首先通过网页爬行算法抓取基于某个主题的、一定数量的网页作为训练样本,然后存储到数据库中,最后分别调用PageRank算法和改进算法DisRank进行实验,以证明改进算法的有效性。这其中包括改进算法DisRank抓取相关网页的吞吐量、不同β取值算法的吞吐量、精确度、收敛速度及算法时间复杂度等。最后,对本文所做的工作进行了总结
本文标题:基于PageRank算法的搜索引擎优化策略研究
链接地址:https://www.777doc.com/doc-822009 .html