您好,欢迎访问三七文档
第四代搜索引擎——主题搜索引擎的设计与实现DesignandImplementationofFocusedSearchEngine,4thGenerationSearchEngine北京大学计算机科学技术系计算机软件专业九七级学士毕业论文指导教师:李晓明王建勇作者:罗昶学号:097081362001年6月第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文1指导老师对论文工作的评语“面向主题的搜索引擎”,是我们“天网”搜索引擎下一步发展的重要方向之一。罗昶同学的毕业论文,是这一新方向的良好开端。论文从系统实现的角度,较全面的阐述了实现一个高质量主题搜索引擎系统的各个方面,着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用,并提出了“主题度”的概念,用以衡量主题搜索引擎的质量,意在指明一个搜索引擎在一个主题下的主题度越高,则它越贴近这个主题,用户就越容易找到跟这个主题相关的资料。特别地,将上述认识用于实践中,高质量地完成了一个面向影视主题的搜索引擎系统,搜集了十多万影视信息,在影视信息方面提供着比“天网”通用搜索引擎更有效的服务;论文内容丰富,所涉及的工作量很大,且有较强的系统性,是一篇很有参考价值的论文,为“天网”的发展做出了贡献。老师签名:__________第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文2论文摘要互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、对硬件要求低,数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比前三代的搜索引擎将更加有效和准确,我们将这类完善的主题搜索引擎称为第四代搜索引擎。本文阐述了第四代搜索引擎天网主题搜索引擎的设计与实现,并着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用。论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能,一个搜索引擎在一个主题下的主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。有了“主题度”,就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别,说明了前者在特定的主题下要比后者更准确贴切。关键词:互联网、万维网、搜索引擎、数据发掘、主题搜索、主题度第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文3AbstractInformationontheInternetgrowsexplosivelyeveryday.Searchengineprovidesallthesurfersonitwithanentrance,fromwhichtheycanreacheverycorneroftheweb.Therefore,searchenginebecomesthemostpopularnetworkservicesecondtoemail.Withinformationcontinuingtoexplodeinalldirections,however,somespecifickindsofusersarenotsatisfiedwithonlyoneentrance.Inthemeanwhile,duetocurrenthardwarelimitations,itisnotlikelytocrawlfulldataontheInternet.Whatweneedisafocusedsearchengine,whichiswellclassified,requestinglowhardwarerequirement,containingprofoundandentiredata,andbeingupdatedintime.Sinceitusesintelligentstrategiessuchashuman-classificationandsample-extraction,itiscalledthe4thgenerationsearchengine,moreefficientandaccuratethantheprecedingones.Thisthesisdescribesthedesignandimplementationof4thgenerationsearchengine,WebgatherFocusedSearchEngine.Itscrawlingstrategiesoforientationwords,sample-extraction,authorityandhubpages,anchor-textanalysisandpagerankareelaborated.Finally,TopicApproximationisdefinedforperformanceevaluation.ThehighertheTopicApproximationis,themoreaccuratethesearchengineisandthemoreeasilyuserscouldfindoutwhattheyreallyneed.WithTopicApproximation,it'seasytoconcludethatWebgatherFocusedSearchEngineusingintelligentstrategiesismoreaccuratethantheoriginalWebgatherSearchEnginewithoutthem.Keyword:Internet,第四代搜索引擎——天网主题搜索引擎的设计与实现北京大学学士论文4目录指导老师对论文工作的评语..................................................................................................................1论文摘要..................................................................................................................................................2ABSTRACT............................................................................................................................................3目录..........................................................................................................................................................4第一章背景介绍.................................................................................................................................7§1.1INTERNET与§1.1.1Internet的发展历程.............................................................................................................7§1.1.2Worldwideweb()...........................................................................................................7§1.1.3Internet的信息分布.............................................................................................................8§1.2搜索引擎简介..............................................................................................................................9§1.3主题搜索引擎——第四代搜索引擎........................................................................................10§1.4小结...........................................................................................................................................10第二章天网搜索引擎系统结构.......................................................................................................12§2.1系统简介....................................................................................................................................12§2.2系统结构及各部分功能............................................................................................................12§2.2.1信息存取和分析子系统(主控程序)..................................................................13§2.2.2信息收集控制子系统(搜索器).......................................................................13§2.2.3资源索引数据库................................................................................................................13§2.2.4信息检索子系统.................................
本文标题:第四代搜索引擎
链接地址:https://www.777doc.com/doc-5357994 .html