您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 商业计划书 > 主题搜索引擎的研究与设计
主题搜索引擎的研究与设计摘要网上的信息每天都以指数量级的速度爆炸性增长,面对Internet中令人眼花缭乱的资源,如何能够迅速准确地找到所需的信息,已成为众多信息检索人员所面临的一个必须解决的问题,搜索引擎在这方面起到了举足重轻的作用。本文主要研究了主题搜索引擎技术,分析了一般的网络爬虫的工作原理,并对主题搜索引擎中所采用的主要算法进行了研究。在此基础上设计了一个面向主题的搜索引擎系统,将基于内容和基于链接相结合,给Internet用户提供了一种快速准确地搜索到符合自己需求的信息的工具。在实验系统中,用户可以根据选择的主题来进行搜索,系统通过相关度分析对搜索的结果进行排序。另外还分析了研究该课题的意义及课题尚待解决的问题。最后,通过对实验结果的分析,进一步强调了研究主题搜索引擎系统的意义。关键词:互联网,搜索引擎,主题搜索ABSTRACTInformationontheInternetgrowsexplosivelyeveryday.HowtofindinformationaccuratelyandquicklyfromtheInternethasbecomeaproblem.Manypeoplewhowanttoretrieveinformationrespecttosolvethisproblem.Inthisaspect,searchengineisapowerfultool.Atopicsearchenginesystemisproposedanddesignedinthispaper.Thetheoryofthecommon“spider”isanalyzed.Themainalgorithmaboutthetopicsearchisresearched.Onthebaseoftheresearch,atopicsearchengineisdesigned.Itcombinesthecontent-basedmethodandhyperlink-basedmethod.ItaimsathelpingtheusertogetInternetinformationaccordingtotheirowndemandsfastandaccurately.Intheresearchsystem,peoplecansearchbychoosingtheirtopic.Thenthesystemwillsorttheresultaftertherelativityanalyse.Inaddition,thesignificanceoftheresearchonthissystemisanalyzed,andtheunsolvedproblemsarealsodiscussed.Finally,ateststemofTopicSearchengineisdesigned,andtheresultoftheexperimentisgiven.Keywords:Internet,SearchEngine,TopicSearch目录1引言1.1课题背景1.1.1Internet的发展历程Internet的历史可追溯到30多年前,它的前身是1969年美国国防部高级研究所计划局(ARPA)[1],作为军用实验网络而建立,名为ARPANET,初期只有四台主机,其设计目的是当网络中的一部分因战争原因遭到破坏时,其余部分仍能正常运行,而这些分散的点又能通过某种形式的通讯网取得联系。为对这一构思进行验证,自从六十年代末至七十年代初,由美国国防部所资助,一个名为AdvancedResearchProjectsAgency的公司所承建,通过一个名为ARPANET的网络把美国的几个重要军事及研究所用的计算机主机联接起来,这就是Internet最早的形态。目前,几乎所有发达的国家都建设有自己国家级的教育和科研计算机网络,并且都与Internet互连在一起,中国也不例外。由于Internet上具有极丰富的资源,它突破了地理位置的限制,为广大的入网人员提供一个很好的计算机环境,大大加快了人们之间的信息交流和合作。可以说,Internet拉近了人们彼此之间的距离。随着计算机和通信事业的飞速发展,计算机网络由过去的军事和教育专用网络发展成为包罗万象的国际互联网络Internet。我们可以通过Internet来查找各种资料、做广告、发布信息、通信、发传真、在线交谈、在线转播和举行会议。Internet已经成为与我们的生活和工作密切相关的一部分了。1.1.2WorldWideWeb()(环球信息网)的缩写,也可以简称为Web,中文名字为“万维网”。它起源于1989年3月,由欧洲量子物理实验室[2]CERN(theEuropeanLaboratoryforParticlePhysics)所发展出来的主从结构分布式超媒体系统[3]。通过万维网,人们只要通过使用简单的方法,就可以很迅速方便地取得丰富的信息资料。由于用户在通过Web浏览器访问信息资源的过程中,无需再关心一些技术性的细节,而且界面非常友好,因而Web在Internet上刚推出就受到了热烈的欢迎,走红全球,并迅速得到了爆炸性的发展。长期以来,人们只是通过传统的媒体(如电视、报纸、杂志和广播等)获得信息。但随着计算机网络的发展,人们想要获取信息,已不再满足于传统媒体那种单方面传输和获取的方式,而希望有一种主观的选择性。现在,网络上提供各种类别的数据库系统,如文献期刊、产业信息、气象信息、论文检索等等。由于计算机网络的发展,信息的获取变得非常及时、迅速和便捷。根据中国互联网络信息中心[4](CNNIC)发布《第19次中国互联网络发展状况统计报告》的最新报告显示,截至2006年底,我国网民人数达到了1.37亿,占中国人口总数的10.5%。报告同时显示,我国域名总数显著增加,其中,CN域名总数超过180万,与05年同期相比,增长幅度达到64.4%。报告还显示,与去年同期相比,中国网民人数增加了2600万人,是历年来网民增长最多的一年,增长率为23.4%。在中国互联网快速发展的大环境下,社会对互联网地址的需求和应用大幅提升,我国域名总量达到4,109,020个,半年增长116万,平均每月净增20万个。国家域名CN注册量达到1,803,393个,比去年同期增加了706,469个,增长率达到64.4%,在全球国家顶级域名的排名上升到第四位。本次报告新增了对我国网页数、网页字节数等资源的调查内容,结果显示,截至2006年底,全国网页数和网页字节总数分别为44.7亿个和122,306GB,与去年同期相比分别增长86.3%和81.7%。另外网站数、IP地址等也迅速增长,分别达到84.3万和9800万。从域名、网站数、IP地址、网页数等增长情况来看,我国互联网资源得到了全面提升。关于网页的数目没有具体的统计数据,但根据《科学》杂志上提供的集合估计法,通过中国几个主要搜索引擎[6]获得的搜索数据,我们可以估计到当前中国拥有的网页数已经超过5000万。此次调查各项数据的大比例增长,只是中国互联网高速发展的开始,相信在未来的中国互联网会取得更大的成绩。1.1.3影响Internet信息检索的因素丰富的信息资源为Internet信息检索系统提供了庞大的信息源,但由于其收集、加工、存储的非标准化,给信息检索[7]带来难题。Internet将世界上大大小小、成千上万的计算机网络连在一起,成为一个没有统一管理的、分散的但可以相互交流的巨大信息库,这意味着人们必须掌握各种网络信息检索工具,才能检索到自己所需要的网络信息资源。但是由于Internet信息组织的特殊性和目前检索工具自身存在的一些问题,给信息检索带来一些问题。在Internet这个开放式的信息检索系统中,用户不仅要自己检索信息资源,同时还进行信息资源的收集、整理、存储工作。因此,Internet用户的信息获取与检索能力对信息检索有着直接的影响。1.2研究的目的和意义Internet自诞生以来不断成长,其内容不断丰富,整个网络逐渐堆积成一个前所未有的超大型信息库。Internet作为一个信息平台在人们的日常生活和工作中发挥着越来越重要的作用,人们越来越多地通过Internet获取信息。在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所说的“信息丰富,知识贫乏”的奇怪现象。搜索引擎正是为了解决这个“迷航”问题而出现的技术。随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。要及时更新以得到互联网上较全面的信息并寻找到相关的信息是不太可能的,针对这种情况,我们需要一个分类较为细致精确、搜索更贴近主题的面向主题的搜索引擎[8]。有了面向主题的搜索引擎,用户可以及时并快捷的找到自己所需要的信息,提高了效率。1.3搜索引擎概述1.3.1搜索引擎的历史与发展1989年,位于瑞士的欧洲量子物理实验室首先开始了的研究工作。随后,许多其他的研究机构、大学和公司也加入研究者的行列,并相继开发出各自的软件。这些软件的运行平台覆盖了目前主流的计算机硬件和操作系统。在此过程中,也不断完善和发展。同时,为了保证不同软件之间的互操作性,一系列协议和标准也正在使用和完善之中。搜索引擎技术伴随着的发展经历了大约三代的更新发展:(1)第一代搜索引擎出现于1994年,这类搜索引擎一般都索引少于一百万个网页,极少重新搜集网页并去刷新索引,而且其检索速度非常慢。第二代搜索引擎大约在1996年出现,大多采用分布式方案来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。第三代搜索引擎自1998年到现在,出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索引擎为第三代搜索引擎。第三代搜索引擎的发展有如下几个特点:第一,索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。第二,除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂直门户站点开始使用该技术。第三,由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。1.3.2搜索引擎的分类按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:(1)目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。(2)元搜索引擎这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,元搜索引擎中具代表性的有“搜星”搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。(3)全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具有代表性的有Google、Fast、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关
本文标题:主题搜索引擎的研究与设计
链接地址:https://www.777doc.com/doc-2767856 .html