您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 中外搜索引擎研究的现状与发展
1中外搜索引擎研究的现状与发展夏旭李健康(第一军医大学图书馆广州510515)摘要:以网络搜索引擎的发展历程为基础,综述了网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展,探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析,希能对国内中文搜索引擎的开发和准确、快速、全面检索网络乃至因特网信息资源有所启示。关键词:搜索引擎研究进展综述信息资源管理由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新,而且还提供快速访问网上信息资源的各种搜索引擎(SearchEngines),用于快速搜索网络乃至因特上的有用信息,使得通过网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出,拉开了搜索引擎核心技术争夺战的序幕。可以预言,在今后一段相当长的时间里,搜索引擎还将有长足的发展和进步,检索功能将更趋向于集成化和更具亲和力、更显人性化。1搜索引擎的定义、检索机制、检索规则和词表应用1.1定义搜索引擎,Searchengines,又称搜索机,Web搜索器,是伴随网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统,有的提供分类和关键词检索途径,有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,能够自动对资源建立索引或进行主题分类,并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游,不断搜集各类新网址及网页,形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快,特定主题的检索专指性强等特点。1.1.1常规搜索引擎和元搜索引擎自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎,相应地,集多种常规搜索引擎于一体的搜索引擎则称为(多)元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎,与独立搜索引擎的区别在于:它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎,甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库,却更多地提供统一界面,形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体,通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎,每条检索指令都自动通过预先配置的搜索引擎执行,免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、FunCityWebSearch、HyperNews、Linksearch、Savvysearch、Metacrawler、BestSearch、W3SearchEngines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、BluesquirrelWebseeker等。Metacrawler()能同时调用6个搜索引擎;Savvysearch()可有选择地调用21个独立的搜索引擎,检索Web、Usenet新闻组、软件、参考工具、技术报告等信息,每次最多并行检索5个搜索引擎的数据库。Profusion()最多同时调用9个独立的搜索引擎,调用方式有全部调用、系统自动选择最好的3个、系统自动选择最快的3个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。1.1.2集中式搜索引擎和分布式搜索引擎2基于搜索机器人的搜索引擎如AltaVista和目录式搜索引擎Yahoo从体系结构上看都是集中式的,从因特网上取回Web页,经过处理后将所有这些信息集中存到某个站点,用户通过访问该站点实现查询,通常它们之间没有协作,各自独立地搜集和处理信息,造成了大量重复工作,也浪费了网络带宽和CPU资源,给各Web站点带来了严重的负担,这种集中式的体系结构难以适应网络规模的日益扩大。分布式搜索引擎则可弥补这方面的不足。其基本思想是根据地域、主题、IP地址或其它的划分标准将全网划分成若干自治域,在每个自治域内分设检索服务器(Indexserver),每个检索服务器由信息搜集软件(Gather)、索引数据库(Indexdatabase)和代理(Broker)三部分组成,信息搜索软件负责本自治域信息的搜集,并建立索引信息存入索引数据库,代理则负责向用户提供查询接口,并与其它代理进行交互,实现检索服务器之间的中间信息交换。关于分布式搜索引擎,目前主要以理论研究为主,还没有出现实际营运的研究成果。国内有文献提出建立分布协作式搜索引擎的设想,其主要思想是以CERNET为依托,在其不同域内分别建立搜索引擎,并通过引擎注册机制和引擎间数据交换机制相结合的方法实现网络搜索引擎之间的协作,达到降低资源消耗,提高搜索引擎效率的目的。1.2搜索引擎的检索机制搜索引擎定期自动搜寻有关Web站点、采集关于这些站点上的各类信息,自动对这些资源进行标引、编制目录和文摘,自动将这些数据整合到数据库,并能提供以Web为基础的包括布尔检索、短语或词组检索、自然语言检索和各种限制检索在内的数据检索,按相关度输出检索结果。搜索引擎的主体部分包括了数据采集模块、数据组织模块和数据检索模块。对应地,其资源组织和检索机制包括了数据采集标引机制、数据组织机制和用户检索机制,见图一。图一搜索引擎的检索机制示意图1.3检索规则研究由于Web资源的特殊性,搜索引擎的检索语法和检索规则与传统的光盘检索和联机检索等有所不同。Medscape、Oncolink等医学搜索引擎通过AltaVista完成搜索任务。AltaVista的检索语法规则较为复杂,基本上囊括了医学搜索引擎的检索规则。Medscape和Oncolink为代表的搜索引擎检索规则主要包括:布尔逻辑操作符。包括:AND(;、&)、OR(,、|)、NOT(—、!),此外逗号“,”类似于OR,空格和分号(;)类似于AND。短语检索使用双引号,如“radiationenteritis”。如要查找数字信息,如“18005551212”,可用破折号“—”连接“1—800—555—1212”作为短语进行检索。大小写有别(case-sensitivity),如输入brca1,可查找brca1,Brca1和BRCA1,如输入Brca1,则只能查找“Brca1”的网页,不能查找brca1、BRCA1的网页。+/-号,如要查找乳腺癌治疗但非放射疗法的信息,输入breast+treatment-radiation进行精细检索。同样,如要查找异基因骨髓移植而非自体骨髓移植的信息,输入“bonemarrow+allogeneic-autologous”即可。截词检索,使用通配符“*”,也有使用“$”或“?”;英文句点“.”的作用正好与通配符相反,用于禁止单词扩展,如gene.不能检索genetics、genetic、general等词;in,in限定范围,如新闻intitle;Near/n,用户系统网络搜索引擎一、采集标引机制二、数据组织机制三、用户检索机制网络Gopher站点二者的间隔不超过100个单词的网页。t、u的使用,t(TITLE)加关键词前,搜索引擎只检索网站名称,u(URL)加于关键词前面,仅查网址。精细检索:在特定主机或特定域名中查找网页、查找包含指向自己Web链接的全部网页,如查找包含一类特定Java语言的全部网页。超链和锚关键词在查找有关“jump”信息方面的作用相似。Link关键词查找URL带有跳跃性的网页如:,而anchor关键词查找用户能在页面中看见的超链文本,如clickhere,文本和标题标记用于查找网页内容。Text关键词查找网页内任何可见的文本词(非标记、链接、URLs),而标题关键词仅限于作者编码为title标记的文本,题目出现在Web浏览器的旗标窗口中。禁用词的使用。在MedHunt等搜索引擎中,检索时规定了一些禁用词,如冠词、代词、介词和连词,此外还有一些其它禁用词:如back、top、up、down、net。医学术词中带有禁用词的术语MedHunt可识别,如“VitaminA”,不视其为禁用词()。此外,还可将检索词的间隔范围限定在句子或段落中(如sentence、paragraph)、限定检索信息范围(每页显示信息条数,显示的语种、显示模式、匹配模式)等。相关性排序。Oncolink主要依据下列规则进行结果排序:检索词或短语是否在网页的前几行(如Web页的标题);在一个三个词的检索提问中,包含三个检索词的网页将比只包含一个词或两个词的网页远远排在前面;不常出现在索引中的检索词较普通词的权重更大,每个网页的权重值是出现在网页中所有检索词的权重和,权重值最高的网页在结果表中排在最前面;一个词在网页中出现次数的多少不影响排序,检索词只出现一次的网页与检索词在其中出现50次的网页权重相等。网络搜索引擎试图以检索词的词频、在文中的位置、以及检索词的相邻程度等依据判断检索结果的相关性,Magellan使用的“personallibrarysoftware”除依据这三条标准判断检索结果的相关性外,还考虑检索词在数据库中的独特性及每个检索提问包含独特检索词的数量。1.4词表应用据《叙词表指南》的统计,叙词表有500多种。由于目前标识HTML文件题目的词一般都是使用自由词,随意性大又不受控制,所以搜索引擎无法定位和鉴别,造成网络信息查全率、查准率低。随着信息资源的迅速增加,信息资源的组织控制发生了一些新的变化,DublinCore和URC等一系列元数据格式在Web资源组织和控制上得到了应用。词表在搜索引擎的应用,提高了检索针对性、准确性,且使搜索引擎趋向智能化。搜索引擎是网络信息资源组织和检索的最主要方式,其理想的知识组织模式应当是建立一个结构简明的知识分类体系和智能化控制词表,实现对作者语言和用户语言的控制转换,实现自然语言检索和控制性语言检索一体化。美国著名情报学家兰开斯特(Lancaster)提出,采用一个较粗泛的控制词表,也许只包含几百个词,提供系统的全部上层结构,文献标引在一个或几个这种粗泛的叙词之下。自然语言可以使检索有一定的专指度,而粗泛控制词表可提供族性检索,并可给出自然语言的上下文。因此,最好是把控制词汇同自然语言结合起来。美国国立医学图书馆(NLM)研制的一体化医学语言系统UMLS在IGM中的应用使得IGM对MEDLINE数据库的检索趋向智能化。UMLS由超级叙词表、语义网络、情报源图谱和专家词典组成,是NLM主持研究开发的生物医学检索语言集成系统,它不仅可以克服不同系统检索语言的差异,而且实现了跨数据库检索的词汇转换,帮助用户对计算机化的病案系统、书目数据库、事实数据库、图像数据库和专家系统等各种联机情报源中的生物医学信息作一体化检索。目前UMLS已在MedicalWorldSearch和CliniW
本文标题:中外搜索引擎研究的现状与发展
链接地址:https://www.777doc.com/doc-1464062 .html