您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > 信息检索论文(完整版)
信息检索论文(完整版)网络信息检索工具研究摘要网络信息资源的迅猛增长,使人们获得有用信息越来越困难,网络检索工具应运而生,文章介绍了网络信息检索工具的类型和功能,提出了检索工具的发展趋势。关键词因特网;网络检索;检索工具AbstractThequickincreaseofnetinformationmakesitmoreandmoredifficultforpeopletogetusefulinformation.Netsearchtoolsemergedasthetimesrequire.Thepaperintroduceseveralkindsandfunctionsofnetsearchtools,putforwardthedevelopmenttendencyofnetsearchtools.KeywordsInternet;netsearch;searchtool席卷而来的因特网正将全世界的丰富信息资源带到我们每一个人面前,已成为知识经济时代不可或缺的基本工具。然而在这样无边无尽的信息世界,找寻所需要的信息却成为一个极大的难题。网络信息检索工具由此产生并迅速繁荣发展,毫无疑问地成为这一信息海洋的航标与灯塔。了解网络信息检索工具,熟悉其功能,将大大提高我们的检索效率。1网络信息检索工具的类型网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。按检索资源的类型,可分为两大类:即非web资源检索工具和web资源检索工具。1.1非web资源检索工具非web资源检索工具是以FTP、Telnet、Gopher等为检索对象。(1)FTP类的检索工具这是一种实时的联机检索工具,用户首先要登陆到对方的计算机,登陆后即可以进行文献搜索及文献传输有关的操作。使用FTP(文件传输协议)几乎可以传输任何类型的正文文件、二进制文件、图像文件、声音文件、数据压缩文件等。在这类检索工具中,Archie是最常用的。Archie是自动标题检索软件,它借助于FTP来访问。用户只需告诉其要检索文件名的有关信息便可获得文件所在的主机名、路径。与一般检索工具不同的是,它不用主题来实现相应的检索,而只能根据文件名和目录名进行检索。它是获取免费软件和共享软件资源不可缺少的工具。(2)Telnet类的检索工具它指的是借助远程登陆在网络通信协议的支持下,在远程计算机上登陆,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问,使用远程计算机中对外开放的资源。使用Telnet协议进行远程登陆时需要满足以下条件:本地计算机上必须装有包含Telnet协议的客户程序;必须知道远程主机的IP地址或域名;必须知道登录标识与口令。Telnet远程登录服务分为以下4个过程:a.本地与远程主机建立连接。该过程实际上是建立一个TCP连接,用户必须知道远程主机的IP地址或域名;b.将本地终端上输入的用户名和口令及以后输入的任何命令或字符以NVT(NetVirtualTerminal)格式传送到远程主机。该过程实际上是从本地主机向远程主机发送一个IP数据报;c.将远程主机输出的NVT格式的数据转化为本地所接受的格式送回本地终端,包括输入命令回显和命令执行结果;Telnet类的检索工具的特点为只有文字模式,缺乏展现多媒体的能力;不同的系统,采用不同的指令与操作方式;必须拥有登陆口令和密码;使用者人数受到限制;查得的资料需逐页的显示,不利于大幅度的翻页检视。HYTELNET是用于Telnet信息资源的检索工具。它以超文本形式分门别类的汇集并罗列了数量相当多的Telnet信息资源,在远程登录后,对方系统往往设有专门的检索型工具,以方便用户查找和利用。(3)基于菜单式的检索工具----GopherGopher是一种交互式、菜单式信息查询软件,它将各种信息资源加以分类,再用菜单的形式显示给用户。Gopher采用客户机/服务模式。当用户启动一Gopher客户程序时,建立与Gopher服务器的连接,Gopher服务器发送一Gopher菜单给用户的客户程序。菜单中的每一项都对应一个信息文件或另一个菜单。若用户选定的菜单项对应一个信息文件,则Gopher将检索这个文件并显示其内容;若选定的菜单项对应另一个菜单,Gopher将检索这个新菜单,使用户能够在这个新菜单中挑选一个新菜单项。这样,在菜单的引导下,当用户选择了一个菜单项时,Gopher软件将自动确定该菜单项所驻留的计算机,用户可以对因特网上的远程联机系统进行实时访问。Gopher只支持纯文字环境,无法提供影像、声音服务。目前通过Gopher可以进行以下类型信息查询:文本文件信息查询、Telnet信息查询、电话簿查询、专有格式文件查询。这类检索工具是一种分布式信息查询工具,它将用户的请求自动转换成FTP或Telnet命令,在一级一级的菜单引导下,用户可以选取自己感兴趣的信息资源。这对于不熟悉网络资源、网络地址和查询命令的用户是十分简便的方法。在这类检索工具中最常见的是Veronica和Jughead。如Veronica用于检索可由Gopher菜单访问的信息资源,是与Gopher配套的检索工具。它根据用户给出的检索词进行检索,可检索文件名、目录名、文档及其他信息资源。d.最后,本地终端对远程主机进行撤消连接。该过程是撤销一个TCP连接。1.2web资源检索工具web信息资源是指建立在超文本、超媒体技术基础上,集文本、图形、图像、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式,与之对应的web检索工具多种多样,大体分为三类:搜索引擎、目录型检索工具、多元搜索引擎。(1)搜索引擎搜索引擎使用自动索引软件来发现、收集并标引网页,建立数据库;以Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录,并返回结果且按相关度排序输出。使用此类工具的检索方法被称为“关键词搜索”,可以在主页查询,也可以在类目下查询。此类检索工具的优点是信息量大且新,速度快;缺点是准确性较差。著名的搜索引擎如MetaVista、Excite、天网、悠游等。根据其逻辑功能的不同,可分为:搜索器、分析器、索引器、检索器、用户接口。搜索器,也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时发现、搜索新的网页信息,并更新索引数据库中的已有网页信息,避免死链接。分析器的功能是借助于词频统计、词语位置认定和一些特殊的算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器的功能是根据分析器生成的关键词,建立从关键词到网页URL的关系索引倒排文档,即建立索引数据库。检索的功能是根据用户输入的提问词,在索引数据库中进行提问词与索引词的匹配运算,然后将查询结果按相关程度排序并输出到用户接口子系统。用户接口,其功能是提供人机交互的检索接口,接收输入的用户检索提问并输出检索结果。搜索引擎是自动标引,故收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。但由于缺乏人工干预,准确性较差,信息重复率高,误检率较高;另外,检索策略的构造和输入方式也会直接影响其检索结果。一般来说,搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。(2)目录型检索工具它是按照某种分类体系编制的一种可供检索的等级结构式目录。分类方法以学科分类为主,也有采用图书分类方法的。使用此类工具的检索方法被称为“分类搜索”,这是一种“自顶向下、逐步细化”的搜索方法。自顶开始,每一层都分布有若干“链接点”,选择其中一个,就可沿此分支进入下一层,直到出现所需目标。此类检索工具的优点是检索质量较高,缺点是检索到的信息数量有限,且新颖性不够。有代表性的目录型检索工具如Yahoo、Galaxy、Lycos、网易、263等。现在,搜索引擎和目录型检索工具逐渐整合在一起,以增强检索能力。(3)多元搜索引擎多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面,且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其优点是省时,缺点是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差。常用的多元搜索引擎有DOGPILE、INFEREN等。多元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。多元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干源搜索引擎的检索接口代理,多元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所人知和接受;而对检索结果的显示,不同的多元搜索引擎有不同的处理技术,由于多元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同多元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。多元搜索引擎搜索将用户的检索式同时转给不同的引擎帮助检索,并将检索结果中重复的部分删去。这样,既扩大了检索范围,又节省了在不同的搜索引擎之间转换的时间,节省了时间,查全率高,漏检率低;但是由于不同搜索引擎的检索机制、所支持的检索算法、对提问式的解读等均不相同,导致检索结果的准确性差,查准率低。2网络信息检索工具的功能网络检索工具产生和发展的历史虽然不长,但它的功能却非常强大,关键词检索(Keyword)是最基本功能,包括以下几个方面:2.1布尔逻辑检索布尔检索在网络信息资源检索中使用的相当广泛,常用的布尔逻辑算符有3种:逻辑或(运算符为OR/or,有时也可用“|”符号表示)、逻辑与(运算符为AND/and,有时也可用“&”、“+”号表示)、逻辑非(运算符为NOT/not,有时也可用“!”、“-”号表示)。检索中使用逻辑算符是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑算符表达检索要求,除要掌握检索课题的相关因素外,还应注意布尔算符对检索结果的影响。对同一个布尔逻辑提问式来说,不同的运算次序,其检索结果亦不同。2.2词组检索词组检索是将一个词组作为一个独立运算单元,进行严格匹配以提高检索的精度和准确度。词组检索是一般数据库中最常用的方法,是通过使用逗号、双引号和括号进行检索。逗号的作用类似于OR,但“越多越好”,因为查寻时找到的关键词越多,文档排列的位置越靠前,例如:查寻输入“计算机”、“办公自动化”和“WORD2000”,则查寻结果中,同时包含“计算机”、“办公自动化”和“Word2000”的文档将出现在搜索结果的最前边。双引号的作用就是把引号内的关键词的组合当作一个字符串看待,然后进行检索。例如,要检索有关古典音乐方面的信息,可以连同引号在内键入“classicmusic”,检索时就把“c1assicmusic”作为一个词来进行检索。括号的作用与数学的括号相一致,使括号内的操作符先起作用。例如,如果输入的关键词是:(网址OR文档)AND(搜索OR查找),则实际检索时,关键词就是“网址搜索”、“网址查找”或“文档搜索”、“文档查找”。2.3字段检索字段检索是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高检索效果的手段,多以字段限定方式实现。搜索引擎常用的字段有:Ti2tle/t(表示查找标题中包含检索提问式的页面)、Subjec(表示查找主题中包含检索提问式的页面)、Text(表示文本中包含检索提问式的页面)、bost(主机。表示在指定的服务器上查找页面)、URL/u(表示查找URL中包含检索提问式的页面)、dom
本文标题:信息检索论文(完整版)
链接地址:https://www.777doc.com/doc-2692653 .html