您好,欢迎访问三七文档
上海理工大学电子商务研究所设计制作:王锡俊网络信息检索第二章第二章网络信息检索系统2.1网络信息检索概述2.2WorldWideWeb()检索系统2.3常用中英文搜索引擎及检索策略2.4网上多媒体信息检索系统2.5经济信息检索系统2.6互联网科技信息资源检索类型2.1网络信息检索概述2.1.1计算机检索特点2.1.2网络信息检索工具及原理2.1.3网络信息检索工具的发展趋势2.1.1计算机检索特点随着计算机技术、高密度海量存储器技术和现代通信技术的发展,计算机检索系统已经成为世界上最先进的信息检索系统。它具有检索速度快、检索范围广而全面、检索途径多、质量高、检索内容新等特点。由于计算机具有上述特点,所以它广泛应用于信息管理中,如情报信息管理、图书馆资料管理、档案馆文件管理等方面。计算机信息检索系统能存储大量的信息,并对信息条目进行分类、编目或编制索引;还可以根据用户要求从已存储的信息库中调取出特定的信息,并提供插入、修改和删除某些信息的能力。1.计算机检索系统的发展过程第一阶段,1971年以前,开始建立计算机信息检索系统,并取得了一定的进展。这一阶段的数据存取与数据通信能力都比较差。第二阶段,1971年以后,产生并发展了联机情报检索系统。这一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。第三阶段,20世纪80年代以后,出现了以Internet为标志的网络信息检索系统。系统大多采用分布式的网络化管理,其信息资源的主要特点是:数字形式表达、多媒体和多载体、内容覆盖面广、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等。第四阶段,进入21世纪后,随着连续性语音识别技术的不断发展,计算机信息检索系统跨入一个新的阶段。在前三个阶段的基础上,信息检索技术正向两个新的方向发展:一是传统信息检索向全文文本、多媒体等新型信息检索发展,在深度上应能对提问的内容进行分析和理解,提高查准率,探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等解决方案,提高管理和组织信息的能力;二是信息资源的网络化和分布化,主要面对Internet中浩瀚无垠的资源,提高查全率。2.基于概念的信息检索系统基于概念的信息检索是通过对文献中的原文信息进行语义上的自然语言处理,析取各种概念信息,并由此形成一个知识库。然后,根据对用户提问的理解,检索知识库中相关的信息,以提供直接的回答。(1)概念信息检索的特性概念信息检索具有分析和理解自然语言的能力。无论是向知识库的自然语言输入,还是对系统的自然语言提问,概念信息检索都可以通过分析和理解,得到自然语言原文的内容。概念信息检索可以对输入的原文根据其概念内容进行组织和安排,而不是根据关键词检索。概念信息检索可以进行语义层次上的自然语言处理,以析取相关的概念信息和范畴知识;然后,通过记忆机制将它们存储到知识库中,以备检索之用。概念信息检索的记忆机制能够自动补充与更新。同时,存储在知识库中的概念信息和范畴知识也能得到补充与更新,且补充与更新的新信息与新知识能恰当地归类到相应的范畴之中。概念信息检索具有使用自然语言回答用户提问的能力。这种能力包括从自然语言原文的概念内容中析取检索要点,通过记忆机制检查某个特别的范畴,以获取必需的背景知识,以及通过对知识库中存储的其它概念信息进行分析和理解,并回答用户的提问。(2)概念信息检索系统的结构概念信息检索系统的结构一般分为:记忆机制部分。存储原文内容或概念,能自动更新。语言分析机制部分。运用自然语言处理技术,从语义层次上分析和理解文本内容及用户提问内容。知识库部分。通过分析机制和记忆机制,获取关于检索和推理的知识。人机接口部分。输入原文内容及用户提问,输出自然语言形式的检索结果。(3)应用系统CyFr系统。CyFr系统是Schank、Kolodner和DeJong于1981年根据概念信息检索理论建立的系统,用于处理与美国前国务卿范斯(Vance)有关的新闻。Researcher系统。由Lebowitz于1983年在哥伦比亚大学研制,用于阅读和理解用自然语言形式输入的专利文献摘要。还有由McCune和Tong研制的Rubric系统,是用来检索与恐怖行为概念有关的文献。美国通用电器公司人工智能研究室的Ran1987年建立的SCICOR系统、美国卡内基梅隆大学机器翻译中心1991年完成的FERRET系统。3.超文本信息检索系统以超文本网络为基础的文献检索系统。正文信息是以节点而不是以字符串作为信息的基本单元,节点间通过链进行连接。在检索文献时,节点间的多种链接关系可以动态地选择性激发,从而可根据思维联想或新信息的需要,通过链从一个节点跳到另一个节点,由此形成随着人们思维和需要的流动而构成的数据链,体现出一种完全不同于过去顺序检索方式的联想式检索。(1)设计思想一般是基于引导浏览的检索系统。其设计思想是:屏幕上的窗口与数据库中的卡片相对应,卡片是数据库中的基本信息单元,即节点。卡片间通过链路即数据库中的指针相连接,在窗口中则以高亮度的关键字为标志。(2)超文本系统结构与模型超文本系统结构模型主要采用Combell、Goodman及Dexter模型。其中Combell与Goodman模型都具有表现层、抽象机制和数据库层三层结构,而Dexter模型的结构则为运行层、表现描述层、存储层、锚定点机制及内部组件层五层。从描述超文本信息的组织结构来看,可分为基于图论的模型、基于网论的模型、基于逻辑模型、基于集论的模型。(3)应用系统目前已建立了多个基于超文本的信息检索系统,如AltaVista、WebCrawler、Yahoo!、Lycos、OpenText、Infoseek等著名的网络检索系统。这些系统检索速度快,数据资料新,具备多种查询方式,极大地方便了用户使用Internet,提高了全文检索的查全率。4.计算机全文检索的进一步研究全文检索(FullTextRetrieval)是指以全文本信息作为检索对象,建立全文数据库,除了具有布尔逻辑检索功能外,还具有文本检索功能,并允许用户以自然语言检索,直接获得原文中的有关章节和段句。全文检索技术应用领域主要包括:企业信息门户、媒体网站、政府网站、数字图书馆、搜索引擎及商业网站。2.1.2网络信息检索工具及原理1.网络信息检索工具发展概述20世纪70年代,开发了许多种类的情报(信息)检索软件,形成了软件开发研究和情报科学研究的一个相对独立的分支:情报检索。随着Internet的不断扩张,网络信息检索工具(NetworkedInformationRetrievalTools)的新型检索工具便应运而生了。网络检索工具的研究与开发,使原来的“情报检索”这一学科分支产生了新的分支“网络信息检索”(NIR,NetworkedInformationRetrieval)。Internet上信息资源的迅猛增长使主管Internet的技术问题的Internet工程特别工作小组(IETF,InternetEngineeringTaskForce)对网络信息检索给予了充分重视。IETF与欧洲科研网络协会(RARE-AssociationofEuropeanResearchNetworks)和网络信息联盟(CNI-CoalitionforNetworkedInformation)联合组建了“网络信息检索工作小组”(NIRWorkingGroup)。主要任务是:收集和发布网络信息检索工具及其研究团体的信息;鼓励合作开发网络信息检索工具;协调网络信息检索工具开发单位、有关联网机构和网络信息检索工具的生产销售厂商的行动。目前在Internet上运行的网络检索工具可分为三大类:交互式信息提供服务(InteractiveInformationDeliveryServices);名录服务(DirectoryServices);索引服务(IndexingServices)。目前在互联网运行的交互式信息服务软件主要基于,名录服务软件主要基于WHOIS、NETFIND和X.500,索引服务软件主要基于Archie、Veronica、Jughead和WAIS。交互式信息检索工具一般为用户提供友好的交互操作界面,并具备交互浏览信息的功能,信息在网络上的存放方式以及如何取得信息,对使用者都是透明的。菜单式查询系统Gopher是Internet上较早出现的一种交互信息查询工具。系统是近年来发展的最重要的一种交互信息查询工具,也是迄今用户最多和使用最为方便的工具。索引式信息检索工具是通过对信息资源文件建立的索引查找文件的所在位置,以便用其他检索工具进一步获取信息文件。此外,Internet上还产生大量基于电子邮件交换的信息。这类信息获取系统包括电子公告板系统、电子邮件通信组、网络专题消息、电子刊物以及网络广告等。2.菜单式查询系统(Gopher)Gopher是一种按“菜单”形式组织的分布式文档查询系统,1991年在美国Minnesota大学发展起来。开始用于校园网,后来推广到Internet。Gopher为用户查询信息提供一个多级的菜单界面,只需按照菜单指示的路径就能获取想要的信息,使用非常方便。3.广域信息服务系统(WAIS)WAIS(WideAreaInformationSystem)以各种文本数据文件为检索对象(信息源),融汇了Archie、newsgroup等的信文件在内的各类信息。目前,Internet上已建立了几千个提供检索服务的WAIS服务器,成为整个Internet网络文本式信息资源的检索工具。用WAIS检索信息可分两步进行:第一步,先从信息源(文件题目)列表选择检索对象;第二步,在选定范围内通过文件的关键词查找文件。4.网络文件搜索系统(Archie)由于Internet所包含的信息量惊人,用户很难了解某类信息在Internet上的分布情况,或者某个具体软件存储在哪一个主机结点上。Archie可以使用户能够查询信息资源的存放地址,以便能够从特定场所的服务器中获取各种感兴趣的或者有用的信息。Archie与WAIS不同,后者除查询信息存放地址之外,还可以进一步显示与浏览信息文件的内容。2.1.3网络信息检索工具的发展趋势目前,网络信息检索技术正在向两个方向发展:一是传统信息检索向全文文本、多媒体等新型信息检索发展,在深度上能对提问的内容进行分析和理解,提高查准率,探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等解决方案,提高管理和组织信息的能力;二是信息资源的网络化和分布化,面对Internet中浩瀚无垠的资源,提高查全率。网络信息检索工具的发展趋势突出表现出以下特点:支持主题指南的搜索引擎。增加特色服务,提供全方位的信息服务。本地化服务。提供多媒体检索功能。多语种检索。推广利用信息新技术。商业化发展趋势。2.2WorldWideWeb()检索系统2.2.1上的“搜索引擎”2.2.3搜索引擎的类型与特点2.2.4中文搜索引擎的现状及发展2.2.1发展简介是一种基于超文本(Hypertext)文件的交互式浏览型检索工具。年由欧洲核物理研究中心(CERN)的TimeBerners-Lee提出的一个研究项目,其目的是向国际高能物理研究界提供一个在计算网上用超文本方式传送文件和相互进行通信的工具。1990年底,第一个机器上。用户可用它在Internet网上浏览、传递和编辑超文本格式的文件。1992年以后,经过Tim本人的不懈努力,概念日益深入人心。全世界有数百名志愿者无偿地投入开发和推广软件的工作。现在已成为全球性的软件开发项目。由于全世界软件人员的共同努力,软件不断完善,并且增加了多媒体功能,成为具有超媒体(Hypermedia)功能的、网上最先进的信息检索工具。
本文标题:网络信息检索概述
链接地址:https://www.777doc.com/doc-1719627 .html