您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 第二章计算机检索基础(修改版)
-1-第二章计算机检索基础一、计算机检索概述(一)概论1、计算机检索的意义我们已步入信息社会,传统的手工检索方法很难从大量的文献中及时难确地获取所需的资料,无法信息满足时代的需求有一种速度快、效果好的自动检索方法。随着微电子技术、计算机技术和通讯技术的飞速发展,计算机文献检索成为当今人们查找信息的最主要方式。它能够跨越时空,在短时间内查阅不同的大型数据库,还能快速地对几十年前的文献资料进行回溯检索,而且大多数的联机检索系统数据库中的数据更新速度非常快,检索者随时可以得到更新的文献信息,具有手工检索不可比拟的优势:(1)速度快、效率高,仅几分钟就可以从成千上万条记录中找出所需信息;(2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都可以成为信息源;(3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助光盘和通信网络查询所需信息;(4)由于数据更新快,可以及时获得最新信息;(5)检索辅助功能完善,使用方便,检索软件可采用菜单驱动,几乎所有检索系统都有查询服务或提供操作演示盘,界面友好的程度在不断提高,检索结果的输出方式丰富多样,并可以按要求做排序、统计、绘图等加工。1993年9月,美国克林顿政府宣布推出“信息高速公路”计划以来,在全球范围内掀起了一股“信息高速公路”热潮。信息高速公路“是一个能给用户提供大量信息的、由通信网络、计算机、数据库以及日用电子产品组成的完备网络”也就是计算机、光导纤维和其他通信设备组成的联接千家万户的通信网络。随着信息高速公路的建立,原来的时空概念将被彻底打破,人们可以坐在办公室或家里查找图书馆的文献信息,了解某学科领域在世界上的发展水平及动向,查找所需的文献资料。-2-计算机检索是今后文献检索的发展方向和主要手段。随着信息高速公路的建立,计算机检索将在全球范围内得到普及。掌握计算机文献检索枝术是大学生和现代科技工作者必须具备的基本技能之一。2、计算机检索的发展概况计算机文献检索经历了批量处理、联机检索与网络系统三个阶段。1954年,美国海军武器试验站图书馆在一台电子管计算机上建立了世界上第一个计算机情报检索系统,存入14000篇文献。50年代末,IBM公司利用一台第二代计算机(IB一650)成功地编制出关键词索引,并建立了世界上第一个“定题情报检索”系统,为用户定期检索和提供一定主题的新到文献,并很快得到了推广应用。进入60年代,计算机情报检索进入了实用和全面发展阶段。60年代末,大容量计算机分时系统和强功能检索软件研制成功,使脱机检索发展到联机检索。70年代初,随着通信技术的发展,出现了数据通信网络,通信线路费用降低,使得联机情报检索系统在美国迅速地得到了推广。随后,卫星通信用于计算机网络,世界各大计算机情报检索系统纷纷进入通信网络,从而形成了国际联机情报检索。西欧一些国家也于6O年代开始着手计算机文献检索的研制与发展工作。70年代后,这些国家也逐渐把计算机文献批量处理系统改成了联机系统。目前,发达国家的一些计算机情报联机检索系统,通过卫星通讯网络和计算机专用终端,在世界范围内提供联机情报检索服务。现在全球已有数百个联机检索系统,其中拥有情报数据库最多、联机检索业务最广泛的联机情报检索系统有美国的DIALOG系统、ORBIT系统、BRS系统、欧洲的ESA/IRS系统和STN系统等。我国的计算机检索虽然起步较晚,但发展速度很快。我国从70年代起着手进行计算机情报检索的研究,并积极开展国际联机检索服务。1975年起,国防科工委情报所和机械工业部情报所等单位先后引进国外数据库,开展定题服务。1980年,中国建筑科学院情报所等15个单位联合租用香港数据终端,连接国际通信卫星至美国的网络系统联机检索,检索结果从香港寄回北京。1981年,先后在北京、上海、广州、西安、武汉、沈阳等30个城市建立了近80个远程终端,通过国际通讯网与欧美11个大型联机检索系统联机。此外,还先后引进数据库-3-65种,引进光盘数据库40余种,自建数据库260多个。我国还自行开发了一批计算机检索系统。(二)计算机检索系统简介计算机检索是指通过检索系统,采用一定的技术手段,根据一定的准则,在数据库或其他形式的网络信息资源中自动找出用户所需相关信息。计算机检索流程如图所示:计算机检索系统的物理构成:硬件、软件、数据库三部分。1、计算机硬件主要包括具有一定性能的主机、外部设备以及与数据处理或数据传送有关的其他设备。主机,是计算机检索系统的中枢,要求其配置具有较强的逻辑运算能力,较快的响应速度和较大的存储容量,能处理大量的文献,联机检索系统的主机还必须具有多道程序处理和分时处理等更强的功能。外部设备包括:外部存储器、输入输出设备等。输入输出设备包括各种必要的数据录入装置,如键盘、光笔、鼠标器、光学字符识别器装置、语音或图像输入装置、显示终端、打印机、绘图机、输出设备等。2、计算机软件分为系统软件和应用软件。系统软件包括:操作系统、编译程序与汇编程序、诊断程序等。应用软件包括:数据库管理系统、建库程序、数据输入输出程序、自动标引程序、文件管理系统程序等。3、数据库数据库是计算机阅读的信息集合。至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统。(用手工方式把大量的原始文献或数据进行加工,-4-包括分析文献主题后写出文献摘要或题录,主题词、分类号和文献的其它特征等等,再把这些经过“前处理”的数据按一定格式输入计算机存贮起来,计算机在程序的控制下对数据进行处理,形成机读数据库(database)或者各种文献资料档,存贮在磁带或磁盘上,完成文献的加工存贮过程。计算机在存贮文献后,就可接受检索人员的查找。)计算机检索的对象一般是文献信息数据库。按照不同的划分标准,数据库可分成不同的类型。国际上通常根据数据库内容将数据库划分成三大类,即参考数据库(ReferenceDatabase)、源数据库(SourceDatabase)和混合数据库(MixedDatabase)。另一种划分数据库的实用方法是分为文献信息数据库与非文献信息数据库两大类。如下图所示数据库结构数据库是由文献信息记录(Record)构筑而成,因此文献记录是数据库的基本单元。每条记录又都表达了一篇原始文献信息的内容特征和外表特征。数据库的结构就是根据这些特征而建立的。不同的类型、内容的数据库,它们的文献信息记录标引的内容和形式有很大的差别,即数据库结构就有很大的差异。尽管如此,文献信息记录基本上都由三个部分组成:存取号,基本索引字段,辅助索引字段。所谓“数据库结构”,就是关于这些存取号和字段的定名(代码)和说明。我们进行计算机检索的目的,就是从海量的数据库记录中,找出我们需要的文档信息。(三)计算机检索的分类1、光盘检索系统-5-构成:联机光盘检索系统由若干台微机、光盘驱动器、光盘服务器、光盘数据库、检索系统软件、管理系统软件构成。光盘检索系统的特点:(1)由于存储介质和空间的限制,多以二次文献(文摘、索引)为主。(2)数据库系统建立在用户方,出版商必须寄送光盘给用户,因此更新速度慢。一般为月更新或季更新。这方面不如联机数据库和网络数据库,后两者的数据库更新可以随时进行,频率通常为日更新和周更新。(3)与网络数据库检索相比,数据库和系统集中式管理,负担重,数据库用户越多,响应时间越长。(4)检索模式:以客户端/服务器方式为主,客户方在微机上运作,这种检索模式与联机数据库相比,检索效率提高了很多。(5)信息组织模式:普通线性文本。(6)检索机制:检索功能强,索引多,不同的检索系统使用不同的检索命令,具备命令检索和菜单检索两种方式,后者对非专业人员来说,易学易用。(7)系统访问通过局域网就可以进行,不受大的网络环境影响。不需支付网络通信费用。(8)检索环境宽松,不存在联机检索的通信费、机时费、数据费,检索费用低。(9)用户界面比较友好,较为直观。2、联机检索系统检索终端通过通信线路与系统的主机连接,在中央处理机控制下查询系统的几十个甚至上百个数据库,并能够与系统实时对话,随时调整检索策略。-6-联机检索构成联机系统由联机检索中心、通信设施、检索终端三部分组成。联机检索中心是该系统的中枢部分,主要包括中央计算机(硬件)、数据库、系统检索软件等部分。中央计算机又称为“主机”,其功能是在系统和检索软件支持下完成对信息的存储、处理和检索。通信设施由通信网(电话网,专用数据库网)、调制解调器及其他通信设备组成。终端则可以使用传统的终端机或个人计算机。联机检索系统特点:(1)数据库数量多,信息量大内容丰富。以DIALOG系统为例,目前已有数据库300多个,记录3亿多条,内容广泛,涉及自然科学、入文及社会科学多个领域。检索时可以一次检索多个数据库,检索范围广泛全面。(2)数据库更新快,每日可随时进行更新,很容易检索到最新文献。(3)数据库和系统集中式管理,安全性好,可以在存储设备上直接处理大量数据,但主机的负担重,网络扩展性差。(4)检索模式:主仆式,即所有的工作都在主机上进行,一旦主机瘫痪,所有系统都处于瘫痪状态,因此对主机的性能要求极高。(5)信息组织模式:普通线性文本,包括:按照文档号组成的顺排文档;按照记录的特征标识(如题名、作者等)组成的倒排文档。(6)检索机制:检索功能强,索引多,途径多,所有的数据库使用统一的命令检索,因此可以同时保证查全、查准。检索效率和检索质量高。但系统要求必须使用统一的检索命令,用户必须记住各类检索指令并且能够灵活综合运用,因此必须由专业人员检索。这种检索机制不利于在网络环境下扩展为大规模的使用。-7-(7)检索费用高,每下载一条记录都要支付相关费用,包括记录的显示或打印费、字符费、机时费、通信费(由于系统连接需通过通信线路如电话或网络进行,需支付高额通信费用),检索时必须快速进行,一般用户因此望而却步,不敢使用。(8)检索界面单一,过于呆板。自20世纪70年代以来,联机数据库检索系统发展异常迅速,盛极时曾有DIALOG、STN、LEXIS_NEXIS、ORBIT等多个大型检索系统,为用户提供了高质量、远胜于传统手工查询的信息服务,几乎每个图书馆或信息服务机构、中大型公司里都有专门进行联机检索、为用户或本机构决策提供信息服务的检索专家。但进入80年代末、90年代初以后,互联网的迅速发展,导致越来越多的用户在网上自行寻找自己所需的信息,而联机检索由于对检索人员的要求高、费用贵等原因,开始进入衰退时代,几家著名的联机检索公司逐渐被并购或倒闭,仅存的DIALOG公司、LEXIS-NEXIS公司等,被并购后仍保留了原有的系统名称和品牌,但也相继推出了基于互联网的网络检索机制,以提供普通检索用户使用。目前,联机检索的方式虽然仍然存在,光盘检索、网络检索相比。用户量较少且大部分使用者仍然是检索专家。3、网络数据库检索通过网络接口软件,用户可在任意终端查询各地网上信息资源。网络检索是一种广义的联机检索,如使用远程登录(Telnet),通过Internet连接用户所指定的远程计算机,共享该主机上的资源。分布式存储的网络数据库分布式存储,即不同的数据库分散在不同的数据库生产者的服务器上;网络数据库检索为用户分布式检索,即用户在任何地方的终端都可以访问并存储数据;网络数据库的数据可进行分布式处理,即任何数据都可以在网上的任何地点-8-进行处理。网络数据库的特点(1)数据库分布式存储,且多存放在硬盘上,因此数量多,信息量大。同时由于超文本语言和超文本传输协议的作用,提供了大量相关资源的链接,使资源内容更加丰富。(2)数据库内容形式向多媒体化发展,不仅有文本,还有大量图像、动画、声音等,给用户提供了更为直观的服务。(3)数据库更新速度快,一般为日更新。(4)数据库和系统分布式管理,响应速度快。(5)检索模式:以客户端/网关服务器/服务器方式为主,客户方在微机上运作,分析从服务器上返回的数据,给用户显示信息;服务方则给用户提供客户端应用程序,通过网关分析处理各类请求,并提供数据服务,提高了
本文标题:第二章计算机检索基础(修改版)
链接地址:https://www.777doc.com/doc-2187368 .html