您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 第四章信息存储与检索
105第四章信息存储与检索本章讨论信息存储与信息检索的基本概念;论述信息存储的主要方法及计算机信息存储体系,介绍了语义编码及语义网,讨论信息检索的基本概念、原理并分析了两个典型的搜索引擎。[学习目标](1)理解信息存储的基本概念和作用;(2)了解信息组织、存储与检索的关系;(3)掌握信息存储的主要途径及计算机信息存储体系;(4)理解语义编码的含义;(5)理解语义网的含义、作用、基本结构及其关键技术;(6)掌握搜索引擎的含义。4.1信息存储概述信息存储是指通过多种形式记录和排序信息的过程。它包含三层含义:一是将所采集的信息按照一定规则记录在相应的信息载体上;二是将这些载体按照一定的特征和内容组织成系统有序的、可供检索的集合体;三是应用计算机等先进的技术和手段,提高信息存储的效率和利用水平。信息存储是通过各种介质来记录信息并使之有序化。4.1.1信息存储技术从早期以印刷品为载体存储信息,到现在以软盘、硬盘、缩微胶片和光盘等新型载体存储信息,信息存储技术有了迅速的发展,这不仅使信息存储高密度化,而且使信息存储与快速检索结合起来,提高了信息存储与检索的效果。下面对信息存储的主要技术加以介绍。1.信息的印刷存储造纸和印刷术的发明,对信息的存储与交流带来了深刻的影响。印刷是指将文字、图形等信息经过一定的工艺操作,成批量地复制出来。随着印刷术的日益精湛,在各种类型的印刷载体,如各种纸质、纺织品、皮革、塑料、玻璃、陶瓷上印刷的效果,已经达到了相当精美的程度。纸质以外的印刷载体,如纺织品等,尽管也起到了存储、传递、交流信息的作用,但主要还是作为生活用品及装饰用品,它们并不适合作为积累和保存大量信息的载体。长期以来,世界各国的图书馆、档案馆、文献信息中心、资料室等公益性的文献存储机构,也正是一直以纸质印刷文献为保存对象,以达到信息存储、交流、利用和共享的目的。纸质文献对信息的揭示和组织是从四个基本要素着手的:信息内容、载体材料、记录符号和记录方式。信息内容是文献最基本的要素,它是文献的内涵和实质。载体材料是文献的外在形式,是信息内容赖以存在的依附体,是信息内容得以传播的媒介。纸质文献的记录符号通常为文字和图表,文字的存在历史悠久,在促进人类物质文明和精神文明的进步过程中发挥了巨大的作用。记录方式106即信息内容被存储到载体材料上的方式,如手写、印刷、拍摄等。纸质文献的类型多种多样,一般按照文献编纂方法和出版特点划分,可以将纸质文献分为图书、期刊、报纸、会议文献、科技报告、标准文献、专利文献、学位论文、产品说明书等。2.信息的磁存储信息的存贮至今仍离不开印刷存贮,并且印刷存贮也仍然是信息存贮的主要方式,但是,人们正越来越多地采用其他更为先进的信息存贮技术,而且新的信息存贮技术也将逐渐替代传统的印刷存贮。在现代信息存储技术中,磁存贮是信息存贮的主要手段,磁存贮信息系统,尤其是硬磁盘存贮系统,是当今各类计算机系统的最主要存贮设备。(1)磁存储的特点磁能存储一切可以转换成电信号的信息,如声音、图像等。它具有以下特点:①信息能长久保存在磁介质中,并可重复使用,而一旦所录信息无用时,又可随时抹去,再重新记录新信息;②能同时进行多路信息的存储,而且当采用多路频率调制方式进行存储时,能保证这些信息之间的时间和相位关系;③存储频带宽广,可存储直流2兆赫以上的信号。(2)几种主要磁存储介质①计算机磁带。磁带是最早出现的一种磁表面存储载体,它始于录音介质,主要用来记录模拟信号。计算机问世后,美国IBM公司完成了将磁带作为计算机存储信息载体的研究。磁带是磁介质存储中成本最低,但信息存储速度最慢的一种。磁带存储器的主要优点是价格便宜、存储量大、占用空间小和性价比高。缺点是只适于顺序存取,而且存取速度有一定限制。工作时由于磁头要与磁带表面相接触,故容易损坏磁表面层。②硬盘。硬盘又称硬磁盘,是在铝合金圆盘上涂有磁表面记录层的磁记录载体。硬盘的直径有14英寸、8英寸、5.25英寸和3.5英寸等多种,其中以14英寸的硬盘用得最多。硬盘通常由多个盘片组成,称为盘组;每张盘片由若干闭合同心圆组成磁道;盘组中同一半径的磁道构成一个立体的筒壁,称为柱面;每面上又被均匀地以扇子形状划分为若干段,每段称为一个扇区。不同磁道上的扇区弧长虽不相同,但存储量相同。一般说来,盘的大小不同、密度不同,盘面上的磁道数也不同,扇区的分法也不尽相同。磁盘存储器最大的优点是能够随机存取所需要的数据,数据传输速度快,适合作为大容量的检索设备。③软盘。软盘技术诞生于20世纪70年代。软盘又称为软磁盘,是在柔性塑料圆盘上涂有磁记录层的载体。软盘的直径有8英寸、5.25英寸、3.5英寸等几种,其存储容量大都在180kB~3MB之间。软盘的优点是它的驱动器体积小,重量轻,结构简单,价格低;缺点是存储容量小,存取速度与数据传输率都较低。目前,在计算机病毒流行的情况下,软盘是病毒的危险载体,使用时应注意防治病毒。④移动存储磁盘移动存储磁盘可用于存储任何数据文件以及在电脑间方便地交换文件,是近年来兴起的新兴的信息存储方法和技术,包括移动硬盘、MP3、U盘等。移动存储磁盘以其大容量、小身材、兼容性好、性能稳定等优点正逐渐取代软盘成为人们在电脑间传递数据的最佳工具。1073.信息的缩微存储缩微技术是缩微摄影技术的简称。缩微技术以胶片作为介质,采用感光摄影原理,并逐步与计算机、微电子、静电复印与传真等现代先进技术相结合,成为迄今最成熟的文献资料全文本真迹存储和检索技术。信息的缩微存储是用缩微摄影机将文件资料缩小拍摄在感光胶片上,经加工处理后作为信息载体保存起来,供以后拷贝、发行、检索与阅读之用。英国人约输·丹塞于1939年成功地将20英寸的文件缩微成0.13英寸。但缩微技术真正广泛用来存储和传递信息还是从20世纪30年代开始,它以独特的形象逐步在信息存储与交流中发挥作用,尤其是20世纪70年代以后,缩微技术先后与计算机技术、光盘技术相结合,组成了完美的信息存储与检索系统。缩微存储技术有以下特点:(1)缩微品的信息存储容量大,密度高;(2)存储介质占用空间小,可节省大量空间。由于缩微品体积小、重量轻,在存储相同数量资料的情况下,缩微片比普通纸节省存储空间98%,其体积与重量仅为印刷品的1%;(3)缩微品忠于原件,不易出差错;(4)保存时间长,在通常环境下缩微品可以保护50年,如果在适当环境温度和湿度下可以保存100年以上;(5)便于计算机检索。采用缩微技术,可将非统一规格的原始文件规范化和标准化,从而便于管理。缩微存储技术也存在一些缺点,它在检索与阅读时需要专门的缩微阅读器,长时间阅读易于疲劳,不能像在纸印刷品上那样在缩微品上进行批注,修改困难。缩微技术最令人注目的进展就是它与电子计算机及其他存储介质的结合,拓宽了它的应用领域,发挥了它的潜能,其主要成就有:(1)计算机输出缩微胶片(Computer-OutputMicroforms,COM)技术。COM技术能将计算机输出的二进制信息转换成可阅读的缩微影像,并直接将它们记录在缩微片上。COM的输出速度很快,每秒可摄录数千乃至上万字符。COM设备可起到一个档案库存储器的作用。将机内占较大容量而又需长期保存的信息,利用COM输出到缩微胶片不失为一种简便有效的方法。(2)计算机输入缩微片(Computer-InputMicroforms,CIM)技术。CIM与COM的作用正好相反,它是把缩微胶片上的字符、文字、图像等信息转变为电脉冲,以机器可读形式记录在磁介质和光介质载体上。同样,再通过COM可获得原始缩微胶片的复制品。因此,CIM具有进一步推广COM,扩大缩微品应用的重要作用。(3)计算机辅助缩微品检索系统。计算机辅助缩微品检索系统是一种将计算机信息检索技术、缩微品及纸质资料各自特点融为一体的自动化检索系统。它的主要设备有:计算机系统、缩微品存取设备、缩微阅读机和缩微复印机。其实现方法为:将缩微胶片信息中的可检索项(主题词、关键词、分类号、代码、日期等)以及信息所在胶片的地址(卷号、片号、顺序号等具有指导意义的信息)输入计算机,并组成索引;通过计算机外设输入检索要求,检索软件逻辑判断,获得命中结果(信息所在缩微品中地址),由此驱动并控制缩微存取设备取出原文,并显示在缩微阅读器上或由缩108微复印机输出纸质原始资料复制品。目前,计算机辅助缩微品检索系统能在1分钟内,从一万页缩微资料中检索出任意一页的能力。(4)视频缩微系统。它是由缩微、视频和计算机三种技术结合在一起构成的影像资料全文存储检索系统。由于采用视频技术,可以把输入的影像资料先暂时存入磁盘,实现随存随用,克服传统缩微系统因制备缩微品需要时间而不能立即将新资料供用户使用的缺点。而且输出的缩微影像经扫描数字化,可以通过线路向远方传送,使网络中众多的用户不但可以同时共享机读二次文献而且还能共享全文影像资料。缩微技术已经发展成为一种成熟的技术,并且已广泛应用于保存珍贵的文献和典籍。世界各地的大型图书馆常采用该技术对珍本、善本和孤本进行缩微处理,而且还利用计算机辅助缩微品检索系统和视频缩微系统,实现全文检索,并逐步通过通信网络,实现缩微品自动存储检索和缩微全文资料共享。4.信息的光存储光存储是继磁记录之后兴起的重要信息存储技术。光存储以激光为光源,以薄膜作为信息存储材料。光存储经历了只读存储器CD-ROM,可刻录存储器CD-RW、DVD-ROM、DVD刻录等阶段。与信息的磁存储相比,信息的光存储具有以下特点:(1)数据存储密度高、容量大、盘片可更换、携带方便。目前规模生产的光盘比特字长约为0.4μm(DVD光盘)。光盘容量很大,现市场销售的直径120mm的DVD光盘,面容量已达到4.7GB。(2)存储寿命长、功能多样化:光存储是利用精细聚焦能量密集的激光束,在厚度为0.6或1.2mm的盘基上,通过被密封在保护层之间的记录介质的相互作用来实现数据的写入、读取与删除的。盘基及记录介质均由性能稳定的材料制成,在常温环境下数据保存寿命在100年以上,而且可根据不同用途挑选不同的介质制成只读、一次写入、可直接重写等不同功能的光盘。(3)生产成本低廉、数据复制工艺简单、效率高。目前光盘盘片和光盘机的生产技术都已成熟。盘基用有机高分子材料注塑而成。只读盘上的信息是在注塑过程中模压在盘基上的。复制过程中盘片所需的加工周期仅2秒左右。按现有设备工艺材料水平计算,只读光盘每兆字节的生产成本低于0.1分人民币。一次写入光盘每兆字节的成本也仅0.2分人民币,是最廉价的信息记录载体。4.1.2信息存储体系本节主要分析计算机信息存储体系,关于传统的纸质存储体系就不多作介绍了。计算机信息存储体系是利用计算机对一定范围内的信息集合进行选择、记录和存储,以便用户采用科学手段与技术获取必要和充分信息资源的计算机信息系统。从物理结构考察,计算机信息存储系统是一个包括硬件和软件资源在内的、由多部性能与作用不同的机器组合而成的有机结合体。这个资源集合体可用于接收或输入信息,并将经过存储的信息按照程序指令进行数学与逻辑运算,以便达到数据查询的目的。因此,从整体上看,计算机信息存储系统包括硬件、软件和数据库。1.硬件设备这是计算机信息存储体系用于处理数据的各种硬设备的总称,即所谓的计算机外部设备和用于控制计算与处理数据的中央处理机(主机)以及存储数据与程序指令的主存储器和外部存储器等机109器设备。主机是存储系统的核心,承担整个系统运行和管理的任务。外部存储器和输入输出设备等统称为存储系统的外围设备。信息存储系统的最大特点就是必须存储大量的以供检索查询的信息资源,这需要大容量的辅助存储器,如高速磁盘机组、磁卡机、磁带机、光盘机等。此外,信息存储系统由于输入输出频繁,高性能的控制器、运算器和输入输出设备也必不可少。2.软件设备软件设备是计算机信息存储体系中各类程序和各种文件数据的总称,分为系统软件和应用软件。系统软件是为计算机进行有效运转和管理其他程序的执行而设计的操作软件,它是关于组织控制计算机硬件资源协调工作的操作程序。计算机信息存储体系的应用软件通常包括自动标引软
本文标题:第四章信息存储与检索
链接地址:https://www.777doc.com/doc-2168241 .html