您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 第2章 计算机信息检索技术
2019/8/21第二章计算机信息检索技术郑州大学信息检索教研室22019/8/2第1节计算机检索概述第2节计算机信息检索系统组成第3节计算机信息检索的分类第4节计算机信息检索技术第5节信息检索的方法*第6节信息检索的策略*32019/8/21.1国内外计算机信息检索发展阶段1975年,从国外引进数据库开展机检服务;1980年,建立国际联机终端开展检索服务;20世纪80年代中后期,自建数据库;90年代初,发展光盘检索;90年代中期,Internet网络化检索阶段。42019/8/2国外计算机信息检索发展阶段(P5)脱机检索阶段(20世纪50-60年代)联机检索阶段(20世纪60-80年代)光盘检索阶段(20世纪80年代中-90年代)网络信息检索阶段(1995-)52019/8/21.2计算机信息检索的定义计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人——机协同作用来完成。信息存贮是将文献、数值、事实等按一定的格式输入到计算机中,加工处理成可供检索的数据库。信息检索是将检索提问式按一定的要求输入计算机中,经计算机系统与已存贮在计算机中的数据库进行匹配运算,然后将符合检索提问的数据按要求的格式输出。1.3计算机信息检索特点检索速度快,效益高;检索功能强,数量大;检索途径多,手段灵活;检索范围广;服务方式多。72019/8/21.4计算机信息检索的原理(P8-11)信息存储原始信息信息主题数据库记录及信息特征标识信息检索信息需求检索主题检索提问式及提问标识计算机检索结果主题分析著录标引类比输出主题分析选定编制检索语言(主题词表)82019/8/2信息存储过程信息存储就是按照一定标准,将收集到的原始文献进行主题概念分析,用系统规定的语言(主题词、分类号)进行标引,形成信息的特征标识,进行整理与排序,构成可供检索的数据库,主要包括:信息的采集、著录、标引和整序等过程。92019/8/2信息的著录对所收集的原始信息的外表特征(如题名、著者、文献出处等)和内容特征(如分类号、主题词、摘要等)进行描述,形成一条条款目或记录的过程。在数据库中,其外表特征和内容特征通常称之为字段,一条记录由若干个不同字段构成。102019/8/2信息的标引标引:根据一定的规则和程序(主题词典或词表),对文献的主题内容进行分析,给予每篇文献主题词、关键词作为存储和检索标识;或者根据文献的学科归属,采用某种文献资料分类法,给予分类号作为检索标识。112019/8/2信息检索过程用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序的控制下进行逻辑运算,选出符合要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息的特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。2计算机信息检索系统组成2.1系统设备硬件:运算器、控制器、存储器、输入输出装置等软件:系统操作程序、数据库管理程序、联机控制程序、应用程序等。通讯线路:电话通讯网、数据通讯网、卫星通讯网等。检索终端:信息用户与检索系统主机进行人机对话,实现联机检索的设备。包括上网设备、调制解调器等。数据库:是计算机检索的对象。是由一个或数个文档构成,并能够满足某一特定目的或某一特定数据处理系统需要的一种数据集合。132019/8/22.2数据库的构成一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的重要组成部分,是信息资源,是检索对象。一定专业范围内的信息记录及其索引的集合体,是计算机信息检索系统的重要组成部分,是信息资源,是检索对象。构成数据库的三大要素:文档——记录——字段检索时,计算机按输入检索词的字顺先从指定的倒排文档中找到相匹配的索引词,然后根据索引词后的记录顺序号到顺排档中调出相应的记录。142019/8/2文档(File)数据库中一部分记录的集合,文档由若干记录构成。数据库是由一个顺排文档和若干个倒排文档所构成顺排文档是数据库的主体,又称主文档,按每条记录的顺序号大小排列,检索结果都来自于顺排文档。倒排文档是从顺排档中抽取有检索意义的检索标识,如主题词、著者姓名、化学物质名、刊名等,并按索引词的字顺排列,同时在检索标识后注明入藏顺序号,这就是常见的数据库中的主题词索引、著者索引、刊名索引。152019/8/2162019/8/2由若干字段组成的文献单元,是数据库中的基本文献单元,每条记录描述了原始信息的外部和内部特征。数据库中的一条记录通常代表一篇文献。例如:在书目型数据库中,一条记录相当于一条题录或文摘;在全文型数据库中,一条记录相当于一篇完整的文献;在其它类型数据库中,一条记录则代表一个信息单元。记录越多,数据库的容量就越大。记录(Record)172019/8/2182019/8/2字段(Field)字段是构成记录的基本单元,是对文献某一方面的特征(包括外表特征和内容特征)进行描述的结果。例如:题名、作者、作者地址、出版年、来源(出处)、主题词、文摘等字段是书目数据库中必备字段。为识别每一个字段所表达的文献特征,通常每个字段都有固定的名称和缩写(或称字段标识符),如,题名字段的标识符为TI,作者字段的标识符为AU等。192019/8/22.3数据库的类型*(P3-4)参考(文献书目型)数据库全文数据库事实数据库数值数据库202019/8/2参考(文献书目型)数据库是指包含各种数据、信息或知识的原始来源和属性的数据库;是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。存储的是二次文献,包括文献的外部特征、题录、文摘和主题词等。这类数据库占用很大的比例,其代表性的数据库有《EICompendexPlus》(工程索引)、《INSPEC》(科学文摘)和《全国报刊索引》等。图书馆提供的基于网络的联机公共检索目录(OPAC)系统212019/8/2事实数据库存储的是用来描述人物、机构、事物等信息的情况、过程、现象的事实数据。如名人录、机构指南、大事记、百科全书、手册、地图集、企事业名录、计算机程序、音乐等,均可归入事实数据库。例如:中国咨询行、国研网、万方数据(中国企业、公司及产品、中国科技名人、中国科研机构等等)222019/8/2数值数据库主要包含的是数字数据,如各种统计数据、科学实验数据、科学测量数据等。气像数据、地质资料、化学或物理化合物特性的文献数据、人口统计资料、市场调研数据等。232019/8/2全文数据库存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。如:中国知网(CNKI)、万方、维普、Elsevier等全文数据库。3计算机信息检索的分类1按信息资源的存储形式分2按信息访问模式分252019/8/23.1按信息资源的存储形式分*(P7-8)(1)全文检索。以全文数据库存储为基础的检索方式,所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文检索系统对全文数据库进行词(字)、句、段落等深层次的编辑、加工,同时允许用户采用自然语言表达,借助逻辑组配、截词、邻词匹配等检索手段直接查阅文献原文信息。全文检索的应用范围包括:各种科技期刊、专利文献、新闻报纸、年鉴、百科、手册、图书等全文数据库,例如:我国引进的OCLC的firstsearch、IEL、SpringerLink、EBSCO等全文数据库以及我国CNKI的中国期刊全文数据库、重庆维普的中文科技期刊数据库、超星数字图书馆、万方资源系统的数字化期刊、学位论文、会议论文等。262019/8/2(2)二次文献检索*是针对全文检索而言,也就是分别将文献的内部特征(题名、分类等)和外部特征(作者、出处、年代、ISSN、语言等)作为存储和检索的匹配标识而形成的数据集合,利用检索系统的检索结果是文献信息的题录及文摘。学科领域覆盖面广,信息量大,可以利用文献线索获取到一次文献。例如:COMPENDEX、INSPEC、SCI等国外数据库;万方数据的学位论文、会议论文数据库、全国报刊索引、Calis西文期刊目次数据库等272019/8/2(3)多媒体检索就是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工、处理而形成的一种综合存储技术。利用多媒体检索系统可分别进行视频检索、声音检索、图像检索。多媒体信息检索系统有着广阔的应用前景,它将广泛用于电子会议、远程教学、远程医疗、电子图书馆、艺术收藏和地球资源管理、天气预报、时装设计、智能群体决策、计算机支持协同工作、金融市场、军事指挥系统、防汛指挥系统等方面。各大网站均可进行多媒体信息的检索,如:GOOGLE、百度等搜索引擎、新华社多媒体数据库是国内最大规模的多媒体、多文种新闻信息综合性数据库。282019/8/2(4)超文本检索超文本(Hypertext)是利用计算机将多介质信息按照一定的逻辑联接关系加工、贮存起来,构成可任意连接的、有层次的网状结构数据库,是一种联想式的综合信息管理系统。其中的某些字、符号或短语、图形和图像起着“热链路”(Hotlink)的作用,在显示出来时其字体或颜色变化或者标有下横线、以区别于一般的正文。当鼠标器的光标移到某个热链路上,并且按了一下鼠标键之后,鼠标器光标便沿着这条链路跳到该文件的另一处或另一个文件。计算机信息检索在经历了传统信息检索、全文文本检索之后,随着多媒体技术的发展和应用,出现目前这种超文本检索方式。可用于检索人物、新闻、文档、文艺小说、旅游景点、绘画、古文物、生物等内容广泛的各种信息。292019/8/23.2按信息访问模式分(P5)根据检索方式分:(1)脱机检索(2)联机检索(3)国际联机检索(4)光盘检索(5)镜像检索(6)网络检索(1)脱机信息检索是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机进行文献检索的一种方式。优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储。缺点:一次机会检索,检索结果延误,委托性检索。(2)联机信息检索联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。特点:检索的速度快,检索结果可以得到及时修改。缺点:检索费用高。(3)国际联机检索*该系统是70年代出现的一门现代化情报检索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。优点:(1)可以实现资源共享;(2)检索速度快;(3)信息资源专业化;(4)查全率和查准率较高。2019/8/233国际联机检索的缺点检索费用高;对检索系统及其文档(数据库)的收录、标引、特点等问题较难了解、熟悉;检索技术和技巧不易掌握世界上最著名的国际联机检索系统1、DIALOG系统*是世界最大的国际联机检索系统1963年,原属美国洛克希德公司,系统设在加洲PaloAlto市,1988年转让给美国Knight-Ridder公司。2000年又转入DIALOG公司经营。目前,该系统的联机服务网遍布世界70多个国家和地区的200多个城市,共设有联机检索终端25000余台。系统中各类型数据库数量的发展速度相当快,拥有数据库约900多个,占全世界机存总量的60%,内容涉及自然科学、社会科学、经济、商业等各个领域。352019/8/2DIALOG系统主页()362019/8/2DIALOGWEB系统检索平台2019/8/237世界上最著名的国际联机检索系统2、ORBIT系统:是世界是第二大联机检索系统,他建于1965年,总部设在美国费
本文标题:第2章 计算机信息检索技术
链接地址:https://www.777doc.com/doc-48261 .html