您好,欢迎访问三七文档
第一节情报检索原理一.情报检索概念二.情报检索类型三.情报检索语言四.情报检索工具1.情报检索“检索”一词源自英文“Retrieval”,其含义是“查找”。将大量相关情报按一定的方式和规律组织和存储起来,形成某种情报集合,并能根据用户特定需求快速高效地查找出所需情报的过程称情报检索。一.情报检索概念从大量的信息情报集合中查找出所需情报的活动、过程与方法。(狭义)将信息情报按照一定方式组织、存贮起来,并针对用户需求的需要查找出所需情报的过程。(广义)2.情报检索原理存贮过程:搜集情报、筛选加工、形成检索工具、组成检索系统检索过程:明确需求、分析课题、利用检索工具、得出检索结果主题分析文献情报内容用户情报需求主题概念主题概念情报检索语言标识标识情报检索系统结果主题分析输入检索1.根据检索内容分类文献检索(DocumentRetrieval)数据检索(DataRetrieval)事实检索(FactRetrieval)二.情报检索类型2.根据检索手段分类手工检索特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索。计算机检索特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准率通常不尽如人意。1.检索语言的概念情报检索语言是根据检索需要而创制的人工语言,也称检索标识系统。它专门用于各种手工和计算机情报检索系统,其实质是表达一系列概括文献内容的概念及其相互关系的概念标识系统。三.情报检索语言2.检索语言的类型检索语言的种类很多,按其构成原理一般可分为分类语言(又称分类法)、主题语言和代码语言三种。其中分类语言又有体系分类法和组配分类法的区别,主题语言又有标题词语言、叙词语言和关键词语言的区别。检索语言表达文献情报主题概念表达文献情报外部特征分类语言主题语言标题词语言单元词语言叙词语言关键词语言书名、刊名、篇名等著者(作者)名称号码(如报告号、专利号、文献序号)文献类型1.检索工具的概念检索工具是用以报道、存储和查找文献信息的一切工具与设备。它以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成的二次文献。四.情报检索工具2.检索工具的类型1)按检索手段划分手工检索工具机械检索工具计算机检索工具(2)按载体形态划分书本式检索工具、卡片式检索工具、缩微式检索工具、磁性材料检索工具(磁盘、光盘等)(4)按著录对象和方式划分目录型检索工具题录型检索工具文摘型检索工具参考型检索工具搜索引擎(3)按收录范围划分综合性检索工具专业性检索工具专题性检索工具单一性检索工具传统意义上的检索技术包括布尔逻辑检索、位置检索、截词检索、限制检索等,不同的数据库使用该技术的情况各不相同,具体使用时应结合实际情况选用。一.传统检索技术第二节情报检索技术1.布尔逻辑检索(BooleanLogicRetrieval)通过对一些简单概念检索词的组配,表达一个复杂概念。表达概念间的并列关系、相交关系和排斥关系,分别是逻辑或(or)、逻辑与(and)、逻辑非(not)。“或”用于组配具有同义或同组概念的词,如同义词或近义词。用于并列关系,可以扩大检索范围,防止漏检,增加查全率。检索式写作AorB或A+B表达意义数据库中凡有检索词A或者B,或同时有A和B的记录均为命中记录。(1)逻辑“或”“or”或“+”“与”用于概念交叉和限定关系的组配。可以缩小检索范围,减少命中文献量,提高查准率。检索式写作AandB、A*B或A×B表达意义数据库中同时有检索词A和B的记录才为命中记录。(2)逻辑“与”“and”、“*”或“×”表示排除某些不需要的和影响检索结果的概念,基本作用是缩小检索范围,提高查准率。检索式写作AnotB或A-B表达意义数据库中凡有检索词A而不含检索词B的记录才为命中记录。(3)逻辑“非”“not”或“—”布尔逻辑检索算式优先执行顺序通常是NOT、AND、OR,在有括号的情况下,先执行括号内的运算,在多层括号时,先执行最内层括号的运算。布尔逻辑检索比较容易掌握,但使用不当会造成大量误检和漏检,尤其是非运算符的运用应特别小心。注意:2.位置算符检索位置检索也叫邻近检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间的邻近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。位置关系包括词距(单词间的间隔)和词序(单词的先后顺序)两个方面。(1)(W)或()(W)算符是With或word的缩写,表示两侧的词必须紧密相连,次序不得颠倒,中间不得有其他词或者字母(两个词之间可以有一个空格、或一个标点符号、或一个连接号)。例如:CD()ROM(nW)——nWordn为一个数字,表示算符两侧的检索词间允许插入n个实词或虚词,顺序不能颠倒。例如:price(2w)inflation(2)(N)(N)算符是Near的缩写,表示算符两侧的词必须紧密相连,中间不得有其他字符,但词序可以颠倒。(nN)nNearn是一数字,表示在两个检索词之间最多可以插入n个单词,且词序可以颠倒。(3)(F)——Field同字段检索,检索词必须同时出现在同一字段中。(4)(S)——Subfield或sentence,同子字段或同句检索,参加检索的两个词必须出现在同一个自然句中。3.截词检索由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一意义的词,英、美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等。截词是在检索词的某个局部截断,采用截词符构成模糊检索,防止漏检。截词符(通配符)??????*意义截词检索具有逻辑or的运算特性。(1)按照截词的位置后截断:将截词符号放在一个字符串的右方,满足截词符左方所有字符的记录均为命中记录。性质上讲,是一种前方一致的检索。例如market*(marketormarketableormarketingor…)199?(1990-1999)前截断:将截词符号放在一个字符串的左方,是一种后方一致检索。中截断:又称中间屏蔽法,用截词符屏蔽词中不同字符的方法,中间一致检索。(2)按照截取字符的数量有限截断:是在检索词后截去有限的字符。例如computer?(computerorcomputers)computer???三个字符无限截断:在检索词后跟任意个字符均为命中文献。例如comput*(computerorcomputingorcomputered…)4.字段限制检索字段限制检索是限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本索引字段和表达文献外部特征的辅助索引字段。基本索引字段包括篇名、文摘、叙词、自由标引词四个字段;辅助索引字段包括除基本索引字段外的所有字段,如著者字段、著者机构字段、文献类型字段、语种字段等。基本索引字段一般用后缀表示,如medicine/TI,或medicineInTI;辅助索引字段一般用前缀表示,如AU=SmithD.,再如PY=2005。ABAbstract文摘TITitle题名ADAddressofAuthor著者地址AUAuthor著者CPCountryofPublication出版国LALanguageofArticle文献语种PTPublicationType出版物类型PYPublicationYear出版年检索式businessinformation/TIorbusinessinformationinTI表示检索在题名中出现businessinformation的所有文献。分析reviewinTIAU=GordonandPY=2005表示检索Gordon所写的2005年发表的所有文献。分析PT=patentandLA=Chinese词组检索是将一个词组(通常用双引号“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。词组检索实际上体现了邻近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。5.词组检索加权检索是在某些检索系统中出现的一种定量检索技术。加权检索的基本方法是:在每个检索提问词后面给定一个数值表示其重要程度,这个数值称为权。在检索时,首先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。当权值之和达到或超过预先设定的阈值,该记录即为命中记录。6.加权检索1.全文检索全文检索系统是为人们获取文献原文而不仅仅是文献线索而产生的一种现代检索技术。近年来,全文检索的应用范围不断拓展,它与出版技术的结合,使各种科技期刊、专利文献、新闻报纸等全文数据库应运而生。一些年鉴、手册、百科全书、参考书等也成为全文系统处理的对象,有些著名的文学作品也可以转换成全文数据库。二.现代检索技术2.多媒体检索多媒体检索技术是把文字、声音、图像(形)等多种信息的传播载体通过计算机进行数字化加工处理而形成的一种综合技术。视频检索。这种检索要在大量的视频数据中查找所需要的视频片断。如关于卫星云图的变化、人体内器官的运作等。声音检索。包括:用序号查找一段声音;以匹配方式检索给定样值的声音;对声音文本的检索等。图像检索。它通过分析图像的内容,如颜色、纹理等建立特征索引,并存储在特征库中。用户查询时,只要把自己对图像的模糊印象描述出来即可在大容量图像信息库中找到所要的图像。3.超媒体超文本检索传统文本都是线性的,用户必须顺序阅读。超媒体与此不同,它是一种非线性的网状结构。用户要沿着交叉链选择阅读自己感兴趣的部分。早期的超文本以文字为主,随着多媒体的发展,开始容纳包括图像(形)、视频、声频等各种动、静态信息,统称为超媒体系统或超级文本系统。从信息组织角度看,超媒体系统是一个由节点和表达节点之间关系的链构成的网状数据库。所谓检索策略就是在分析检索提问实质的基础上,为实现检索目标而制定的一个合理的检索方案。一般来说,要经过以下基本程序,分析检索课题,选择检索系统及数据库,确定检索词,构建检索提问式,实施检索并调整检索策略,输出检索结果。三.检索策略1.分析检索课题接到检索课题时应当分析研究课题,全面了解课题的内容以及对检索的各种要求,从而有助于正确选择检索系统及数据库,制定合理的检索策略等。分析检索课题时应从以下几方面进行:弄清情报需求的目的和意图;分析课题涉及的学科范围、主题要求;课题所需情报的内容及其特征;课题所需情报的类型,包括文献类型、出版类型、年代范围、语种、著者、机构等;课题对查新、查准、查全的指标要求等。2.选择检索系统和数据库在全面分析检索课题的基础上,根据用户要求得到的情报类型、时间范围、课题检索、经费支持等因素综合考虑后,选择检索系统和数据库。数据库的选择要从以下几方面考虑:数据库收录的情报内容所涉及的学科范围;数据库收录的文献类型、数量、时间范围以及更新周期;数据库所提供的检索途径、检索功能和服务方式。3.确定检索词检索词的确定一般有以下几种方法:先选用主题词。当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而获得最佳的检索效果。选用数据库规定的代码。许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,CA中的化学物质登记号。选用常用的专业术语。选用同义词与相关词。同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。4.构造检索提问式基本要求是:能充分而准确地反映情报需求的内容;能适应所检索数据库的索引体系、用词和匹配规则,即与数据库中的情报标识匹配。注意问题:构造检索式时,要弄清所使用数据库的检索功能和所采用的操作算符,不同的数据库往往采用不同的符号或文字来描述词与词之间的组配关系。检索词之间用“逻辑或”连接,可扩大检索式概念的外延,拓宽情报检索的范围。为提高检索速度,在使用布尔算符时,应把估计出现频率低的次放在“A
本文标题:第二讲情报检索原理
链接地址:https://www.777doc.com/doc-3621712 .html