您好,欢迎访问三七文档
当前位置:首页 > 幼儿/小学教育 > 小学教育 > 信息检索期末课件整理资料
第一章1.2信息检索的原理就是将特定的信息需求与存储在检索系统的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出。无论是手工检索还是计算机检索,其基本原理都是一样的。即检索系统对所要存储的信息,按照其外部特征和内部特征进行描述并赋予特征标识,然后进入系统;检索时,将所需信息特征标识与所存信息的特征标识进行比较。凡是两边标识一致的,就将具有这些标识的信息从检索系统中输出。包含信息存储和信息获取两个环节。(书本上的P14)1.3信息检索系统(手绘P17)1.3.2逻辑构成一个完整的信息检索系统通常由以下几个功能模块组成:信息选择子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。1.信息选择子系统根据系统的目标和服务对象的需要,确定信息收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的信息。2.标引子系统将收录的信息源利用检索语言表达和组织,并赋予检索标识的过程。3.词表管理子系统管理维护系统中已有的词表,使它与标引、建库等子系统相连接,支持用户查询操作,从提、对话或其他文本中采集新的词汇信息,并输出各种形式的词汇数据或词表产品。4.提问处理子系统专门负责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。在对提问进行转换后,与数据库中存储的数据进行比较运算,然后,把运算结果输出给用户。5.用户接口子系统承担用户与系统之间的交流功能。通常由用户模型、信息显示、命令语言和反馈机制等部分构成。6.建库子系统建立和维护可直接用于检索的数据库,包括系统所用的各索引文档。其工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。1.4信息检索方法1)顺查法:是指按照时间的顺序,由远及近地利用检索系统进行信息检索的方法。这种方法能收集到某一课题的系统信息,适用于较大课题的检索。(查全率高)2)倒查法:是由近及远,从新到旧,逆着时间的顺序利用检索工具进行检索的方法。此法的重点是放在近期信息上。使用这种方法可以最快地获得最新资料。(新)3)抽查法:是指针对项目的特点,选择有关该项目的信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。(准)3.追溯法也称为回溯检索法、引文法、引证法,是跟踪查找的方式,以信息后面所附的参考文献为线索,逐一追溯查找相关信息的方法,此方法有助于对课题的主题背景和立论依据等内容有更深的理解。获得的信息的针对性强,适合没有检索工具或检索工具不齐备的情况。由于引证信息间关系的模糊性和非相关性所引起的“噪声”,该方法的查全率不高。第二章(理解)2.1传统的检索语言:表达一系列概括文献信息内容的概念及其相关关系的概念标识系统。检索语言概念:由词汇和语法组成。词汇是登录在类表、词表中的全部标识,一个标识就是它的语词,分类表、词表是它的词典。语法是如何创造和运用那些登录在类表、词表中的标识来正确地表达信息内容和用户信息需求,以有效地实现信息检索的一整套规则。2.1.2功能(1)对信息的内容及其形式特征(主题)加以标引,保证不同的标引人员表达信息的一致性;(2)对主题相同及主题相关的信息予以集中或揭示其相关性;(3)将大量信息系统化、组织化,便于检索人员按照一定的排列次序进行有序化的管理;(4)方便标引语言和检索用语的相符性比较,提高检索效率。2.1.3.3按标识组合的使用的方法不同先组式:表达信息主题概念的标识在编表时已固定组配好,例:体系分类法、标题词法后组式:指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将各个标识进行组配。例:叙词语言、单元词语言。散组式:指在词表中不组配复杂的主题概念,在标引阶段将表达主题概念的若干标识,根据一定的规则组配在一起。例:《冒号分类法》。2.2.1概念逻辑2.2.1.2概念逻辑的方法概念的划分与概括(分类):利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分或概括,形成更为专指或更为泛指的新概念,用以区别事物。内涵(抽象)概念的分析与综合(组配):利用在概念的交叉关系中两个概念外延的相同部分形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或者两个以上内涵较浅的概念,以及将两个或两个以上内涵较浅的概念合成为一个内涵较深的概念的一种方法。外延(侧重个体)2.3.1分类检索语言概述分类检索语言的概念指用标记符号(分类号)来揭示、表达信息内容,依据知识分类将主题概念组织、排列成类目体系,通过类目体系的自身结构显示主题概念之间的关系的检索语言。基本原理和特点1直接体现知识分类2以学科、专业为中心是其最主要特点。体系分类法——主要应用概念划分与概括的方法,以学科为基础,把概括信息内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系。——特点:一是对知识进行逻辑的、系统的组织,因此称为体系分类法或系统分类法;二是把知识分门别类地进行等级排列,因此也称为等级分类法;三是把知识详细地罗列、展开,因此又称为列举分类法或枚举分类法。——如:《杜威十进分类法》、《美国国会图书馆分类法》、《中国图书馆分类法》、《中国人民大学图书馆图书分类法》组配分类法——又称为分面分类法或分面组配分类法。是基于概念的可分析性和可综合性,即复杂的主题概念可以分析为若干简单的主题概念,若干简单主题概念可综合表达复杂的主题概念,将一个复杂的主题概念用若干表达简单概念的标识组配来表达的一种检索语言。主要应用概念分析与综合的方法。体系分类法——2.3.2.1结构微观结构类目是表达信息内容或主题范围的概念,是构成分类法的细胞。一个类目是由类号、类名、类级、注释和参照组成的。按照类目之间的关系建立起来的类目集合称为类目体系,是分类法的核心。类目是表达信息或主题范围的概念,是构成分类法的细胞,一个类目是由类号、类名、类级、注释和参照构成的。(5)类目之间的相互关系处理从属关系并列关系交替关系相关关系2.宏观结构按功能分,一般分为以下几个部分:类目体系,标记系统,说明与注释,类目索引。类目体系由主表和复分表组成。类目体系——复分表(考复分表)有通用复分表和专用复分表。主要用途:一是可以缩小类表的篇幅,简化分类表;二是增强主表中有关类目的细分程度,并规范同性质类目的细分。《中图法》(第四版)的复分表:总论表、世界地区表、中国地区表、国际时代表、中国时代表、世界种族和民族表、中国民族表、通用时间地点表共8个通用复分表和69个专用复分表(详表中67个,总论表和中国地区表中各一个)。标记系统—说明与注释说明是对分类法结构原理和使用方法的揭示。注释是类名的补充。有些类目名称不能准确表达类目的涵义,它要通过注释来明确。注释可进一步指明类目的内容范围,指出类目之间的关系,规定如何进一步细分或用什么方式细分或者指出排列方法,规定某一类的特殊分类规则和方法等。类目索引---帮助使用者从类目名称的字顺或者音序来查找相应的分类号的辅助性工具。直接索引:把分类表中的类目及其注释中的有关主题的概念,按照名字字顺排列。难以反映相关事项和复杂的专指主题。相关索引:在直接索引的基础上,还集中反映在分类中被分散了的相关事项。主题分类对照索引:在主题词表中的主题词后面列出对应的分类法的类号,以便从主题词字顺查找相应分类号。是分类法和主题法沟通的桥梁,既是体系分类法的辅助工具,也是分类法和主题法相互转换的工具。在一定程度上能缓解“集中—分散”矛盾。(重点考)体系分类法主要特点:按照学科、专业属性建立类目体系,形成按学科、专业集中信息的知识概念体系,满足用户从学科、专业出发的检索课题,提高查全率采用等级列举式的概念标识系统来揭示概念之间的关系,便于用户“鸟瞰全貌”、“触类旁通”地查找某一专业的信息采用分类号作为标识,不受语种的限制分类标识是定组式的、固定的、不可分拆的、其中诸因素是不可变换位置的缺点:修订不便,无法及时增加反映新知识的类目,对很狭窄的主题很难找到相应的类目和类号采用先组定组式标识,难以进行组配检索,使得检索途径单一,检准率低采用分类号作为主题的标识,缺乏直观性按学科和专业集中信息以及线性的分类体系,难以反映多维的知识空间结构《中国图书馆图书分类法》简称《中图法》、《中国人民大学图书馆图书分类法》简称《人大法》、《中国科学院图书馆图书分类法》简称《科图法》。《杜威十进分类法》(DeweyDecimalClassification)简称DC或DDC、《国际十进分类法》(UniversalDecimalClassification),简称UDC,《美国国会图书馆分类法》(LibraryofCongressClassification)简称LC。组配分类法:《冒号分类法》五个基本范畴:2.4主题检索语言(主要理解记忆,叙词语言集其他三家之长)专指度高、直观性好、灵活性强。由于按字顺(音序或者笔画等)排列,同一学科的信息被分散在各处,在族检索方面不及分类法1.标题词语言标题词的特点:①直接性。②直观性。③受控性(或称规范性)标题只是选择那些可能成为文献主题的事物及其较为通用、准确、专指、检索效果好的名称,并设法实现名称与概念的惟一对应。④语义关联性。⑤先组性。⑥示范性标题词的类型(标题法的类型)单级标题。即一个标题仅由一个名词术语构成。带说明语的单级标题。例如,“液压传动,用于机床的”;“期刊,化学的”;“期刊,信息密度,统计法”。多级标题。由两个或两个以上的标题词采用组配符号“—”连接起来的标题形式称为多级标题。例如“肿瘤—治疗”。“—”后的标题称为子标题。子标题、次子标题都必须是规范化的语词.这是区别于说明语的地方。倒置标题。将复词标题中具有检索意义的后置部分依次作为入口词前置,并用逗号“,”与原入口词连接的标题形式称为倒置标题。“低速飞机”与“飞机,低速”带限定词的标题。如“图书馆学(辞典)”、“橘(树)”“橘(水果)”。限定词一般都置于括号中,用于作形式复分,或区分两个字面相同但无法用其他方式区分的标题。混合标题系统。特点1.用受控的自然语言语词作标识,直观地表达主题概念,直接标引信息。2.以字顺序列组织标识,提供直接的主题检索途径,以便利于进行特性检索。3.主要用参照系统间接显示标题所表达的主题极念之间的关系,形成语义网络。它能为选用4.标题进行标引和检索提供一定方便。5.按事物集中文献,而不是按学科、专业集中。标题语言适合于从事物出发的检索。6.提供先组式的主题标识,标识含义比较明确,选用标识比较容易。缺点:允许必要时自拟标题表达新的或没有列出的主题概念,适应能力较强。多途径检索的可能性较小。按事物集中文献,而不是按学科、专业集中。适合于从事物出发的检索,不适合于从学科出发的族性检索。2.单元词语言单元词:也是一种受控的自然语言语词,是指那些最基本的、在概念上不能再分解的词汇单位。如:“大学”、“管理”、“教育”。单元词语言是一种以单元词为主题标识,通过字面组配的方式表达资源主题的标引语言。是一种后组式的主题语言。是对标题法的革新。采用的后组配的方式,在标引时不组配单元词,在检索时才对单元词下所列的文献号进行对比,号码相同的就表示有组配关系。特点:1通过最基本的词汇可以表达大量的专指概念和新概念,适合对专指主题进行标引。标引专指度高;适应性强。2标引结果不存在词序问题,每个单元词都可以作为检索入口,从而提供更多的检索途径;检索时,可以通过单元词的增减,较自由地扩大、缩小或改变检索范围。3词表体积小;修订容易。缺点:1字面拆分和字面组配容易造成语义失真。2缺乏参照系统,难以满足族性检索的需求。3直观性和系统性差。4只适用于标识单元方式的检索系统。3.关键词语言所谓关键词,是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对描述信息主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的
本文标题:信息检索期末课件整理资料
链接地址:https://www.777doc.com/doc-2692627 .html