您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 《信息检索》考试重点
《信息检索》考试重点信息是指事物的存在方式和运动状态,是对客观世界中各种事物的变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。这里强调信息是事物属性的表征,即信息不是事物本身,而是用来表现事物特征的一种普遍的形式。信息的特征7个:客观性、普遍性、可存储性、可传递性、扩散性、共享性、时效性。信息的功能4个:经济型功能,选择与决策、管理与协调、研究与开发。知识是人类通过信息对自然界。生物界、人类社会运动规律的认识和概括,是人的大脑通过思维重新集成整合的系统化信息,是信息中最有价值的部分。也就是说信息是产生知识的原材料,知识是信息的加工的抽象化产物。知识是一种特定的人类信息,它四对信息进行提炼和深化的结果。知识的类型:显性知识和隐性知识、实体知识和过程知识、核心知识和非核心知识。情报是具有特定传递对象的特定知识或有价值的信息。情报的特征:动态性、按特定方式传递、为特定目的服务的、常常带有一定的时效性和机密性情报的类型。情报的分类:根据情报的来源与加工程度划分,情报可以分为:零次情报、一次情报、二次情报、三次情报。零次情报是指为公开于社会、没有经过记录整理、非正式传递的、直接作用于人的、非文献情报的总称。如私人笔记、手稿、设计草图、会议记录、口头言论等。一次情报:是指为经过加工或者加工程度等于零的原生情报。这种情报直接反映实际情况和科研成果,有如生产过程中的原料。固定原生情报的文献称为原生文献,也称一次文献。如调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。二次情报是一种派生情报,是针对一次情报加工的产品。一二次情报的作用不仅在于报导,更重要的是为查找一次文献提供线索。刊载二次情报的文献称为二次文献,二次文献按照加工的方式和深度又分为书目、索引、文摘等形式。其中文摘是一份文献的内容缩短的精确的表达,它是二次情报的重要形式。三次情报是在一次二次情报的基础上,经过分析研究和综合概括而编撰的情报。刊载三次情报的文献称为三次文献,三次文献是情报研究的成果。其主要形式有综述、专题评论、年度总结、科研进展报告、数据手册、专业年鉴等。这种情报浓缩了所有的原生情报,可以节约大量阅读时间、减轻劳动强度、提高工作效率。信息、知识和情报之间的关系:知识是人的大脑经过思维重新集成整合的、反映事物运动规律的系统化信息,是信息中最有价值的部分;情报是具有特定传递对象的特定知识或有价值的信息,其中一部分在知识之内,另一部分则在知识之外的信息之内。因此,从逻辑上看,信息、知识、情报三者的概念是相容关系。具体来说、信息与知识、情报之间是属种关系,信息是属概念,知识、情报是信息之下具有交叉关系的种概念。信息资源的概念:广义,信息资源是指人类社会活动中积累起来的信息、信息生产者、信息加工技术等信息活动要素的集合。狭义,信息资源是指人类社会经济活动中经过加工处理有序化并大量积累后的有用信息的集合。信息资源的特征:作为生产要素的人类需求性、稀缺性、使用方向可选择性、共享性、时效性。信息资源的类型:根据载体不同可以分为,载体信息资源、文献信息资源、实物信息资源、网络信息资源。信息检索的概念:广义包括信息存贮和信息检索指将信息按一定方式收集组织和存储起来,并根据信息用户需求找出所需信息这一过程和技术;狭义不包括信息存贮,指依据一定方法,从已经组织好的信息集合中,查找并获取特定需求的信息这一过程。信检类型1按检索内容或检索对象(文献数据事实检索)2按组织方式(全文检索超文本检索和超媒体检索)3按检索设备(手工检索和机器检索)信息检索的发展趋势:统一检索界面、主动的信息推送服务、多种检索模式融为一体、可视化技术实用化、检索的智能化。信息检索的基本原理;检索提问标识与存储在检索系统中的标引标识进行比较,二者完全匹配或信息标引中的标识包含提问标识即为检索命中,具有该标识的信息就从检索系统中作为检索结果输出。计算机检索的原理:计算机检索的实现过程,计算机检索如同手工检索一样,都分两个过程,一是信息存储,即按一定的规则将信息进行加工,赋予特征标识,并将这些标识按照一定的顺序编排后纳入检索系统;一是信息检索,就是用户根据自己的检索要求向系统发出含有提问特征的检索式,系统自动地将自己存储的相关信息集合的标引标识及其逻辑组配关系与之类比、匹配、给出特征标识相符的记录。因此信息检索过程其实就是表示用户需求的字符串与系统内存储的大量字符串进行类比、匹配和逻辑运算的过程。计算机信息检索的实现条件:计算机、通信网络、检索终端设备、数据库计算机信息检索的发展:脱机平批处理检索阶段、联机检索阶段、光盘检索阶段、网络化检索阶段。计算机信息检索的服务方式:回溯检索、定题检索、随机问答、联机订购。检索语言的概念:检索语言一般指文献标引和检索所使用的一种专门语言,是用以表达概括文献信息和检索课题内容特征的概念及其相互关系的一种概念标识系统,即在存储是用以描述文献信息的内容和外部特征,而在检索时则用于表达提问的语言。检索语言的类型:按检索语言的规范化程度来划分,可以分为规范化的人语言和非规范化的自然语言;按检索语言的词汇组配方式来划分,可分为先组式语言和后组式语言;按描述文献信息内容特征来划分,可分为分类语言和主题词语言;按词汇的类型来划分,可分为关键词语言、单元词语言、标题词语言和叙词语言等等。人工语言:由人工采用规范词而创建的一种受情报检索控制的语言。人工语言使用的控制、规范词是用来专指某个概念和网络、指示宽度适当的概念,共检索时选择。它可以将同义词、近义词、多义词和缩略词等规范在一起,由人工控制,因此又称为控程语言。自然语言:检索用词是取其自然形态,从信息内容本身抽取,不收人工控制,主要赖于计算机自动抽词技术来完成,但是需要辅助以人工自由标引,即不一句词表的标引方法,使用非规范词或称自由词。人工语言和自然语言的比较:人工语言的查全率和查准率均比较高,因此,人工语言的检索效率要高于自然语言。但是,人工语言是基于印刷型文献资源产生的,对标引来说,工作量大,成本高,对文献信息检索来说,用户不易掌握。而自然语言则不然,对标引来说主要由计算机检索系统自动完成,具有灵活性,新颖性、和专指性,并且检索点多,管理和维护的成本低;对文献信息检索来说,用户很容易掌握。但是,由于目前计算机的抽词技术还无法达到从自然语言中抽取最准确并能够表达信息资源内容的词,无法自动规范自然语言,无法指示概念之间的关系,缺乏对词汇的控制能力,因此检索效率比较低。先组式语言和后组式语言:先组式语言是指在检索实施前已事先组配好的一种检索语言。用户只能用这种已经固定好的检索词组形式完成检索,它有较好的直接性和专指性,但灵活度差。例如标题词语就属于此类。后组式语言:是指在检索前未事先组配好的、以单元词等形式出现的一种检索语言。用户在检索时将他们临时组配起来,表达一定的概念,来完成信息检索。这种后组方式提供了灵活的组配方式在计算机检索中得到了广泛的应用。分类语言和主题语言:分类语言属于人工语言,由人工创造并进行控制。分类语言是按照学科范畴和知识之间的相互关系列出类目,并用数字、英文字母对类目进行标识的一种检索语言。它集中反映学科的系统性及学科与学科之间的相关、从属、派生等关系。主题语言,又称为主题词语言和主题检索语言,大部分主题语言属于人工语言,由人工创制并进行控制。主题检索语言由主题词汇构成,也就是将自然语言中的名词术语经过规范化以后直接作为文献信息标识,按照英文字母排列信息标识,通过参照系统揭示主题概念之间的关系,因此也称为主题词表、主题词语言和主题法。主题语言的类型:关键词语言、单元词语言、标题词语言、叙词语言。检索系统的概念:检索系统是为了满足信息需求而建立的,具有收集、组织、存储和查询等功能的文献信息资源和相关设备设施的总称。检索系统的类型:按加工手段和技术设备的不同,可将检索分为:手工检索系统、机械检索系统、计算机检索系统。按载体形式不同,可分为卡片式、书本式、缩微式、磁性材料式等检索系统。按著录格式不同,可将检索系统分为目录,题录、索引、文摘、全文检索系统。计算机检索系统的组成:信息选择子系统、标引子系统、建库数据库被定义为:“至少一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”简单地说,它是某一范围的附有检索标识的记录的集合,即为满足特定需要而按一定方式和特定结构收集、加工、处理并存储在计算机中的关联数据的集合,这些数据具有共同的存取方式,可以供多个用户共同利用。顺排文档、倒排文档:顺排文档是按一种重要字段顺序排列而成的数据库中全部记录的集合。倒排文档是抽出文档记录中的可检字段或其他特征标识,分别将包括该字段或标识的所有记录按某种顺序排列组织,并在每条记录后附上其存取号,所得到的文档就是倒排文档,它相当于手工检索工具中的索引部分,在文献数据库中也唱被称为索引。有多少个倒排文档就有多少个检索方式。基本索引、辅助索引,基本索引系统中,可检字段(也称检索项)通常分为表示文献信息内容特征的基本索引字段和表示文献信息外部特征的辅助索引字段两大类。基本索引是反映内容特征的字段,如主题词、关键词、篇名等字。辅助索引是反映文献信息外部特征字段的索引,辅助索引字段也称非主题字段,包括作者、刊名、出处、文献类型、语种、出版年份等。从数据库用户的角度看数据库的结构可分为:集中式数据库结构、分布式数据库结构、并行数据库结构、易购数据库结构、客户机/服务器结构、浏览器/服务器结构。数据库的特点:结构化、所存储的数据是面向现实世界的、数据的共享性好、数据库中数据的独立性强、数据库由数据管理系统统一管理和控制。数据库的类型:按提供信息的等级来分,数据库可分为参考数据库和源数据库;按存储类型的不同科分为磁带数据库、磁盘数据库和光盘数据库等;按数据模型的不同分为层次型数据库、网状数据库和关系型数据库;按涵盖学科内容的不同分为综合性数据库、专业型数据库。文献数据库的功用:对文献信息的规范化管理、为用户提供多途径的检索方式、为用户提供多种形式的服务内容、为用户提供多渠道的检索服务。数据仓库技术,数据仓库不是简单的数据库产品,而是一种解决方案。数据库仓储差别:事务处理与分析处理性质不同、数据集成问题、历史数据的使用。数据仓储技术的内容:数据仓储技术、联机分析处理技术、数据挖掘技术。信息检索的一般方法:常用法、引文追溯法、循环法。检索途径:分类途径、主题途径、提名途径、引文途径、序号途径和符号代码途径、全文关键词途径著者/机构途径、其他途径。检索策略有广义和狭义之分:从广义看,检索策略是为实现检索目标而制定的全部检索计划,即在对课题进行全面、实质分析的基础上,选择检索系统、检索途径和检索词、明确各词之间的逻辑关系,并根据各检索词之间的关系和系统允许使用的各种算符、限定字段等组建检索式,明确检索步骤。狭义的检索策略指检索提问式。检索词:就是简明、准确地概括检索要求的词语。检索词是表达用户信息需求检索和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。检索式:又称提问式,是检索策略的某种具体体现。在计算机信息检索中,指在课题分析的基础上,根据所要检索的概念及其相互关系,确定检索词,并用系统支持的各种算符和其他连接符对检索词进行逻辑组配而形成的,全面表达检索提问的逻辑表达式。检索策略的制定:制定检索策略时不仅要全面准确地对课题进行概念分析,确定概念单元和概念间的关系,而且要熟悉有关的检索系统,才能将概念单元转换成系统能够接受的检索词,并选择合适的方式组配起来,完整地表达自己的检索要求,另外还要掌握各种检索方法和途径,适当地运用到检索过程中去,才能取得较好的检索结果。检索策略的调整:从检索结果的数量上看,计算机信息检索经常会出现检索结果过多或者过少的现象,这时应及时调整检索策略,扩大或缩小检索范围,以增加或减少命中结果,提高查全或查准率。要扩大检索范围,一般可通过扩大概念,增加同义词或同族相关词并运用逻辑或进行组
本文标题:《信息检索》考试重点
链接地址:https://www.777doc.com/doc-2839195 .html