您好,欢迎访问三七文档
育明教育27位粉丝1楼情报检索与分析一.名词解释1.叙词法:是建立在叙词语言及其性质的基础上的一种新的处理文献的方法。其基本原理是通过概念组配(分析与综合)来表达主题,以提高标引的专指性和检索的灵活性。2.加权检索:加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。3.联机4.searchengine:搜索引擎就是互联网上提供的具有信息发现、组织、检索、导航及其他相关服务功能的各种软件系统或工具的总称。5.metedata:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能。6.指南数据库:是存储有关某些客体(如机构、人物等)的一般指示性描述的一类参考数据库。7.HTML:超文本置标语言,是为网页创建和其它可在网页浏览器中看到的信息设计的一种置标语言。HTML被用来结构化信息——例如标题、段落和列表等等,也可用来在一定程度上描述文档的外观和语义。8.on-goingproject:进行中的项目9.逆波兰表达式:又称福岛方法,这种方法主要的处理思想是先将检索式(一般为中缀表达式形式)转换为等价的逆波兰式(即后缀表达式形式),然后将逆波兰式翻译成一组检索指令。10.专利:这个概念的基本涵义是指专利权,其派生义是指获得专利权的技术发明,或指发明人申请专利时提交并由专利局出版的有关某发明的技术说明书(即专利说明书)11.检索策略:概括的说,就是指为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。12.先组式索引语言:指在实施检索前,索引词已被(标引者)预先组配好了的一种索引语言。检索时,检索人员只能直接利用预先给定的索引词去检索文献。13.叙词:指的是来自文献和用户并经过严格的多方面控制、用以表达文献主题或信息需求的单义词或代码。14.引文索引法:利用手头已经掌握的一篇重要的较早发飙的相关著作作为检索的起点,利用引文索引查出所有引用过这篇著作的人及其文章的出处,再查来源索引,就可以查得一些与课题相关的文献。15.报道性文摘:用来概括原文的内容要点(尤其是创新点),向读者提供原文中的定量信息(如距离、最大值、最小值、平均值、中值、公式、可靠度等)和定性信息(如发现、结果、新方法、新设备、结论等)的一种文摘。16.源数据库:能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库、音频数据库等。17.回溯检索:对检索系统已存储的全部情报,或其中一定时间范围的情报,按照特定主题范围(用户课题)进行文献普查。回溯情报检索,不仅要查找最新情报,而且要追溯查找过去年代已存储的所有情报。通常所说的文献检索,即指这类检索。例如,申请专利为查证新颖性而进行的文献普查,科研人员从事新的课题研究之前为了了解国内外已有成果而进行的文献普查,都是回溯情报检索。回溯情报检索可以采用脱机(成批)处理,也可采用联机处理,但前者只是早期的计算机情报检索采用,现在的回溯情报检索几乎均采用联机处理方式,因此联机检索和回溯检索具有同样的含义。赞02010-8-1421:05回复育明教育27位粉丝2楼18.网罗度:又称标引深度,指的是每篇文献所含主题(要素)在标引过程中被确认和转换成索引词或索引款目的数量。标引深度也是衡量索引质量的主要指标之一。网罗度是指用作统计分析的文献在整个已出版文献中所占的份量。一般来说,对文献的统计越充分,网罗度也就越高,分析出来的核心出版社也就越准确、越有权威性。网罗度的高低,决定了核心表(核心出版社的列表)信息密度的大小。所以,从某个意义上来讲,网罗度的高低,实际上就是信息量的大小。19.参照:是索引参照系统的主要部分。从本质上讲,参照是反映标目之间语义关系的一种指示物,也是链接相关款目的一种媒介物。它把读者从现在查的地方指引到应该去查的地方,以便查出相关的全部标目和款目。20.功能分类21.原文检索:“原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的运算。原文检索可以说是一种不依赖叙词表而直接使用自由词的检索方法。原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。原文检索的运算符可以通称为位置运算符。从RECON、ORBIT和STAIRS三大软件对原文检索的规定,可以看出其运算符主要是以下4个级别:(1)记录级检索,要求检索词出现在同一记录中;(2)字段级检索,要求检索词出现在同一字段中;(3)子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句中;(4)词位置检索,要求检索词之间的相互位置满足某些条件。原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足。运用原文检索方法,可以增强选词的灵活性,部分地解决布尔检索不能解决的问题,从而提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。22.准波兰变换法:针对逆波兰变换对系统内存空间要求过高而提出的一种改进方法。它通过对逆波兰表达式的改写,得到一个检索时所需内存工作区个数最少的后缀表达式,这样的后缀表达式被称为准波兰式。23.囊括值:指与某一提问相关的文献在指定文献集合中的分布密度。通常,分布密度越大越容易检出。其表达式为G=给定集合中与某一提问相关的文献量/给定集合中的文献总量。24.引文珠形增长:从已知的关于检索问题的少数几个专指词开始检索,以便至少检出一篇命中文献或一条相关信息,然后审阅这批文献或信息条目,从中选出一些新的相关检索词,补充到检索式中去。这些词加入到检索式之后,就能查出其他新的命中结果。不断重复上述过程,直到找不到其他适合包含于检索式的附加词为止,或者已经得到了数量适宜的命中结果。25.元搜索引擎:又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问同时提交给多个独立的搜索引擎,同时检索多个数据库;并根据多个独立搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等;输出给用户。26.标引深度:同网络度18。27.互逆相关:英国Cleverdon等人由试验得到的查全率—查准率经验曲线表现,查全率与查准率是互逆的,即对于一个查找要求,如果要设法提高查全率,则查准率会降低,反之亦然。这也可以看作是文献信息检索的一个基本特征。28.ontology:是共享概念模型的明确的形式化规范说明。这包含4层含义[4]:概念模(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。“概念模型”指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”Ontology是计算机可读的(即能被计算机处理)。“共享”指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识。Ontology的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。2010-8-1421:05回复育明教育3楼29.相关分析:研究随机变量之间的相关关系的一种27位粉丝统计方法。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。30.聚类文档:指针对系统中的全部文献向量,使用一定的相似性(或相异性)度量指标和聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献聚集在一起,形成一个个的文献类目,进而形成文献的聚类文档。31.非程序化决策:指没有一套固定的程序,只能采用“现裁现做”的方式进行处理的决策,或者说是不能准确表达过程的决策。32.后控词表:后控词表是编制很严谨的主题词表,包括词的各种关系,甚至词的语法属性、关系之间能相互参照,对用户提问词进行各种控制,包括同义词扩充、相关词扩充,上下位按等级扩充,还可带有智能型(即联想功能、自学习功能、自我完善功能)的一种词表系统。从一定程度上说,其目的是对不规范的标引词加以规范,以实现较高的查全、查准率。后控词表也通常被作为一种较为有效的控制手段以提高检索系统的性能,其实质就是将对标引的控制放在标引之后,较之字面匹配、词频计算等后控手段有着无可比拟的优越性。33.关系模型:关系模型是建立在数学理论基础之上的,用二维表格的形式表示实体的联系。34.事务等待图:事务等待图是一个有向图GT,U)。T为结点的集合,每个结点表示正运行的事务;U为边的集合,每条边表示事务等待的情况。若T1等待T2,则T1、T2之间划一条有向边,从T1指向T2。事务等待图动态地反映了所有事务的等待情况。并发控制子系统周期性地(比如每隔1分钟)检测事务等待图,如果发现图中存在回路,则表示系统中出现了死锁。35.向量空间模型:将文档标识为由n个经过归一化处理的标引词构成的n维空间中的向量,该向量第k维的值(第k个分量)表示第k个标引词在文档中的权值。用户检索提问式也同样表示为一个n维向量。文档和检索提问式的RSV是这两个向量的标量乘积,RSV越大,文档和检索提问式的相关度便越大。36.非数量决策:主要依靠决策者基于管理经验之上的分析判断的决策。37.专长权:领导因自身专长而具有的权威。38.纵横法:纵横法是一种经验方法,它是以研究课题中有代表性的作者为线索,通过检索工具,采用往纵向和横向扩大来获取文献的一种方法。40.质疑式头脑风暴:又称破坏式头脑风暴,这种方法也是以小组会的形式进行,主要用来对过去已经制定的方案和设想提出异议。41.技术复原42.信息分析43.序贯决策:也称动态决策,它要做出一系列相互关联的决策,从而具有两个特点:一是它做出的决策不是一个而是一串;二是这一串决策并非彼此无关,而是前一项决策直接影响后一项决策。44.分层抽样:又称类型抽样。它将总体各个单位先按主要标志分组,然后在各组中,采用纯随机抽样或机械抽样方式,确定所要抽取的单位。45.集体头脑风暴:一般是以小组会的方式进行,人数以5到10人为宜。这种讨论会一般事前约法三章:第一,思想自由奔放,想到什么说什么,不要求全面系统;第二,讨论中各说各的,不评论别人的意见,不互相争论;第三,联系别人思路,结合或改善别人意见,多提方案或者建议。46.变换角度:又称相异思维,是突出发散思维过程,鼓励从不同角度、不同侧面来思考问题的一种研究方法。二.简答1.原文信息检索有几个等级,要实现这几个等级对系统有什么要求。2.专利文献检索和一般文献检索比较的特点A.专利文献数量巨大,覆盖面广;B。专利文献格式统一,措辞严谨;C。专利文献描述对象具体、单一;D。专利文献技术内容新颖可靠,实用性强;E。转移文献文件类型
本文标题:情报学历年考研真题
链接地址:https://www.777doc.com/doc-2438895 .html