信息检索习题汇总及答案

1、1一、填空题1.数据的记载方式主要有数值型_、文字型、_语音型、_图像型。2.数据与信息的关系可看作是原料_和_成品_的关系。3.信息分析过程是将数据转换为_信息_的过程。4.信号分为_信息_信号和_人为_信号。5.信息一般表现为_数据_、文本_、_声音、_图像_等形态。6.一般认为，信息由_语义_、_差异_、_传递_、_载体_等要素构成。7.信息的加工按加工对象的不同可分为对_外表_信息的描述，对_整体_信息的描述，如文摘对_内容_信息的描述。8.信息管理的过程包括信息_收集_、信息_传输_、信息加工_、信息储存_。9.信息加工包括_信息形式的变换和_信息内容的处理。10.信息动机的形成原因有_内在的信息需要_和_外在刺激_。11.主题语言包括_标题词_、_单元词_、_叙词_、_关键词_。12.在信息存储的结构中，基本的逻辑结构有_线性结构_、_非线性结构、_树形结构_、网状结构。13.总体上，信息检索系统可分为_数据预处理_、_索引生成_、_查询处理、_检索_。二、名词解释1.数据：是指记载下来的事实，是客观实体属性的值，它是由原始事实组成的。2．信息加工：是指对获取的信息进行判。

2、别、筛选、分类、排序、分析、计算和研究等一系列过程，使收集到的信息成为对我们有用的信息资源。3．信息组织：即信息序化或信息整序，也就是利用一定的科学规则和方法，通过对信息外在特征和内容特征的表征和序化，实现无序信息流向有序信息流的转换，从而保证用户对信息的有效获取和利用及信息的有效流通和组合。4．检索标识：就是为沟通文献标引与文献检索而编制的人工语言，也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道，是用于文献标引和检索提问的约定语言。5．信息检索：可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储起来，并根据用户的需要找出相关信息的过程，其中包括存与取两个方面。狭义的信息检索仅指信息查找过程。6．信息检索系统：是指按某种方式、方法建立起来的用于检索信息的一种有层次的体系，是表征有序的信息特征的集合体。7．检索效果：是指利用检索系统（或工具）开展检索服务时所产生的有效结果。三、简答题1．简述了解用户信息需求的作用答：用户信息需求是信息系统发展的动力，也是制定信息政策的出发点和依据。了解用户需求的特点、心理规律、查询行为及需求方式，有助于系统制订合。

3、理的信息搜集方针和信息资源的合理布局，从而提高服务效益和质量。2．简述影响信息动机向信息行为转化的主要因素答：（1）信息动机强度（2）认知能力（3）抱负水平3．简述信息需要的特点答：（1）信息需要的广泛性（2）信息需要的社会性（3）信息需要的发展性（4）信息需要的多样性4．简述信息检索系统的构成模式答：（1）信息数据的选择、处理、录入、维护子系统（2）词表和标引子系统（3）检索子系统（4）系统-用户接口子系统8.简述信息检索系统的流程系统可分为数据预处理、索引生成、查询处理和检索四个部分。四、论述题21．有人说，信息加工是一个体系，你如何理解，请着重从“体系”这个角度加以说明答：（1）加工的方式、方法多种多样。（2）加工的方式、方法相互之间有关联，从不同角度对信息进行加工的。（3）加工过程有其内在联系，构成一个完整的系统。（4）整个加工体系会随着时间的变化，信息数量的变化，载体的变化和技术的变化而不断变化和完善。（5）信息的加工按其加工对象的不同可分为对外表信息的描述与加工，对整体信息的描述与加工，还有对内容信息的描述与加工。2.请探讨一下信息加工的层次性根据信息加工特点，信息加工分为。

4、6个层次：①外表信息的加工是描述性的，给用户提供的是信息的线索；②整体信息的加工是概述性的，给用户提供的是信息的内容特点；③内容信息的加工要深入信息内部，对有用的信息给予揭示标引，使读者利用信息有据可查；④精粹信息的加工是通过比较鉴别的方法，选取价值高的整体或局部信息，给用户直接提供信息的精华，满足用户对实质性信息的要求；⑤深度信息的加工是研究性和评价性的，解决信息的优劣和有关信息的有效组合问题，给用户以启迪和决策依据；⑥相关信息的加工是信息的外延和扩展，使有关信息根据一定关系进行链接，给用户检索和直接利用的方便。*******************************二********************************************一、填空题1.数据库的定义功能主要是对数据库的结构进行描述，这些定义都保存数据字典中。2.数据库系统提供了两种机制来支持完整性约束：第一种是完整性定义机制，第二种是完整性_验证约束机制_。3.数据库的三级模式是指_外模式_、_内模式_、_模式_。4.对文献数据库而言，加工深度表现为_题录_、_文摘_、_全文三个层次。5.标引工。

5、作可分为_人工标引_、_计算机辅助标引_、_自动标引三种方式。6.信息检索过程实际上是将检索提问式与文献记录标引词进行_对比匹配_的过程。7.为提高检索效率，计算机检索系统从_概念相关性_、_位置相关性_等方面对检索提问实行技术处理。8.用向量模型计算机向量时，一般采用向量的_夹角余弦_来表示。9.通常，智能信息检索系统由_知识库_、_文本处理_、_智能接口_三部分组成。二、名词解释1．数据模型：是描述数据、数据联系、数据操作、数据语义以及一致性约束的概念工具的集合。2．著录：就是对信息外部特征进行分析、选择与记录的过程。3．标引：就是指对信息内容特征进行分析，赋予信息以检索标识的过程。4．词位检索：是以数据库原始记录中的检索词之间的特定位置关系为对象的运算，又称全文检索、邻近检索。三、简答题1．什么是倒排文档？为什么要使用倒排文档？答：倒排文档是将主文档中的可检字段抽出，按某种顺序重新排列起来所形成的一种文档。按表达文献内容特征的主题词排列的文档称为基本索引文档；按表达文献外部特征排列的文档称为辅助索引文档。在实施检索时，必须和顺排文档配合使用。倒排文档类似于检索工具中的辅助索引。2。

6、．简述布尔模型及其优缺点答：布尔模型是最简单的信息检索模型。这种模型的理论基础是集合论。布尔模型最大的优点是理论简单、使用方便。3缺点是：（1）它只能给出精确匹配的结果；（2）检索结果有可能因查询词在大量文档中出现而数量太多；（3）由于找不到与查询词完全匹配的文档而使结果太少。3．简述向量空间模型及其优点答：向量空间模型是一种简便、高效的文本表示模型，其理论基础是代数学。向量空间模型最主要的优点在于：（1）该模型的权重计算方法能够提高系统的检索性能；（2）模型中使用的部分匹配方法能检索出与用户的查询输入条件“近似”的文档；（3）在模型中可以根据检索出的结果与查询条件的相关程度对结果进行排序。另外，向量空间模型计算简单，检索速度快。4．简述“网播”的信息推送方式答：（1）频道式推送（2）邮件式推送（3）网页式推送（4）专用式推送5．简述智能信息检索的系统结构答：智能信息检索系统是由知识库、文本处理和智能接口三部分组成。6．简述智能信息检索的主要方法答：（1）统计方法（2）文本分析方法（3）人工智能方法（4）语料库方法7.有哪些种类的加权检索？各有哪些特征？加权检索把量化思想引入定性检索之。

7、中，是改善和提高检索效果的一种重要手段。分标引加权和检索加权；检索加权是指检索者在给出检索词的同时，并为每个检索词赋予权值，以区分每个检索词在检索中的重要程度。通过加权，明确了各检索词的重要程度，使检索更有针对性，并且能依据权值的大小，对命中记录的重要性进行排序词频加权检索是根据检索词在记录中出现的频次来计算命中记录的权和，依据命中记录权和数从大到小排列，最后由阈值控制输出命中结果。与检索词加权检索不同的是，词的权值是由数据库记录中的词频决定，不是由检索者指定，不需人工干预，减轻了检索者的负担。词频加权检索方法应建立在对全文数据库和文摘数据库基础之上，否则词频加权将失去意义。简单词频加权检索：指检索时累计检索词在记录中出现的次数来决定记录的权值，然后累计该记录每个检索词权值之和来决定该记录是否为命中记录。相对词频加权检索：是将每一个检索词在本文中频率和在整个数据库中的频率综合考虑，进行加权检索的方法。标引加权检索是指在对文献进行标引时，根据每个标引词在文献中的重要程度不同，为它们附上不同的权值，检索时通过对检索词的标引权值相加来筛选命中记录。四、论述题1.扩展的检索技术很多，请从提高可。

8、是查准率和查全率两个角度探讨一下扩展的检索技术。循此思路。你还有什么新的解决方法？2.如何理解布尔逻辑表达式的逆波兰转换？3.请用实例说明信息推送的实际应用*******************************四******************************************一、填空题1.全文检索主要研究对整个文档信息的_表示_、_存储_、_组织_、_访问_。2.全文检索的中心环节是_文件内容表达_、_信息查询的获得_、_相关信息的匹配_。3.按检索对象来区分，全文检索可分为_基于文本_和_基于Web_两种类型；根据索引库中索引元素的不同，全文检索可分为_基于字表_的全文检索和_基于词表_的全文检索。4.基于理解的分词系统通常包括_分词子系统_、_句法语义子系统_、_总控部分_等三个部分5.自动标引又分为_自动主题标引_、_自动分类标引_。6.自动标引的方法主要有_统计标引法_、概率标引法_、_句法分析法_、_语义分析法、_人工智能法_。47.一个自动标引系统通常包括文本输入_、_词典_、_抽词_、_知识库_、_综合与转换_、_输出_等六个子系统。8.文本有。

9、_词频_、_标题_、_位置、_句法结构_、_线索词_、_指示性短语等新课程形式特征，这些特征是自动摘录的依据。9.汉字全文检索系统主要包括两方面的核心技术，一是如何建立和维护全文检索的_索引数据库_，二是如何提供快速有效的_检索机制_。10.索引数据库一般由一个变长的_主文件_和一个在索引文件控制下的_倒排文件_组成。11.全文检索索引数据库的生成包括_数据准备_、_文本预处理_、_数据加载三个步骤。二、名词解释1.全文检索自动标引主题词标引自动文摘三、简答题1.简述全文检索的优缺点2.简述基于字符串匹配分词方法的一般模型3.简述单汉字标引法及其优缺点4.简述主题词标引的基本思路5.简述主题词标引的实现6.简述自动标引的基本流程7.简述词索引的全文检索系统的索引算法8.简述全文检索系统的系统结构9.简述自动标引的基本方法10.简述汉语自动标引的方法11.简述自动标引的系统构成四、论述题1.针对全文检索存在的问题，你准备采取什么方式进行解决？2.根据简单匹配全文检索算法，画出其流程图3.请简要论述一下全文检索算法的发展轨迹4.请谈一下你对几种分词方法的看法。***************。

10、****************五********************************************一、填空题1.搜索引擎的工作过程可以看作三步，_从互联网上抓取网页_、_建立索引数据库、_在索引数据库中搜索排序_2.目前，Internet上的搜索引擎大致可分为_目录式_、_机器人_、_元_3.搜索引擎一般由_搜索器_、_索引器_、_检索器_、_用户接口_四个部分组成4.搜索引擎中主要有_页面数据_、_索引数据_、_URL数据_等三类典型的数据5.Robot的主要瓶颈是_域名服务器（DNS）的查找6.Robot技术中最关键的一部分是_站点爬行7.在站点爬行过程中必须要解决_消除重复_、_辨别类型_、_限制范围_、_限制深度_8.Robot使用_深度优先_、_广度优先_两种基本的搜索策略9.对于网页内容的提取，网络蜘蛛系统一般采用_插件_的形式10.文本预处理中，词法分析的过程是将_字符串_转换成_词条_的过程11.在信息获取系统中，词典是用来根据词汇找到对应词汇信息的_数据汇编12.倒排文件机制是一种面向_单词_的机制13.倒排文件结构由_词汇_和_词汇出现情况_两。