您好,欢迎访问三七文档
1/46青岛大学公共计算机基础教学中心第7章信息检索7.1.1信息检索的概念信息检索(InformationRetrieval)是指信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。信息检索的全称是信息存储与检索(InformationStorageRetrieval),其过程如图7.1所示。20世纪50年代以前,信息的存储和传播主要是以纸介质为载体,信息检索活动主要围绕着相关文献的获取和利用展开,因此“文献检索”成为信息检索的同义词而被广泛地使用。20世纪50年代以后,信息传播与存储呈多元化发展,人们不再拘泥于载体研究信息检索,开始更多地使用“情报检索”这一术语。近年来,由于英文词汇“Information”既可以翻译为信息,又可以翻译为情报,而汉语中信息一词要比情报的含义更为丰富,因此人们更倾向于使用信息检索这一术语。7.1信息检索概述2/46青岛大学公共计算机基础教学中心第7章信息检索7.1.1信息检索的概念7.1信息检索概述3/46青岛大学公共计算机基础教学中心第7章信息检索7.1.1信息检索的概念信息检索包括两个层次的含义:广义的信息检索和狭义的信息检索。广义的信息检索包括信息的存储和查找两个过程,如图7.1所示的全部过程就是广义的信息检索。信息的存储就是将大量无序的文献信息进行搜集、整理、归类,采用规范的方法进行编排,编制出各种检索系统。信息查找必须先有信息存储,而信息存储就是为了更快捷地查找信息。信息查找则是信息存储的逆向过程,是人们根据特定需要,运用已有的检索系统,有序查询并找出符合要求的信息。狭义的信息检索是指信息的查找过程,只包括图7.1中的后半部分,本书中讨论的信息检索就是狭义的信息检索。7.1信息检索概述4/46青岛大学公共计算机基础教学中心第7章信息检索7.1.2信息检索的类型1.根据检索对象划分根据检索对象的不同,信息检索分为文献检索、事实检索和数据检索三种。(1)文献检索。文献检索以文献为检索对象,查找含有用户所需信息的文献。文献检索是一种相关性检索而非确定性检索,系统不直接回答用户所提出的问题本身,它提供的是与用户信息需求相关文献的线索或原文。(2)事实检索。事实检索以特定的事实为检索对象,是存储有关课题(如机构、人物等)的指示性描述,或关于某一事件发生的时间、地点、经过等信息,并将其查找出来的检索,属于确定性检索。(3)数据检索。数据检索以数据为检索对象,属于确定性检索,它是将经过选择、整理、鉴定的数据存入数据库中,根据需要查出可回答某一问题的数据的检索。例如,查找公式、数据、图表、成分、性能等都属于数据检索的范畴。7.1信息检索概述5/46青岛大学公共计算机基础教学中心第7章信息检索7.1.2信息检索的类型2.按检索方式划分按检索方式的不同,信息检索可以分为手工检索、机械检索和计算机检索三种方式。(1)手工检索。手工检索就是以人工的方式直接查找所需的信息,多利用各种检索工具的印刷版来实现,例如印刷的目录、题录、文摘、索引等。手工检索直观,不需要辅助设备,但速度慢、漏检严重。(2)机械检索。机械检索也称机电式检索,是指运用打孔机、分类机及光电感应设备等进行的检索。机械检索过分依赖设备,成本较高,检索效果和质量都不太理想。(3)计算机检索。计算机信息检索是将大量的文献资料或数据进行加工整理,按一定格式存储在数据库中,利用计算机对数据库进行检索的信息检索方式。与手工检索相比,计算机检索速度快、效率高、查全率高、不受时空限制、检索结果输出方式多样。除上述两种主要的分类方式外,信息检索还有另外多种分类方式。例如按照检索对象的信息组织方式可以分为全文检索、超文本检索和超媒体检索;按照检索对象的形式可分为文本检索和多媒体检索;按照检索要求可分为强相关检索和弱相关检索;按检索的时间跨度可分为定题检索和回溯检索。7.1信息检索概述6/46青岛大学公共计算机基础教学中心第7章信息检索7.1.3信息检索模型1.布尔检索模型布尔检索模型是基于集合论和布尔代数的一种简单检索模型。由于集合是一个相当直观的概念,所以布尔检索模型为信息检索系统的普通用户提供了一种易于掌握的框架。在布尔检索模型中,查询被描述为具有精确语义的布尔表达式。因为该模型的简单性和易于表示的形式方法,在很长一段时间内都受到重视。然而,布尔检索模型的缺点也是相当明显的。首先,该模型的检索策略是基于二值决策准则,即一个文档只被判别为相关的或无关的,而没有任何等级变化,难以提高检索性能,因此布尔检索模型主要用于实现数据检索模型,而不是信息检索模型;其次,这种方法将构造一个合适的查询的责任推到用户身上,用户必须详细规划自己的查询,其复杂程度不亚于编写程序,普通用户无法用布尔表达式描述他们的查询请求。于是一些研究人员改进了布尔模型,提出了向量空间模型。7.1信息检索概述7/46青岛大学公共计算机基础教学中心第7章信息检索7.1.3信息检索模型2.向量空间模型向量空间模型是一种基于代数理论的检索模型。在向量空间模型中,一个文档被描述成由一系列关键词组成的向量,每一个关键词都是这个向量空间中的一维。同样道理,来自用户的查询也可以用向量来表示。当进行一个查询时,向量空间模型将计算查询和文档表示之间的相似度,例如可以用两个向量之间的欧氏距离或两个向量之间的余弦夹角表示二者之间的相似度,然后对检出的文档按照相似度进行降序排列,以实现文档与查询项的部分匹配,于是查询结果集中文档的排列顺序要合理的多。与布尔检索模型相比,向量空间模型改善了检索性能,其部分匹配的策略允许所检索的文档与查询条件相近似,同时还能够按照文档与查询的相似度对文档进行排序。但在向量空间模型中,各索引项之间是互相独立的,无法对文档中的索引项提供相关性信息,而在实际中,需要考虑各索引项之间的相关性才能得到满意的查询结果。向量空间模型适合一般的文档集的相似性排序,通过查询扩展或相关反馈,可以改善模型产生的结果集。向量空间模型与其他检索模型相比较,即使不是最优的,其性能也相当好的,因此该模型是目前普遍采用的信息检索模型。7.1信息检索概述8/46青岛大学公共计算机基础教学中心第7章信息检索7.1.3信息检索模型3.概率检索模型概率检索模型是一种基于概率论的检索模型,试图在一个概率框架内处理信息检索问题。概率检索模型假设给定一个用户的查询,则有一个只包含相关文档且不包含无关文档的理想结果集,如果能够给出这个理想结果集的描述,检索文档时就十分方便了。最初我们并不能精确给出理想结果集,但猜测允许我们产生一个初步的对理想结果集的概率描述,用于检索出初始的文档集,然后引入用户的交互,以改善理想结果集的概率描述。用户浏览检索出文档,并决定哪些文档是相关的,哪些是无关的。然后信息检索系统利用这个信息,修改理想结果集的描述。通过多次重复这个过程,不断修改描述并逐步接近理想结果集的真实描述。从理论上讲,概率检索模型检出的文档将按照相关的概率降序排列,这符合我们的查询要求。但在该模型中,需要最初将文档分为相关的和无关的两个集合,并且与向量空间模型一样,各索引项之间是独立的,无法对文档中的索引项提供相关性信息。7.1信息检索概述9/46青岛大学公共计算机基础教学中心第7章信息检索7.1.4信息检索效果的评价检索效果(RetrievalEffectiveness)是指用户利用检索系统实施检索的有效程度,也是某次检索满足用户信息需求的程度,它直接反映了检索系统的性能和本次检索的成败。判定信息检索效果的主要标准包括查全率、查准率、漏查率、误查率等。1.查全率查全率(RecallRatio)又称检全率,是指用户进行某次检索时,系统检索出的所有信息量与检索系统中相关信息总量的比率,具体可用下面的公式表示:7.1信息检索概述%100量检索系统中相关信息总检索出的信息总量查全率10/46青岛大学公共计算机基础教学中心第7章信息检索7.1.4信息检索效果的评价2.查准率查准率(PrecisionRatio)又称检准率,是指用户进行某次检索时,系统检索出的符合课题需要的相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:3.漏查率漏查率(OmissionRatio)又称漏检率,是指用户进行某次检索时,系统未检索出的相关信息量与检索系统中相关信息总量的比率,具体可用下面的公式表示:7.1信息检索概述%100检索出的信息总量检索出的相关信息量查准率%100检索出的信息总量检索出的相关信息量查准率%100量检索系统中相关信息总未检索出的相关信息量漏查率11/46青岛大学公共计算机基础教学中心第7章信息检索7.1.4信息检索效果的评价4.误查率误查率(MissRatio)又称误检率,是指用户进行某次检索时,系统检索出的不相关信息量与检索出的信息总量的比率,具体可用下面的公式表示:7.1信息检索概述%100检索出的信息总量检索出的相关信息量查准率%100检索出的信息总量检索出的不相关信息量误查率12/46青岛大学公共计算机基础教学中心第7章信息检索7.2.1Internet网络信息检索方法1.网络浏览网络浏览是Internet上发现和检索信息的最原始方法。在日常的网络阅读中,人们都有过意外发现有用信息的体验,尤其是网页中提供的超链接,使用户可以在Internet中“顺链而行”,从一个网页转到另一个网页。追踪某个网页的相关链接有些类似于传统文献检索中的“追溯检索”,即根据文献后所附的参考文献追溯相关文献,一轮一轮地不断扩大范围。这种方式可以在很短时间内获得大量相关信息,但也可能会偏离检索目标,因此搜索的结果可能带有某种偶然性和片面性。严格地说,网络浏览并不是一种真正的网络信息检索方法。当我们在网络浏览中发现有价值的信息后,应及时收藏这些信息页面,为今后的使用提供方便。7.2Internet网络信息检索13/46青岛大学公共计算机基础教学中心第7章信息检索7.2.1Internet网络信息检索方法1.网络浏览网络浏览是Internet上发现和检索信息的最原始方法。在日常的网络阅读中,人们都有过意外发现有用信息的体验,尤其是网页中提供的超链接,使用户可以在Internet中“顺链而行”,从一个网页转到另一个网页。追踪某个网页的相关链接有些类似于传统文献检索中的“追溯检索”,即根据文献后所附的参考文献追溯相关文献,一轮一轮地不断扩大范围。这种方式可以在很短时间内获得大量相关信息,但也可能会偏离检索目标,因此搜索的结果可能带有某种偶然性和片面性。严格地说,网络浏览并不是一种真正的网络信息检索方法。当我们在网络浏览中发现有价值的信息后,应及时收藏这些信息页面,为今后的使用提供方便。7.2Internet网络信息检索14/46青岛大学公共计算机基础教学中心第7章信息检索7.2.1Internet网络信息检索方法2.使用搜索引擎检索信息搜索引擎作为主要的Internet网络信息检索工具,能够向用户提供关键词、词组或自然语言检索,在网络信息检索中具有重要的地位。在进行信息检索时,由户提出检索要求,搜索引擎代替用户在数据库中进行查找,并将检索结果反馈给用户。一般情况下,搜索引擎具有布尔检索、词组检索、截词检索、字段检索等多种功能。利用搜索引擎实施检索省时省力、简单方便、检索速度快、能及时获取新增网络信息。但由于搜索引擎使用计算机程序自动进行信息的加工、处理,检索软件的智能性不是很高,会造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望存在一定的差距。7.2Internet网络信息检索15/46青岛大学公共计算机基础教学中心第7章信息检索7.2.1Internet网络信息检索方法3.使用网络资源指南检索信息开发网络资源指南的目的是可实现对网络信息资源的智能性查找。为了对Internet上的信息资源加以组织和管理,使大量有价值的信息纳入一个有序的组织体系,便于用户全面掌握网络资源的分布,专业人员基于对网络信息资源的
本文标题:计算机基础信息检索
链接地址:https://www.777doc.com/doc-2042511 .html