您好,欢迎访问三七文档
第三章信息检索原理及检索步骤本章要点:文献信息检索基本概念文献信息一般检索步骤检索概念的分析、提取和扩展检索策略的构成1.信息检索基本概念信息检索的定义文献信息的内外部特征文献信息检索的一般原理文献信息检索的类型检索效果评价1.1信息检索定义狭义:从任何信息集合中查找所需信息的活动、过程和方法。广义:信息的检索包括信息存储。合并称为信息存储与检索.信息检索(informationretrieval)信息检索广义上是指将杂乱无序的信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关信息的过程和技术,全称是”信息存储与检索”(InformationStorageandRetrieval).狭义的信息检索指的是后一过程.1.2检索语言(RetrievalLanguage)是用来描述信息源特征和进行检索的人工语言。作用:它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成信息标识;在检索过程中,用它来描述检索提问,从而形成检索标识;当检索标识与信息标识完全匹配或部分匹配时,结果即为命中文献。检索语言的类型:按照表达文献的特征划分题名责任者代码,如ISBN、ISSN等引文出版项出版年分类语言:分类法主题语言:关键词、叙词等。表述文献外表特征的语言(与文献一一对应关系)表述文献内容特征的语言(与文献模糊对应关系)检索语言的类型文献信息的内外部特征内容特征表达文献信息主题内容的检索标识内容特征文献模糊对应外表特征与文献主题内容没有关系或关系不大的信息外表特征文献一一对应1.3文献信息检索一般原理存储选择和收集文献提取文献信息的内外部特征标引,整理,形成检索系统(工具)检索分析信息需求确定检索课题构建检索提问式从检索系统中查获所需信息文献源文献选择收集文献特征标识语言检索系统数据库检索提问式匹配检索结果用户信息需求检索课题分析标引反馈1.4文献信息检索的类型:按检索内容文献检索(相关性检索)检索结果为文献原文或线索全文检索书目检索数据检索(确定性检索)检索结果为数值、数据事实检索(确定性检索)检索结果为事实、概念,是以文献线索为检索内容的文献检索。即检索系统中存贮的是书目、索引、文摘等二次文献,检索结果获得的是与检索课题有关的一系列文献线索。书目检索(directory),是以文献所含的全部信息作为检索内容的文献检索。即检索系统存贮的是整篇文章或整部图书的全部内容。全文检索(fullarticle),又称数值检索,是以具有数量性质,并以数值形式表示的数据为检索内容的信息检索。即检索系统中存储的是大量的数据,包括物质的参数、电话号码、观测数据、统计数据等,也包括图表、化学分子式、物质的各种特性等非数字数据。数据检索(data),是以具体事项为检索内容的信息检索,要求从检索系统存储的各种原始信息资源中查出专门的事实材料。如,某一人物的查找,某一事件的查找等事实检索(fact)1.4文献信息检索的类型:按检索手段手工检索与检索工具直接“对话”,依靠检索者手翻、眼看、脑子判断而进行的检索。特点:方便灵活,判别直观,查准率高、检索效率低,漏检现象比较严重计算机检索利用计算机和一定通信设备查找文献信息的检索特点:速度快,效率高,查全率较高、成本高,回溯年份有限,查准率不尽如人意1.4按检索手段划分◙传统信息检索◙现代信息检索即手工信息检索,是利用各种印刷型检索工具来查找文献的一种方法。即计算机信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。项目手工检索计算机检索总体特征手翻、眼看、大脑判断检索策略、机器查询、数据匹配检索速度较慢很快检索功能简单多样、可链接全文、可打印结果、可进行定题服务等。检索方式单一灵活方便、可进行各种组合检索检索途径较少较多检索范围有限覆盖多学科和多种文献类型,范围较大检索限制受时空限制不受时空限制更新周期长短对用户要求专业知识、工具书使用法专业知识、计算机检索知识检索效果查准率高查全率高,通过逻辑组配可提高查准率检索费用低高综合效率低高手工检索与计算机检索的比较1.5检索效果的评价检索效果(RetrievalEffectiveness)是指检索系统检索的有效程度,它反映了检索系统的能力。包括技术效果和经济效果。克兰弗登(Cranfield)评价系统性能的指标:♦收录范围♦查全率♦查准率♦响应时间♦用户负担♦输出形式查全率是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。可用下式表示:查准率它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。可用下式表示:查全率和查准率在一定程度上成反比关系。应根据具体课题的要求,合理调节查全率和查准率,保证检索效果。ACDB9090504020604070PR查全率(R)和查准率(P)关系曲线图理论上,C和D之间即检索的最佳效果2信息检索系统印刷型信息检索系统:目录、题录、文摘、索引计算机信息检索系统:文献信息数据的处理和维护子系统词表和标引子系统检索子系统3.文献信息的一般检索步骤分析研究课题,明确检索要求选择检索工具或检索系统确定检索途径实施检索,记录和阅读文献线索索取原始文献3.1研究课题的分析分清课题性质前沿探索性调查研究性面象应用性课题背景知识的获取利用网络搜索引擎查阅图书馆相关馆藏,专著、工具书询问专业人员概念(检索词)提取主要检索词、辅助检索词、禁用词例如:关于中国唐诗的韵律研究StudyonthemarketmanagementinChina3.1课题分析明确文献检索的目的;明确课题要解决的实质问题;明确有哪些主题概念;各主题概念之间的关系;明确课题涉及的学科范围;明确课题所需文献信息的语种、时间范围等具体要求。4检索工具(系统)选择原则根椐检索目的根据信息需求的内容、专业范围根据数据库记录的文献来源4.选择检索系统选择检索工具时要考虑:专业性,即选择与学科专业相关的工具,特别注意跨学科领域内容。权威性,尽量选择该学科的权威性检索工具。了解检索工具收录的范围,包括时间跨度、地理范围、文献语种、类型、揭示深度等。了解检索工具的检索方法和系统功能中文检索系统可考虑CNKI、万方、维普数据库,外文数据库可考虑使用ScienceDirect、Springer、JohnWiley、WOS等。5.确定检索途径开始查找信息的入口点题名途径著者途径序号途径主题(分类)途径选择合适的检索途径:题名途径(Title)责任者途径(Author)机构途径(Affiliation)序号途径(Code)分类途径(Classification)主题途径关键词途径其它途径文献检索及检索式的调整根据课题的已知条件和课题范围和检索效率要求,选择合适的检索途径。题名/关键词/摘要/主题/全文主题途径分类检索语言(分类法、分类表)分类表,依据学科之间的逻辑归属关系,采用树型层次结构,列举出人类全部知识类别,并对每一知识分别标以相对固定的类号代码形成的一种类表。通常是一种从总到分、从一般到具体,层层划分、逐级展开并具有某种符号代码体系的知识体系表。特点:常落后于当前研究现状,分类表相对呆板的学科关系使得确定前沿概念、跨学科概念或非常具体的概念分类困难。主题检索语言关键词自然语言性质的主题语言,自由词,指从标题、文摘或正文中抽出的能表达文献主题内容的实意词。自然性,随意性。主题词(叙词)以正式、规范的词或词组形式固定各种事物概念。从自然语言中优选出并经规范化处理的名词术语。分类法就是按照文献信息的内容,根据学科之间的逻辑归属关系,将各种概念按学科性质进行分类和系统排列的语言,反映事物的从属、派生关系,从总体到局部层层划分展开,构成一个完整的分类类目表。因此,分类法通常是指一种从总到分,从一般到具体、层层划分、逐级展开并配以某种符号代码体系的知识体系表,是一种等级体系。具体体现为用分类号和类名来表达信息的主题概念。5.1分类检索语言(1)分类语言检索的优点:可以检索到某学科或专业的所有文献,具有较高的查全率。分类语言检索的缺点:分类语言落后于现状,分类表学科关系呆板使得跨学科概念等都比较困难。需要注意的是:不同的分类法的设类原则和分类代码的形式是不同的。中国图书馆图书分类法美国国会图书馆分类法杜威十进位分类法IPC国际专利分类法5.1分类检索语言(2)《中图法》分5个基本部类,将知识门类分为“哲学”、“社会科学”、“自然科学”三大部类。马克思主义、列宁主义、毛泽东思想是指导我们思想的理论基础,作为一个基本部类,列于首位。此外,考虑到图书本身的特点,对于一些内容庞杂,类无专属,无法按某一学科内容性质分类的图书,概括为“综合性图书”,作为一个基本部类,置于最后。在此基础上扩展为22个大类。标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码制。中图分类法(1)在《中图法》以及任何类似的分类表中,被区分的类称为上位类,被区分的类称为上位类,区分出来的就是下位类,上下位类之间的关系反映了概念外延的包含与从属关系。处于同一上位类下的同一层次的下位类称为同位类。处于同位类关系的类目在概念上是排斥的。为了,反映学科之间的属分关系,分类表的类号每增加一位字母和数字就代表增加一级分类在理解类目代表的含义时,下位类所包含的类目含义应该和它的上位类号所包含的含义结合起来。中图分类法(2)D9法律90法的理论(法学)91法学各部门92中国法律920.0理论(类名含义:中国法律理论)921国家法、宪法923民法...涉及二个或二个以上概念的课题属于多概念课题,对多概念课题缺点分类关系时,应注意以下几点:.并列概念课题:对于涉及同一研究对象的几个方面或者涉及几个并列研究对象的课题,凡是有主次关系的,应取其重点或主要研究对象归类。设计统一研究对象几个方面的都需要检索时,应在所涉及的几个类目中同时查找。比如:“新闻宣传研究”,如果侧重于“新闻”就取“G212新闻财富和报道”,如果侧重宣传,则取“G223广播电视宣传和群众工作”。如果设计二个方面时,“新闻”和“宣传”都要查找。中图分类法(3)涉及二个或二个以上概念的课题属于多概念课题,对多概念课题缺点分类关系时,应注意以下几点:.应用性课题:研究一种理论、方法等在某方面应用或对某方面的影响的课题,应在所应用或受影响的类目查找。例如:“计算机在人口预测方面的应用”就归入“人口预测”.上位类分类法:这种归类法是一种特殊的分类方法。它是指欲查课题在分类表中无符合要求的专指类目时,可以归入它的紧邻上位类。中图分类法(4)主题语言:自然语言和人工语言自然语言:自然表达某一概念的语言,没有强制性的规定。如在文献检索中,关键词(Keywords)等用的就是自然语言。人工语言:指的是人为规定的概念表达语言,通俗地说,就是某个概念你必须用规定的语言来表达,如文献检索中的主题词、叙词等用的就是人工语言。如:自行车(脚踏车、单车),西红柿(番茄、洋柿子)、马铃薯(土豆)、玉米(包谷)主题语言:自然语言(关键词)(1)关键词(Keywords):是一种自然语言性质的主题语言。具体说,是指从文献的题目、正文或摘要中抽出的能表达文献主题内容的具有实质意义的语词。关键词基本上不对词语加以控制,具有自然性和随意性。由于关键词这个特点,使得单一的关键词检索容易造成漏查。主题语言:自然语言(关键词)(2)确定课题关键词的步骤:分析课题,提取概念:对课题仔细进行分析,分析出课题涉及的事物名称、研究的主要手段、方法、目的,最主要的事物名称应作为首先考虑的检索概念。整理概念,扩充同一词汇:将分析所得的概念整理归纳,对每一个概念用同义次、近义词、缩写词等予以扩展。运用分析所得词汇试查,确定课题适用的关键词。主题语言:人工语言(主题词、叙词)(1)主题词(叙词):指从自然语言中优选出来并经过规范化处理的名词术语。国内常用的有《汉语主题词表》及个数据库特定的主题词表。叙词语言和分类语言不同的是,主题词表中的所有正式主题词可以根据需要将它们组配起来,用一表达复杂的概念
本文标题:信息检索原理
链接地址:https://www.777doc.com/doc-3224596 .html