您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 机械/模具设计 > 2010秋研究生中文数据库信息检索讲座
中文数据库信息检索主讲:许忠锡xuzhongxi28@vip.sina.com信息检索系统基础知识信息检索系统的核心和概括,主要由文献信息资源库和资源索引构成。文献信息资源库:即文献信息资源描述体序列,由文献信息资源描述体按照一定的描述规则描述信息资源以及一定的顺序对信息资源排列组成文献信息资源集合。文献信息资源索引:即文献信息资源标识序列,由文献信息资源的标引标识按一定顺序排列而组成的集合。检索的实现就依赖于此。构成信息检索系统的条件为能实施信息检索,信息检索系统必须具备如下条件:(1)详细描述与著录文献信息资源的外部与内容特征;(2)具有既定的检索标识,可以是检索点中任何内容,作为检索标识;(3)依据已经描述出的信息资源的标识,对信息资源进行科学合理的排列,形成文献信息资源库;(4)依据信息资源的描述结果与检索点,提供各种检索途径。检索语言的种类检索语言主要有外表特征语言、内容特征语言两大种类。1.外表特征检索语言从信息表现出的外在特点对信息资源进行描述,从外表途径对信息资源进行组织。用户从所能感知到的信息资源外在特征,进行信息的检索。2.内容特征检索语言主要从信息的内容着手,对信息资源、文献信息内在的内容特征进行描述,对信息资源、文献信息从内容角度上进行组织。用户从所需信息的内容入手,用内容特征检索语言表达信息内容特征概念,形成内容特征的检索策略,并实施从信息内容特征为途径的信息检索。1.分类语言其中最为常见的是等级体系型分类语言。就其对信息组织的功能而言,体系分类语言被应用对信息所含学科内容特征的组织。体系分类语言在计算机检索系统里,形成数据库中的分类检索途径的倒排文档。2.主题语言其中常用的有标题词语言、叙词语言、关键词语言。主题语言可以用来进行信息主题内容的组织,形成信息主题索引等。在计算机检索系统里,形成数据库中主题检索途径的倒排文档。主题语言的种类1.标题词:所谓标题词,是指经过词汇控制、经过规范化处理的名词术语等自然语言,用来标引与检索文献信息的词或词组。标题词语言是一种先组配式语言。2.叙词:叙词是指经过规范化处理的,以基本概念为基础的自然语言,用来标引与检索文献信息的词或部分词组。叙词语言是一种后组式语言。3.关键词:关键词,是指那些出现在文献信息的标题、摘要、正文中,对描述文献信息主题内容具有实质意义的词语,亦即对提示和描述信息主题内容是重要的、带关键性的词语。关键词基本上不作规范化处理,或者仅是极少量的规范化处理。信息检索过程1.确定信息检索的途径检索途径是用户与检索系统建立联系的中介,检索途径也称为检索点、检索入口。检索途径一般分为反映信息内容特征的途径与反映信息资源外表特征的途径。内容特征检索途径分类途径信息组织原理中,给信息资源标引上分类标识,产生信息资源的特征点。利用这样的特征点进行信息检索,就是分类途径检索。利用分类途径检索时,能够检索到的信息都是属于这个学科,所以是学科族性检索。主题途径信息组织原理中,给信息资源标引上主题标识,产生信息资源的特征点与检索入口点。利用这样的特征点与入口点进行信息检索,就是主题途径检索。在利用主题途径检索时,能够检索到的信息都是属于这个主题内容的,所以主题途径检索是特性性检索。外表特征检索途径1.著者途径2.题名途径3.序号途径4.引文途径5.其他途径各类检索途径的组合选择但在实施信息检索时,特别是在计算机检索系统中,往往将两种检索途径结合使用,其检索效果表现更加良好。1.内容特征结合外表特征的扩大检索2.外表特征结合内容特征的扩大检索2.确定检索的限制条件目的是优化检索结果。检索条件一般有:(1)受检信息的时间限制。(2)检索词匹配方式限制。一般在中文计算机检索系统中常有对检索提问标识词匹配上的限制条件,即所谓检索词的精确匹配与模糊匹配。外文检索系统中还有“”、{}、(W)、(N)、?等检索词匹配算符的应用,其主要目的也都是为了扩大、缩小检索范围,提高检索的效率。(3)受检信息查询范围限制。(4)受检信息语种与地区限制。(5)输出信息排序限制。3.制定检索策略所谓检索策略就是检索前制定的检索概念组配和执行顺序的方案,检索策略更是表达用户具体的检索思想与检索要求。4.实施具体的检索完成以上各步之后,就可以使用检索系统或工具进行具体的检索。5.读取与研判信息记录(全文)在读取信息记录或信息全文时,检索用户要认真审视信息记录或全文中的信息内容,判断是否与信息需求相吻合,研判与需求的相关性,为进一步检索作铺垫。6.检索策略的调整检索策略的调整,可以使检索的深度、检索范围、检索到的信息数量得到变化,以达到检索出的信息尽可能与需求吻合,直至得到比较满意的结果。检索策略的调整,主要通过对选用的学科分类级别与范围的调整、主题词的更改以及主题词的概念组配的调整、检索式的优化等实现。计算机信息检索策略狭义的计算机检索策略指进行计算机检索时构建的检索表达式。检索系统将检索表达式与系统中存储的文献信息特征标识及其逻辑组配关系进行类比、匹配然后输出检索结果。布尔检索就是采用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问转换成逻辑表达式。这些逻辑运算可以将同字段(同检索途径)、不同字段(不同检索途径)的检索内容予以逻辑匹配。布尔逻辑检索,就是模拟人的逻辑思想、逻辑要求。以餐饮为例的逻辑思想通常,人的思想很容易以语言来表达,但检索就不是这么回事以餐饮为例的逻辑思想:通常,人的思想很容易以语言来表达,但检索就不是这么回事。所以要用逻辑算符将检索词予以组合。布尔逻辑算符用来表示两个表达式之间的逻辑关系,包括逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)。(1)逻辑“与”—AND、*算符用于表达交叉概念、限定关系的复杂概念的事件、事物、名词。逻辑“与”的作用是缩小了检索范围。A*B=C=保险理赔*海上货运=海运货物保险理赔38条记录*计算机通过“与”运算将A、B两概念中共有的海运货物保险理赔复杂概念共38条记录输出ABC保险理赔(288条记录)海上货运(108条记录)海运货物保险理赔(38条记录)(2)逻辑“或”—OR、+算符用于表达并列概念的复杂概念的事件、事物、名词。逻辑“或”的作用是扩大了检索范围。A+B=运载工具+海上运输=40条记录*计算机通过“或”运算将运载工具文献和海上运输文献共计40条记录输出BA运载工具(28条记录)海上运输(20条记录)(3)逻辑“非”—NOT、--算符“非”运算符的作用是从某个检索范围中去除不需要的概念,作用是缩小检索结果的范围,达到专指度,增强检索的准确性。用于表达某种复杂概念中排除了不需要的概念后的事件、事物、名词。A-B=“A”=除VLCC船舶市场外其他船舶市场(80条记录)*计算机通过“非”运算将除VLCC船舶外的其他船舶市场80条记录输出ABA*B=CC船舶市场(98条记录)VLCC船舶(36条记录)“A”除VLCC船舶市场外其他船舶市场(80条记录)检索策略的调整检索策略输入检索系统后,系统响应的结果有时不一定满足要求,表现为输出文献信息太多、太少或为零,这就需要调整检索策略。输出过多的情况原因:•用了多个多义词•截词过短•输入的检索词太少•应该用“与”却用了“或”•优先运算符使用错误输出过少的情况原因:•遗漏重要的同义词或隐含概念•检索词过于冷僻具体•未能用好截词符•位置算符使用过多•使用过多的“与”检索策略调整方法:•减少同义词或同族相关词•减少截词用法或放长截词•用“与”换“或”•使用精确检索方式•使用“非”算符排除无关概念•减少“与”增加“或”•增加同义词或相关词•放粗截词符的用法•减少位置算符•使用“模糊检索”“过多”原因的调整“过少”原因的调整检索途径(字段)限制检索字段限制检索是限定检索词在检索系统提供的可供使用的特定的检索途径下进行检索。对检索字段的选择已经成为数据库信息检索的必要步骤之一。检索系统提供的检索字段基本上包括文献题名、著者、文献来源、主题词、关键词、文摘、出版年等。每个字段都有相应的字段代码来表示,通常是两个大写字母。例如“TI”表示“文献题名”。为了方便用户使用检索系统,检索系统提供让读者选择检索字段,而不用手工输入。而为了满足专家级的用户的使用需求,更加灵活快速的找到需求的信息,检索系统提供了使用字段代码来构建检索表达式的方法。例如检索表达式“TI=(安全)ANDAB=(防火墙)”将返回文献题名中包含“安全”并且文摘中包含“防火墙”的文献。依据前述,这些字段用逻辑运算符给予组合,实现检索。如何进入数据库(校外)如何进入数据库(校外)如何进入数据库(校外)输入学号也可以:(清华同方)清华同方数据库检索CNKI数字图书馆具有夯实的文献资源基础。目前,共正式出版了25个中外文各类数据库。使CNKI数字图书馆所囊括的资源总量达到全国同类资源总量的90%以上。CNKI数据库主要使用的有:*中国学术期刊全文数据库*中国优秀博、硕士学位论文全文数据库*中国重要会议论文集全文数据库*中国重要报纸全文数据库清华同方数据库检索(跨库)跨库检索输入学科限定数据库子库清华同方数据库检索(单库)清华同方数据库检索(标准)清华同方数据库检索(高级)清华同方数据库检索(专业)清华同方数据库检索(引文)清华同方数据库检索(句子)清华同方数据库检索(注意)输出排序检索词的组配方式(模糊、精确)专业检索时的逻辑组配符号(同字段、不同字段)相关检索词的选用检索历史的调用检索词的词频选用注意相关功能的应用(期刊单库)清华同方数据库检索(注意)注意文摘阅读用引文关系,扩大检索(知网节)充分利用文摘处外文关键词、外文摘要利用文摘处的关键词扩大检索利用CAJ文献阅读器学会“专业检索”数据库其他功能的运用清华同方数据库检索(排序)选择不同排序方式输出信息,以便捷地检索到相关信息清华同方数据库检索(相关检索词的选用)清华同方数据库检索(相关检索词的选用)清华同方数据库检索(用引文关系,扩大检索)清华同方数据库检索(用引文关系,扩大检索)
本文标题:2010秋研究生中文数据库信息检索讲座
链接地址:https://www.777doc.com/doc-3919553 .html