您好,欢迎访问三七文档
第3章文献信息检索基础一、检索原理与语言第3章文献信息检索基础信息检索:将信息按照一定的规律排列、储存起来,并根据信息用户的需求查找出其所需信息的过程。所以广义的信息检索是指信息存储与检索。一、检索原理与检索语言检索语言描述文献外表特征篇名(书名、刊名等)著者(个人、团体著者)号码(标准号、专利号文献索取号)文献类型(论文、书评)描述文献内容特征分类语言主题语言标题词单元词叙词关键词检索语言类型①分类语言(classificationretrievallanguage)是以知识的学科体系为基础,以符号(数字、字母)为概念标识进行文献内容特征揭示的一种检索语言。它以学科类目名称作为基本词汇,通过类目的从属关系来表达复杂的概念。检索原理与检索语言分类法:以知识属性来描述和表达文献内容特征的方法称为分类法。一、中国图书馆分类法二、中国人民大学图书馆分类法三、中国科学院图书馆图书分类法四、杜威十进分类法五、国际十进分类法六、美国国会图书馆图书分类法检索原理与检索语言中国图书馆分类法•中图法是由政府部门编制的一部综合性图书分类法,于1974年出版,经过多次修订,目前使用的是第四版,“中图法”是国家推荐统一使用的分类法,被许多检索工具采用或改编。•中图法分为5大部(马列主义毛泽东思想、哲学、社会科学、自然科学、综合性学科)•22个大类,除工业技术类外,其余各大类均用一个大写字母表示一级类目名,再根据学科的内容在大类下以数字表示各级类目。检索原理与检索语言《中图法》分类表A马克思主义、列宁主义、毛泽东思想、N自然科学总论邓小平理论O数理科学和化学B哲学、宗教P天文学、地球科学C社会科学总论Q生物科学D政治、法律R医药、卫生E军事S农业科学F经济T工业技术G文化科学、教育、体育U交通运输H语言、文字V航空、航天I文学X环境科学、安全科学J艺术Z综合性图书K历史、地理检索原理与检索语言F经济F0政治经济学F1世界各国经济概况、经济史、经济地理F2经济计划与管理F3农业经济……………..F7贸易经济F8财政、金融F20国民经济管理F21经济计划F22经济计算、经济数学方法F23会计F24劳动经济F25物资经济……………..F239审计经济类的类目设置检索原理与检索语言②主题语言:主题语言是一种描述性语言,它用语词直接表达信息的主题,这些语词就是表达主题概念的标识,将这些作标识的语词按字顺排列并使用参照系统来间接表达各种概念之间的关系。【什么是主题】主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。【什么是主题词】表达主题概念的词汇就是主题词。狭义的主题词仅指叙词;广义主题词可以分为规范词汇和自由词汇,包括关键词、主题词、标题词、叙词。检索原理与检索语言主题语言又分为标题词语言、单元词语言、叙词语言和关键词语言,前两种语言目前使用较少。1)叙词语言:叙词是为了适应计算机检索的需要产生的。它对自然语言中的“多词一义”的词汇进行规范,保证一个叙词只对应一个概念。它是从文献题目、正文或摘要中抽取出来的,经过规范化的基本概念单元词。叙词语言使用的是从自然语言中优选出来并经过规范化出来的名词术语,通过单元词之间的概念组配来对文献的内容进行描述和标识。检索原理与检索语言2)关键词语言:关键词是指直接从文献的标题、正文或摘要中直接提取未经规范化具有实质意义的词或词组,一般由著者给出。关键词语言就是将文献中的一些主要关键词抽出作为检索标识,并以字顺排列组成的查找文献用的语言。一般通用词(技术、理论、应用等)以及无实质意义的词(冠、接词、连词等)不作关键词使用。检索原理与检索语言二、计算机检索系统第3章文献信息检索基础第二节计算机检索系统计算机信息检索系统用计算机进行信息存贮和检索的系统。计算机信息检索系统用计算机进行信息存贮和检索的系统。计算机检索系统的构成计算机检索系统1)数据库的一般结构:数据库是在计算机存储设备上按一定方式存储的相互关联的数据集合。计算机检索系统字段记录文档数据库①字段是文献著录的基本单元,反映文献的外部特征和内容特征的每一个项目。计算机检索系统【中文题名】XML语言及其应用【英文题名】XMLLANGUAGEANDITSAPPLICATION【作者】黄婉秋;黄筱霞;贾旭光【作者单位】北京工商大学,计算机学院,北京,100037;北京工商大学,计算机学院,北京,100037;北方交通大学,计算机学院,北京,100044;【刊名】北京工商大学学报(自然科学版)【英文刊名】JOURNALOFBEIJINGTECHNOLOGYANDBUSINESSUNIVERSITY(NATURALSCIENCEEDITION)【年卷期】2002Vol.20No.3【关键词】XML;HTML;Web页面语言;置标语言【摘要】简要阐述了XML语言的概念及特点,对它的语言结构进行了详细的分析,包括DTD、XSL、XLL三部分.并将XML和HTML进行了比较,同时也对它和数据库之间的关系进行了描述.最后论述了XML的发展与前景.一个字段②记录是由若干不同字段组成的文献单元,在数据库中每一个记录都有一个记录号。计算机检索系统一条记录③文档由若干逻辑记录组成的信息集合。计算机检索系统文档2)计算机检索过程计算机检索系统3)计算机检索方式计算机检索系统基本检索高级检索专家检索二次检索模糊检索限定检索范围1)布尔逻辑检索(BoolLogicalOperators)用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。三、计算机检索技术计算机检索系统布尔逻辑检索11.逻辑“与”检索时,命中信息同时含有两个概念,专指性强。AANDBAandBA*B检索技术检索技术布尔逻辑检索12.逻辑“或”检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,可以扩大检索范围,适用于连接有同义关系或相关关系的词。AORBAorBA+B检索技术布尔逻辑检索13.逻辑“非”命中信息只包括逻辑A、不包括逻辑B或同时有A和B的,排除了不需要的检索词。ANOTBAnotBA-B检索技术布尔逻辑检索1运算次序一般为NOT最先执行,AND其次进行,OR最后执行。但是可以用括号改变他们之间的运算顺序。例人工智能及专家系统的研究情况人工智能or专家系统硫、磷对金属延性和金属冲击强度的影响(硫or磷)and(金属延性or金属冲击强度)检索技术截词检索2是指在检索标识中保留相同的部分,用截词符代替可变化的部分。截词检索有时也称为通配符(wildcard)检索。*代替任意一个或多个字符?代表一个字符截词的类型截词的位置截词的数量前截断、后截断、中间截断有限截断、无限截断检索技术截词检索2不限制被截断的字符数量无限截断例如输入educat*,可以检索出:educator、educators、educated、educating、education、educational等等。有限截断限制被截断的字符数量例如输入educat??可以检索educator,educated两个词。检索技术截词检索2前截断前截断是将截词符号置放在一个字符串左方,是后方一致检索。例如:在网站中使用*ology进行检索可检索出:geologysociologyPsychologyarchaeologybiology等又如:查找*magnetic可检索出electromagnetic、thermomagneticelectro-magnetic、thermo-magnetic检索技术后截断截词检索2后截断是将截词符放在一串字符的右面,是前方一致检索。例如:Comput*可检出词汇computecomputercomputingcomputabilitycomputablecomputationcomputational┇如:system??可检出词汇systemsystemssystemic检索技术中间截断截词检索2中间截断又称为中间屏蔽,是一种用截词符屏蔽词中不同字符的方法。例wom?nwomanwomendefen?edefencedefense–有些检索系统不支持使用截词符的截词检索技术,系统默认的是词根检索,即输入一个词,系统会自动检索出同一词根的一组词,例如输入gene,可以检索出gene,genic,genome等。这是一种智能检索方式,但要求系统内必须预先配置词根表。–IEE/IEEE全文数据库默认词根检索–有些数据库需要加入词根运算符如“$”才进行词根检索实例:检索与中国教育相关论文(英文数据库)Chinese(China)education(educational、educating)检索技术字段限定检索3字段限制检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。检索技术短语检索(phrasesearch),也称为词组检索,或字符串检索。它是将一个词组或短语用双引号“”括起作为一个独立运算单元,进行严格匹配,以提高检索准确度的一种方法。“GeorgeW.Washington”短语检索4例“图书馆”“图书馆学报”四、检索的基本步骤第3章文献信息检索基础1、分析检索需要2、选择检索系统和数据库3、检索途径的选择4、确定检索词5、编制检索表达式检索的基本步骤6、检索结果分析目前普遍采用查全率和查准率来衡量(评价)检索结果对用户文献需求的满足程度。查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。检索的基本步骤数据库检索注意问题•明确检索主题或主要内容–既能代表信息需求又具有检索意义的主题概念如:检索课题“文昌鱼的遗传多样性”显性主题概念:文昌鱼遗传多样性隐含的主题概念:文昌鱼—头索动物遗传—基因同义词、近义词:基因--DNA数据库检索注意问题•明确检索主题或主要内容–既能代表信息需求又具有检索意义的主题概念•明确检索主题所涉及的学科范围•明确所需信息的数量、语种、年代范围、文献类型等具体指标。•选择适当的数据库–学科属性;数据库收录的范围;数据库的检索方法和系统功能百度和google语法的应用1.找特定文件名的文件,尤其是PDF、PPT、DOC、TXT、RAR、EXE、RM、Mp3、MOV、swf、ZIP这些文件名都是大家想找的重点。方法一:基本搜索语法——如地理科学filetype:PPT方法二:高级搜索功能2.intitle:表示后接的词限制在网页标题内。如:intitle:教育学filetype:PPT3.查找友情链接:link:江西师范大学用于搜索链接到某个URL地址的网页。可以了解有哪些网页把链接指向您的网页。4.查找特定站点内容语法:site:tsinghua.edu.cn(1)如古龙site:sina.com.cn(不可加入http://或/这类。)(2)可与filetype语法同时使用:金庸filetype:docsite:sina.com.cn如查找美国教育网上的宇宙大爆炸jpg图片搜索:BIGBANGfiletype:jpgsite:eduSite可将搜索定位于某一个域名上,有利于缩小搜索范围,提高搜索效率。如keywordssite:edu.cn,效果很好!可以方便地搜索到各大学内有用的资源。如:房屋建筑学filetype:pptsite:edu.cn土木工程filetype:docsite:tongji.edu.cn研究生复试site:jxnu.edu.cn5.特殊语法:INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。Inurl:关键词1+空格+关键词2示例1:查找MIDI曲“沧海一声笑”。搜索:“inurl:midi沧海一声笑”
本文标题:文献检索基础.
链接地址:https://www.777doc.com/doc-2338216 .html