您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 第四章 信息检索原理与检索语言
第四章检索原理与检索语言一、计算机信息检索概述(分为存储和检索两个部分)计算机信息检索系统是信息检索所用的硬件资源(如计算机,网络)、系统软件(如windows系列软件)以及信息资源数据库的总和,它能存储大量的信息,并对信息条目分类、编目或编制索引;并进行检索。)计算机信息检索的主要环节包括:信息分析(确定输入系统的信息条目的格式和内容,为建立索引作准备)|信息存储(建立信息库,以备检索)信息检索(脱机检索和联机检索两种方式二、计算机检索系统的构成1计算机硬件:系统中采用的各种硬件设备的总称,包括具有一定性能的计算机主机、外围设备以及与数据处理或数据传输有关的其他设备。主机,是计算机检索系统的中枢。外围设备包括外部存储器,输入输出设备如键盘、光笔、鼠标、光学字符识别装置,显示终端、打印机等。2软件:系统中有关的程序和各种文件资料的总称,包括系统软件(如操作系统,输入输出控制程序)和应用软件。3数据库:“一组文件的集合”,三计算机信息检索中常用的服务方式计算机信息检索系统输出检索结果并向用户提供的过程叫信息提供。根据用户的要求,可有多种提供方式。1定题情报服务:即SDI服务(SelectiveDisseminationofInformation。常用的服务方式。过程一般是:用户需求――编写检索提问式――存贮在计算机中――每隔一段时间让计算机将其调出――对新记录进行检索――最后将命中的记录输出并提供给相应的用户――保证他们及时了解研究课题的最新情况。它是一种追踪学科发展动态的有效方式。其特点如下:1)服务针对性强,能根据检索课题提供专门服务;2)定期向用户分发结果,保证用户总能及时了解最新情况;3)保证数据库中的资料能全面、准确地满足用户要求。2回溯性情报服务:也称为RS(RetrospectiveSearching),通常是针对某一课题,对情报数据库进行若干年的回溯性检索。检索内容不一定要最新。适于课题调研、对某一问题作全面了解、编制专题资料等。3问答式检索服务:(QuestionandAnsweringService)是一种实时性检索服务。用户当场,随时提问,随时得到结果。四计算机信息检索语言:1什么是检索语言:检索语言是检索系统存贮与检索运用的共同语言。换言之,描述信息系统中信息的内容特征及外表特征和表达用户信息提问的一种共同语言。2功能:简单明了而又比较专指的描述文献的主题概念;容易将概念进行系统排列;检索时便于将标引用语和检索用语进行相符性比较等。是标引文献的依据,检索文献的条件,是沟通情报人员与用户思想的桥梁。3、检索语言的类型按文献内容特征1主题法语言标题词语言(较准确,具体到点)关键词语言单元词语言叙词语言2分类语言(较全面,具体到面)体系分类语言组配分类语言混合分类语言4分类语言(P21):将各种概念按学科性质进行分类和系统排列,并用分类号来表达各种概念的一种先组式语言。从学科门类的角度,强调面的作用,泛指度高,查全率高,满足族性检索。4.1《中图法》是为统一全国文献分类编目创造条件而编制和发展的。1957年文化部主持编制了《中小型法》,在此基础上一些图书馆陆续把它扩充为大型分类法。1975年正式出版了《中图法》第一版。特点:(1)《中图法》采用拉丁字母与阿拉伯数字相结合的混合制标记符号,以拉丁字母标记基本大类。(2)分为五大部类,22基本大类。属于五分法A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学、艺术K历史、地理社会科学N自然科学总论O数理科学和化学P天文学、地球科学Q生物科R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书自然科学综合类图书P20一般性的问题P21普通测量学地形测量学P1天文学P22大地测量学P229海洋测量学P2测绘学P23摄影测量与遥感P3地球物理学P25专业测绘与工程测量PP4气象学P27地籍学P5地质学P28地图制图学[P29]地图与地图集P7海洋学P9自然地理学TB一般工业技术TD矿业工程TE石油TF冶金工业TG金属学、金属工艺TH机械、仪表工艺TJ武器工业TK动力工程TL原子能技术TM电工技术TN无线电电子学电讯技术TP自动化技术计算技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程TP1自动化基础理论TP31程序设计TP2自动化技术及设备TP32一般计算机和计算器TP3计算机TP33电子数字计算机TP6射流技术TP34电子模拟计算机TP7遥感技术TP35混合电子计算机TP8运动技术TP36小型、微型、台式计算机TP38其他计算机TP39计算机应用TTM电工技术TM0一般性问题TM1电工基础理论TM2电工材料TM3电机TM4变压器、变流器及电抗器TM5电器TM6发电、发电厂TM7输配电工程、电力网及电力系统TM8高电压技术TM91独立电源技术TM92电气化、电能应用TM93电器测量技术及仪器TN无线电电子学电信技术TN0一般性问题TN1真空电工技术TN2光电技术、激光技术TN3半导体技术TN4微电子学、集成电路TN6电子元件、组件TN7基本电子电路TN8无线电、电信设备TN91通信TN92无线电通信TN93广播TN94电视TN95雷达TN96无线电导航TN97电子对抗TN98无线电、电信测量技术及仪器TN99无线电电子学应用TN40一般性问题TN42微模组件TN43半导体集成电路TN44集成电路TN45混合集成电路TN46中规模集成电路TN47大规模集成电路超大规模集成电路TN48真空集成电路TN491光学集成电路TN495功能块•《中图法》是典型的体系分类语言,是以学科为基础,运用逻辑划分的原理,以文献内容、所属学科、专业性质及特征对文献进行系统化组织。即从总到分,从一般到具体,从简单到复杂,从低级到高级,层层隶属,层层划分,形成一个严格有序的直线性知识门类的层累制体系。这种体系能体现学科的系统性,清楚的反映出事物的派生、隶属与平行关系,便于用户从学科专业的角度查找文献资料。•例如:要查找“轴承”方面的文献,首先必须确定它所属的大类类别为[T]工业技术,其次按照隶属关系可以依次推断为[TH]机械、仪表——[TH13]机械零件及传动装置——[TH133]转动机件——[TH133.3]轴承,最后确定“轴承”方面的文献在《中图法》中的分类号为TH133.3。4.2《中国科学院图书馆图书分类法》(1)发展历程:根据中科院图书馆综合性藏书范围,以及中国科学院所属各研究单位图书馆不同专业的特点而编制的一部体系分类法。于1954年开始编制,1958年完成,并于同年出版第一版。(2)《科图法》的体系结构:首先,分类表分成5大部,25大类。其次,层层划分,详细展开,形成等级分明的类目体系。最后,采用纯阿拉伯数字的标记符号。如:00马克思列宁主义、毛泽东思想10哲学20社会科学21历史、历史学27经济、经济学31政治、社会生活34法律、法学36军事、军事学37文化、科学、教育、体育41文学48艺术49无神论50自然科学51数学52力学53物理学53.6电学与电磁学53.61电子原理53.611电子说90综合性图书91书目、索引92百科全书、类书93词典94年鉴、年刊《科图法》与《中图法》都属于体系分类语言,在国内图书馆界均有着较大的影响力。各个图书馆都是根据自己的馆藏特点和服务范围采用不同的分类法进行图书的分类排架。图书采购进馆后,工作人员对每本图书均会赋予一个独特的排架号。所谓排架号就是指图书在架上的特定位置,也称索取号。不同类型图书馆的索取号有所不同。有些是采用分类号+顺序号,有些是采用分类号+著者号+区分号(区分号可以表示图书的卷册、出版时间或者种次号等)。。•索取号是图书馆图书排架和读者获取图书的依据。图书书脊所贴书标上的号码就是索取号的直接体现。一般在书标上分多行居中显示,第一行一般为分类号,第二行则为顺序号或著者号等,各个馆采用的方式不一样。图书在书库和阅览室的排列,就是按照索取号来排列的,即图书先按分类号顺序排架,同类图书再按著者号进一步区分,依数字或字母从小至大,从前到后排列。•例如:某图书馆对金惠娟编写的《微型计算机原理及应用系统设计》一书赋予的索取号为TP39/J5,“/”前的TP39为该书的中图法分类号,“/”后的J5为该书的著者号和区分号。因此,查到索取号,就可以很容易地在书库或阅览室找到对应的书刊。5主题法语言:直接选用代表事物、问题和现象的术语作为表达文献主题内容的检索标识。特点:从主题概念入手,强调点的作用,具体准确,专指度、查准率都比较高,满足特性检索5.1标题词(SubjectHeading)从科技工作者熟悉的大量科技名词中选出的具有实质意义,并能准确表达文献主题内容,经规范化处理的科技名词术语。(代表文献实质意义经规范化的词语)5.2关键词(keyword)出现在文献标题、文摘及正文中,对表达文献主题内容具有实质性意义的词语,即在揭示与描述文献主题内容中起关键性作用的科技名词术语。(直接使用的自然词语)。一般是现成的词汇5.3单元词(Uniterm)属于后组式语言。将多元概念分解为不能再分的单元概念。(代表文献实质意义、可以独立存在的最小概念单元)如“大学”和“研究”都是单元词,因为它们都不能再分。把“大学”分为“大”和“学”都不再是具有独立和明确的意义。但“大学教育”和“科学研究”却可以进一步分解。如分解为“大学”和“教育”,或“科学”和“研究”都具有独立的意义。5.4叙词(DescriptororThesaurus):以概念为基础,经规范化处理,具有组配性能并能显示词间语义关系的科技名词术语。(经规范化的可以独立表达主题概念的词语)特点(1)它不仅适用于手工检索,更适用于计算机检索。(2)不仅在于拆词,更在于拆义。叙词语言综合了各种语言的优点,因此在表达文献主题内容上更为准确、全面,是目前计算机检索中用的最普遍的一种语言,科学实用。如何正确使用主题词与关键词如:遥感和地理信息系统用于监测热带雨林关键词:热带雨林遥感监测GIS主题词:环境遥感环境监测森林遥感GIS-应用遥感-应用如何选择关键词例如:城市生活污染研究•关键词:•城市(都市、城区)•生活污染(生活污水、生活垃圾、电磁辐射污染等)有关室内装修污染方面的研究•关键词:室内、装修、污染•同义词或近义词:室内(住宅、居室、房屋)污染(放射性、化学、氡气、甲醛、苯等)主题词的语义参照关系•See与seealso见与参见•Use用(Y)•UF(usefor)代(D)•BT(broadterm)属(S)•NT(nerrowterm)分(F)•TT(topterm)族(Z)•RT(relateterm)参(C)等同关系等级关系相关关系语义关系参照系统叙词标题词中文英文中文英文简称拼音缩写简称原称见See等同关系用代YDUseUFUseUsefor等级关系属分SFBTNTBroadtermNarrowterm相关关系参CRTRelatedterm参见SeeAlso标题词、叙词语义参照关系对照表WaterpollutiondetectionandcontrolBTpollutiondetectionandcontrolTTpollutiondetectionandcontrolRThydrologicaltechniquesoceanographicequipmentoceanographictechniqueswaterpollutionwatertreatment例如:IntegratedCircuits(主题词)UFIC(关键词)Microcircuits(关键词)Microelectronics(关键词)NTDigitalIntegratedCircuits(下位主题词)LinearIntegratedCircuits(下位主题词)BTNetworks(Circuits)(上位主题词)TTNetworks(Circuits)(族首词)RTIntegrate
本文标题:第四章 信息检索原理与检索语言
链接地址:https://www.777doc.com/doc-3166693 .html