您好,欢迎访问三七文档
生物学文献检索—文献信息检索技术常民changmin@lzu.edu.cn检索的概念信息检索是指将信息按一定方式组织和储存起来,并针对信息用户的特定需求查找出所需信息内容的过程。文献检索(Retrieval):就是通过一种科学的方法和途径,在一定的文献信息集合中迅速、全面、准确的获取自己所需要的那部分信息。数据库:由计算机进行处理的一定数量同类信息的有序集合,是用来存储和查找文献的信息的电子化检索工具。信息检索示意图:信息检索的实质是信息用户的需求和一定的信息集合的比较和选择的过程,即匹配的过程。也既是用户需求的主题概念和提问表达式同一定信息系统的系统语言相适应的过程,如果两者相适应取得一致,则所需信息被检中,否则,检索失败。文献检索重要的一种信息检索。信息检索的实质信息检索的类型文献检索(书目信息检索):即检索结果是关于某主题知识的文献线索,它是通过二次文献,包括传统的以纸张为存储介质的现代计算机检索系统,找出所需的一次文献或三次文献。数据检索:就是满足数据需求的检索过程,如数理化等科学数据,经济数据,历史数据,地理数据等。事实检索:就是对特定的事件或事实的检索。事实内容包括大量的科学事件和社会事件。例如:我国建成最早的高速公路是哪条?何时建设?概念检索:就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。最常见的概念检索是查找各种参考工具书,例如字词典、百科全书、名录、手册、指南等参考工具书。信息检索类型图:信息检索直接答案(数据、事实)间接答案(文献线索)参考性工具书检索性工具书文献检索数据检索事实检索概念检索信息检索的意义信息与现代科技的发展现代科技发展特点:高速化、综合化、专业化。信息检索意义信息量急剧增长。信息的使用寿命缩短。充分利用信息资源,避免重复劳动。为人们更新知识、实现终身学习提供门径。检索系统的著录检索系统是有序的信息集合。每个信息都需要经过加工,把信息的特征著录即描述下来,成为一个条目,亦称记录。将一个个记录按一定序列编排起来便组成一个可供检索的系统。*按著录方式划分如下:目录题录或索引文摘全文目录(Catalogue)含义:目录是对文献的外表特征的著录。它通常以完整出版物(如一本书或一种刊或一个会议录的名称)作为著录的基本单位来报道和记录文献。著录内容:文献名称、著者、出版项与馆藏信息等内容。按职能划分目录种类:出版发行目录馆藏目录:按检索标目划分为书名目录(TitleCatalogue)著者目录(AuthorCatalogue)分类目录(ClassifiedCatalogue)主题目录(SubjectCatalogue)联合目录资料来源目录,如IM、CA、BA目录(Catalogue)题录(Title)或索引(Index)概念:其一,是指检索工具,它揭示文献的外表特征和内容特征,即著录文献是以一个完整出版物的某一部分(如书的章节或刊中一篇论文题目)为著录单位。其二,是指检索途径(附录式索引),如,分类索引、主题索引、生物体索引、著者索引等。著录内容:论文题目、著者、文献出处(刊名、发表年月、卷、期、页码)及文种等。如,《中目》、《IM》、《CNKI》免费题录等。文摘(Abstract,Excerpta,Digest)含义:文摘是指对文献内容选择重要部分以简练的形式作为摘要,并按一定的原则和方法编排而成的一种检索工具。著录内容:同⑵+文摘。如,中国医学文摘,中国药学文摘,中国生物学文摘,CA,BA,CBM,CMCC,MEDLINE/PubMed等。根据摘要详简程度,文摘可分为:指示性文摘(简介,IndicativeAbstract)是以最简短的语言,概略指示原文的研究对象、内容范围、研究目的及方法,一般在50-150个字。报道性文摘(InformativeAbstract)内容详细,反映文献的中心内容、观点、数据及结论,一般在200~300,500,1000字左右。文摘(Abstract,Excerpta,Digest)全文(Full-text)全文检索是指以文献所含的全部信息作为检索内容的文献检索。中文:CNKI数据库、万方数据库、维普数据库外文:Sciencedirect数据库wiley数据库blackwell数据库EBSCO数据库、Ovid系统Springer电子全文期刊Nature电子全文期刊检索系统的构成手工检索系统计算机(网络)检索系统篇名字段文摘字段基本索引字段叙词字段自由标引字段辅助索引字段记录有多个字段组成记录,使数据库的信息单元文档数据库中一部分记录的集合,也使数据库的结构。一个数据库至少包括一个顺排文档和一个倒排文档。检索语言检索系统的构成顺排档:数据库中的记录往往是按时间顺序线性排列的,每条记录依次编有顺序号,这种文档称为顺排文档。例排档:是将顺排文档记录中的可检字段抽出,按字顺排列而成的字典文档称倒排文档。顺排文档倒排文档(主题)001汽车尾气中的铅对环境的污染主题词:汽车、尾气、铅、环境污染002汽车的维修主题词:汽车、维修003汽车与运输主题词:汽车、运输004汽车噪音对环境的污染主题词:汽车、噪音、环境污染环境污染001004汽车001002003004铅001维修002尾气001运输003噪音004环境污染汽车001004001002003004001004数据库、文档、记录、字段之间的关系数据库文档1(顺排档)文档2(倒排档、索引)…文档n(倒排档)记录1记录2…记录n字段1字段2…字段n子字段1子字段2…子字段nInternet用户的增长(1994-2003)万人用户获取信息的主要途径126710508988375125104593963923870200400600800100012001400图书馆Internet期刊非正式书店图书数据库CD-ROM私人收藏会议录电子资源的产生与发展:数据库增长情况,1975-1999–数据库:301--11,681,增长39倍–数据库生产者:200--3,674,增长18倍–vendor:105--2,454,增长23倍–数据条数:52million--12.86billionrecords,增长242倍(MarthaE.Williams)电子资源(electronicresources),传统上也称为电子出版物,指一切以电子方式或机读方式生产和发行的信息资源。电子资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。网络资源在电子资源中占的比例越来越大。电子资源的概念与类型参考数据库全文数据库事实数据库电子期刊电子图书电子报纸其它:FTP,新闻组、搜索引擎、各种网站全文数据库full-textdatabase,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、各类统计报告、法律条文和案例、商业信息等为主按学科收录,综合性强,范围广事实数据库factualdatabases,指包含大量数据、事实的数据库,分为数值数据库、指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。电子期刊electronicjournals或简称e-journal,包括:与纸本期刊并行的电子期刊,如著名的《科学》(Science)、《自然》(Nature)、中国电子期刊杂志社的期刊等;纯电子期刊,如《数字图书馆杂志》(D-LibMagazine)周期短,可检索,服务功能多电子图书与报纸Electronicbook或e-bookElectronicnewspaper电子资源的产生与发展计算机检索主要经历了以下四个阶段:脱机检索阶段联机检索阶段光盘检索阶段网络化检索阶段脱机检索阶段脱机检索(OfflineRetrieval):即批处理检索(50年代-60年代)检索要求检索系统检索结果检索人员——〉检索策略——〉成批检索——〉用户三点不足:1.地理上的障碍,指用户与检索人员距离较远时,不便于检索要求的表达,也不便于检索结果的获取。2.时间上的迟滞,指检索人员定期检索,用户不能及时获取所需信息。3.封闭式的检索,指检索策略一经检索人员输入系统就不能更改,更不能依据机检应答来修改检索式联机检索阶段联机检索(OnlineRetrieval):(60年代-80年代)终端设备通讯网络—检索系统运行检索软件用户—检索策略—“人机对话”—获取所需信息三个时期:60年代对联机信息检索进行了研究开发试验;70年代末进入了联机检索地区性应用阶段;80年代以后,随着空间技术和远程通讯技术的发展,使计算机检索进入信息—计算机—卫星通信三维一体的新阶段,即以信息、文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的Dialog系统,1984年就有200多个数据库,其中包括美国的《医学索引》、荷兰《医学文摘》、美国《生物学文摘》、美国《化学文摘》等,如今此联机检索系统仍然是世界上最有影响的联机检索系统。光盘检索阶段1983年,出现了一种新的存储器,CD-ROM光盘。光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点,因而至今仍被世界各地广泛应用。国内外最常用的医学光盘数据库有:MEDLINE光盘BiologicalAbstracts光盘BiologicalAbstracts/RRM光盘ExcerptaMedica光盘ChemicalAbstractsIndex光盘LifeSciencesCollection光盘(生命科学数据库)ScienceCitationIndex(SCI)光盘(科学引文索引)全国报刊索引光盘CAJ(中国学术期刊)网络化检索阶段目前,90%的国际联机检索系统都已进入INTERNET,世界上许多国家(包括中国)都从INTERNET上获取重要的科技和经济信息资源,网络传输速度不断提高,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。顺排档:数据库中的记录往往是按时间顺序线性排列的,每条记录依次编有顺序号,这种文档称为顺排文档。例排档:是将顺排文档记录中的可检字段抽出,按字顺排列而成的字典文档称倒排文档。顺排文档倒排文档(主题)001汽车尾气中的铅对环境的污染主题词:汽车、尾气、铅、环境污染002汽车的维修主题词:汽车、维修003汽车与运输主题词:汽车、运输004汽车噪音对环境的污染主题词:汽车、噪音、环境污染环境污染001004汽车001002003004铅001维修002尾气001运输003噪音004环境污染汽车001004001002003004001004数据库、文档、记录、字段之间的关系数据库文档1(顺排档)文档2(倒排档、索引)…文档n(倒排档)记录1记录2…记录n字段1字段2…字段n子字段1子字段2…子字段n信息检索语言检索语言概念检索的基本原理:是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。检索语言:是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。检索语言(检索标识,RetrievalLanguage)检索语言是一种在文献存储和检索过程中共同使用的语言。它的用途是描述文献特征,表达情报提问,并使两者能相互沟通。可分为规范化语言(受控语言)和非规范化语言(自然语言)。
本文标题:文献信息检索技术
链接地址:https://www.777doc.com/doc-4275641 .html