您好,欢迎访问三七文档
(3)第四章文献信息数据库及计算机检索扬州职大电子工程系贾湛文献数据库数据库——在计算机存储设备上按一定方式存储的相互关联的数据集合。数据库网状数据库层次数据库关系数据库教师代码姓名职称系电话研究课题研究课题号研究课题名1101王一丽教授管理系3324500管理信息1102刘明副教授管理系3324800金融工程1254李爱军讲师投资系3341630电子商务教师代码姓名职称系电话研究课题号研究课题名1101王一丽教授管理系3324500管理信息1102刘明副教授管理系3324800金融工程1254李爱军讲师投资系3341630电子商务关系数据库是以二维表作为数据模型的数据库系统。非二维表文献数据库非文献数据库参考数据库源数据库混合数据库书目数据库指南数据库全文数据库数值数据库文本数据库术语数据库图像数据库书目数据库书目数据库(BibliographicDatabase)存储的是二次文献,包括文献的外部特征、题录、文摘和主题词等,检索结果是所需文献的线索而非原文。许多书目数据库是印刷型文献检索工具的机读版,如MEDLINE、CBMDISC等指南数据库指南(事实)数据库(FactDatabase)存储的是用来描述人物、机构、事物等信息的情况、过程、现象的事实数据。如名人录、机构指南、大事记等,均可归入事实数据库。美国MEDLARS系统的医生咨询数据库(PDQ),能提供有关癌症治疗和临床实验的相关病因、诊断标准、治疗方案以及最新研究进展等信息。全文数据库全文数据库(FullTextDatabase)存储的是原始文献的全文,如杂志论文、报纸新闻、法院案例等。全文检索可直接获取原始资料,而不是书目检索时的线索,提高了用户的检索效率。我国有《中国学术期刊》数据库、万方数据库、维普数据库等全文数据库。数值数据库数值数据库(NumericDatabase)主要包含的是数字数据,如各种统计数据、科学实验数据、科学测量数据等。例如医学上使用的化学制剂、药物的各种理化参数、人体生理上的各种数值,人口统计数据都可收入数值数据库。美国国立医学图书馆编制的化学物质毒性数据库RTECS,包含10万多种化学物质的急、慢性毒理实验数据。若干个记录构成的信息集合称为文档。记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。在全文数据库中主文档中一条记录相当于一篇完整的文献,在书目数据库里相当于一条题录或文摘。组成记录的数据项目文档数据库记录字段文献数据库的结构一个数据库由主文档(顺排文档)和若干索引文档(倒排文档)组成。顺排文档与倒排文档顺排文档:存入数据库的全部记录,文献记录按照存取号的大小顺序排列。存取号越大,对应的记录就越新。由于它存储记录的最完整的信息,所以称之为主文档。如果在顺排文档中进行检索,计算机就要对每个检索提问式逐一扫描数据库中的每一条记录,扫描的时间长,检索效率就会很低。倒排文档:将主文档中的可检字段(如主题词、著者)抽出,按某种顺序重新排列起来。不同的字段组织成不同的倒排文档(如主题词倒排文档、著者倒排文档等)。可以字顺排,也可以按分类号的大小排。基本索引文档——按主题词排列的文档。辅助索引文档——按表达文献外部特征排列的文档。倒排文档只有文献的标识和存取号。因此必须和顺排文档配合,先在倒排文档中查得存取号,再从顺排文档中调出记录。顺排文档与倒排文档配合使用的示意图检索“反坦克导弹发展趋势”的文献,输入检索式:反坦克导弹and发展趋势检索结果:检索结果:存取号001,003常见的字段段码题目TitleTI文摘AbstractAB叙词DescriptorDE标识词IdentifierID主题词SubjectSU关键词keywordKW记录号DocumentNoDN存取号AccessionNumberAN作者AuthorAU作者单位CorporationSourceCS期刊名称JournalJN出版年份PublishingyearPY语种LanguageLA文献性质TreatmentcodeTR国际标准书号ISBNBN国际标准刊号ISSNSN文献类型documenttypeDT期刊代码CODENCO分类代码ClassificationCodeCC来源出版物SourcePublicationSO中文名称英文全称段码基本字段辅助字段中文名称英文全称段码数据库记录的著录项目(字段)往往比手工检索多得多,这决定了计算机检索能够提供比手工检索更丰富的检索途径。期刊代码CODENCODEN(CodeNumber):美国ASTM(AmericanSocietyforTestingandMaterials,美国试验材料学会)制定的科技期刊代码系统。它是国际公认代码。CODEN由六位组成。前四位为基本码;一般为期刊的英文名称每个实词(中文期刊则采用汉语拼音)词头,不足4个实词时,用其他词补充。第五位一般为期刊类别等代码。第六位为校验码。例如:东南大学学报:自然科学版=DongnanDaxueXuebao:ZiranKexueBan→DDXZB9;中国医学科学杂志(英文版)=ChineseMedicalSciencesJournal→CMSJEP。CODEN应当印在期刊封面右上角,ISSN之下。数字对象唯一标识符DOIDOI:数字对象唯一标识符(DigitalObjectUniqueIdentifier-DOI)。美国出版协会(TheAssociationofAmericaPublishers,简称APP)1998年建立。它主要是针对因特网环境下如何对知识产权进行有效的保护和管理而产生的。DOI的编码方案(即美国标准ANSI/NISOZ39.84-2000)规定,一个DOI有两部分组成:前缀和后缀,中间用“/”分割。前缀与后缀的字符长度没有限制。前缀由两部分组成,一个是目录代码,所有DOI的目录都是“10.”另一个是登记机构代码.后缀可以是任何字母数字码,其编码方案完全由登记机构自己来规定。如:DOI:10.1007/978-3-540-69478-6_34DIALOG书目数据库EiCompendexPlus记录样例存取号标题作者单位来源作者出版年号语言文件类型文摘叙词标识词分类号处理号。X实验,T理论,等。期刊代码国际刊号计算机信息检索的发展历史1.脱机检索阶段(1954-1964)这一阶段的数据存取与数据通信能力都比较差。2.联机检索阶段(1965-)这个阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较差。3.光盘检索阶段(1980-)是联机检索的支持和补充,在通信技术不太发达的国家,它有优势。4.网络检索阶段(1990-)1991年思维机等公司、明尼苏达大学、欧洲高能粒子协会分别推出了因特网上的检索工具WAIS、Gropher和。基于WEB的搜索引擎已成为最重要的信息检索工具。著名的有Yahoo、Lycos、Excite等。我国计算机信息检索发展概况我国开展计算机检索的研究开始于20世纪70年代中期。1981年底,北方科技情报所在北京与美国DIALOG联机系统直接联机。自从1994年中国真正加入了国际Internet行列起,短短几年内已经建成中国公用数据网(CHINADDN)、中国公用分组交换网(CHINAPAC)、中国公用帧中继网(CHINAFRN)和中国公用电子信箱系统(CHINA-MAIL)四大公用数据通信网。在此基础上,同时建起了中国公用计算机互联网(CHI-NANET)、中国教育科研网(CERNET)和中国科技网(CSTNET)等因特网。目前,我国绝大多数高校建起了自己的校园网。用户输入检索需求分析转换处理需求数据库概念词典控制词表信息源筛选录入分类索引文档预处理计算机检索的基本原理概念词相关匹配运算计算机信息检索特点1、速度快、效率高2、检索途径多3、数据更新频率高4、不受时空的限制5、有交互性计算机信息检索系统组成1.计算机包括服务器、交换机、存储设备、检索终端、数据输出设备。计算机硬件部分决定了系统的检索速度和存储容量。2.检索软件是检索系统的管理系统,其功能是进行信息的存储、处理、检索以及整个系统的运行和管理。3.数据库数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源,也是用户检索的对象。4.通讯网络检索网络所用的通信线路,一般是公用电话线或专用线,国际联机检索系统则是由通信卫星和海底电缆构成的通信网络。计算机检索方法1浏览(browse):利用检索系统提供的树型结构,从“树根”开始,逐层逐级打开,直到找到所需文献。2提问:用户直接对数据库或检索系统提出了个检索条件表达式,要求系统执行检索。常分简单检索、高级检索和专家检索等。提问式检索简单检索(basicsearch):是一种单项检索。一般只需输入一个检索词,辅以相应的途径即可进行检索。高级检索(advancedsearch):是一种多项组合检索,一般输入多个检索词进行组配。有的检索系统也称为复杂检索或扩展检索。专家检索:用多个检索词与各种运算符组成检索式,功能与高级检索相似。二次检索:在原有检索的结果基础上,再进行检索。可反复使用,不断扩大或缩小检索范围。检索技术1布尔逻辑运算:and、or、not、xor2位置运算:with、near、w/n、pre如,investnear3policy3截词检索:*、?。如,smok*、Colo?r4字段限制检索:solarenergyintisolarenergy/ti叙词(Descriptors)、标题词(SubjectHeadings)、自由标引词(Identifier)、关键词和全文检索自由词(FreeTerms)以及题名、著者等检索词:检索式构造技术布尔逻辑AB--逻辑或(+,OR):表达检索词间的并列关系。可扩大检索范围,提高查全率。如:A+B,表明结果中含有A或B都为检索命中例如检索:“微型计算机”方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机OR微机A--逻辑非(-,NOT):表达检索词间的排除关系。可缩小检索范围,提高查准率,但要慎用。如:A-B,表明结果是A中不包含B的那部分B--逻辑与(*,AND):表达检索词间的交叉关系。可缩小检索范围,提高查准率。如:A*B,表明结果必须同时含有A和B才为命中例如检索:“高分子聚合物”查询关键词:高分子、聚合物检索表达式:高分子AND聚合物ABA*B布尔逻辑运算符优先级布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOTANDOR例:检索“明清小说”的有关信息。关键词:明、清、小说;检索表达式:(明OR清)AND小说;明AND小说OR清AND小说;错误表达式:明OR清AND小说;明AND清AND小说;明OR清OR小说;明AND清OR小说;布尔逻辑检索注意事项在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些网络检索工具如搜索引擎甚至用“︺、,、-”(即空格、逗号、减号)来表示。截词检索:又称词干检索、模糊检索。检索时,只需用词干加截词符号,凡是含有与该词干相同的文献均能被检出。该方法能很好避免漏检现象的出现。检索系统不同,截词符也不同,常用的截词符号有:#,?,*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。按截断的位置来分,截词可分为后截断、前截断、中截断三种类型。后截断中截断前截断无限截断如:economic??有限截断截词检索与截词检索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen如:?lishsul*ursulfursulphur无限截断有限截断前后截断如:?computer?可检出:computer、computers、co
本文标题:计算机检索
链接地址:https://www.777doc.com/doc-4009462 .html