您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 02-第二讲:信息检索技术及中文全文库(CNKI、维普)
00000Character科技文献检索与利用00000Character第二部分:信息检索技术及中文全文库(CNKI、维普)信息咨询部(情报所):费盛华E-mail:shfei@lib.tongji.edu.cnPhone:021-659824232课程安排为什么还要进行数据库检索?----搜索引擎检索与数据库检索的区别(布尔逻辑算符、字段)专业搜索达人基础技能----截词符、位置算符“达人”评价标准----查全率、查准率及其影响因素从最常用的中文全文库开始练习----《中国期刊全文数据库》(CNKI)《中文科技期刊数据库》(维普)3搜索引擎检索与数据库检索的区别1.搜索引擎:定义:搜索引擎(SearchEngines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。检索优点:任何内容,检索简单检索缺点:检全率高,检准率低,结果数量大,学术文献量少且无法获取全文(免费文献除外)4百度的资源及检索5的资源及检索62.数据库:定义:数据库是存储在一起的相关数据的集合,这些数据是结构化的,无有害的或不必要的冗余,并为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用的和可控制的方式进行。(J.Martin)检索:布尔逻辑检索字段检索检索优点:检准率高、具有针对性、学校资源提供大量的学术文献(可获取全文、文摘等)、检索方法多种检索缺点:每个数据库相对独立、只能检索数据库限定的内容、检索相对复杂搜索引擎检索与数据库检索的区别71)布尔逻辑检索(BoolLogicalOperators)用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。搜索引擎检索与数据库检索的区别1--布尔逻辑运算符8①逻辑“与”是检索词之间的相交关系运算。运算符号为“AND”或“*”。检索式为:AANDB或A*B(交集)AB搜索引擎检索与数据库检索的区别1--布尔逻辑运算符9②逻辑“或”(和)是检索词之间的并列关系,用运算符号“OR”或“+”。表示两个检索项任一项出现在一条记录中。检索式为:AORB或A+B(并集)AB搜索引擎检索与数据库检索的区别1--布尔逻辑运算符10③逻辑“非”用于在某一记录集合中排队含有某一概念的记录。运算符号用“NOT”或“-”表示。检索式为:ANOTB或A–B(排除)AB搜索引擎检索与数据库检索的区别1--布尔逻辑运算符11搜索引擎检索与数据库检索的区别1--布尔逻辑运算符12实例污水处理装置自动化控制方面的文献研究高层建筑结构抗震分析与设计公共关系在WTO中的应用搜索引擎检索与数据库检索的区别1--布尔逻辑运算符13字段是文献著录的基本单元,反映文献的外部特征和内容特征的每一个项目。【中文题名】XML语言及其应用【英文题名】XMLLANGUAGEANDITSAPPLICATION【作者】黄婉秋;黄筱霞;贾旭光【作者单位】北京工商大学,计算机学院,北京,100037;北京工商大学,计算机学院,北京,100037;北方交通大学,计算机学院,北京,100044;【刊名】北京工商大学学报(自然科学版)【英文刊名】JOURNALOFBEIJINGTECHNOLOGYANDBUSINESSUNIVERSITY(NATURALSCIENCEEDITION)【年卷期】2002Vol.20No.3【关键词】XML;HTML;Web页面语言;置标语言【摘要】简要阐述了XML语言的概念及特点,对它的语言结构进行了详细的分析,包括DTD、XSL、XLL三部分.并将XML和HTML进行了比较,同时也对它和数据库之间的关系进行了描述.最后论述了XML的发展与前景.搜索引擎检索与数据库检索的区别2--字段检索14字段15基本索引字段:在数据库中把描述文章主题性质,反映文章内容的字段称为基本索引字段。文献的标题(TI)、文摘(AB)、主题词(DE)及关键词(KY)等属于基本索引字段。辅助索引字段:描述与主题内容无关的字段,叫做辅助索引字段。作者(AU)、文献出处(SO)、出版年代(PY)、语种(LA)等属于辅助索引字段,与基本索引字段配合使用,起限定检索范围的作用。搜索引擎检索与数据库检索的区别2--字段检索16截词检索技术在计算机检索系统中的应用非常普遍,在西文单词中经常会遇到词的不同变化,为了不漏检,可采用截词的方法处理检索词。截词就是利用计算机检索系统提供的截词符,保留检索词中的相同部分,允许检索词可有一定范围内的变化,以提高文献的查全率。检索技巧进阶之--截词检索(Truncation)17截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。按截词位置分:有前截断、后截断、中截断;按截词的字符数量分:有限制截断、无限截断。表示截词的截断符号,各检索系统有不同的规定,没有统一标准。常用的截词符有:?和*检索技巧进阶之--截词检索(Truncation)181.后截断后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。非限制截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。例:同根词,如comput?表示允许其后可带有任何字符且数量不限,相当于查找compute、computed、computes、computing、computer、computers、computerize、computerized、computation、computations、computational、computationally等词。例:年代,如199?(90年代)例:作者,如用Eric*可检出所有姓Eric的作者。注意:不宜将词截得过短,否则容易造成误检。限制截断:是在检索词词干后面加若干个截词符,表示限制可变化的字符数。例:fib??相当于查找fiber或fibre……educat??相当于Educator,educated……192.中截断(通配符或屏蔽)是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。例:organi#ation,可检索到包含organization和organisation的记录。wom#n,可检索到包含woman和women的记录一个?代表零个或任意个字符。例:colo?r,可检索到包含color、colour、colonizer、colorimeter的记录。一个?和数字,其中的数字代表可替换的字符数。例:colo?1r,只能检索到包含colour的记录。20检索技巧进阶之--位置算符利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能(Fulltextsearching)。所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点:•规定的位置算符不同;•位置算符的职能和使用范围不同。下面介绍几种数据库经常使用的位置运算符:211.W-WithW算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。例:intelligent(W)robot?Wn(或nW)表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。例:intelligentw1robot*2.N-NearN算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。例:intelligentNEARrobot*Nn(或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。例:intelligentN1robot*3.Adj-adjacency邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。例:intelligentadjrobot*检索技巧进阶之--位置算符22构造检索提问式示例:课题:数字化图书馆的文献检索服务检索概念分析:documentretrieval并列概念documentdeliverydocumentdeliverysystemdigitallibrary同义词virtuallibraryelectroniclibrary检索提问式:(documentWretrievalordocumentWdeliveryordocumentWdeliveryWsystem*)and(digitalWlibrar*orelectronicWlibrar*orvirtualWlibrar*)23检索效果评价查全率(R)=检出相关文献量文献库中相关文献总量查准率(P)=检出相关文献量检出文献总量24(1)影响查全率的种种因素如:检索词是否扩大到穷尽,是否已用了所有可能的同义词和准同义词或不同的拼法;是否合理运用了逻辑“或”;是否对课题检索策略作了必要的扩大。(2)影响查准率的因素如:是否尽量选用了专指度较高的检索词;是否采用了逻辑“与”和逻辑“非”算符来优化检索;是否对检索课题作了范围的有效限制等等。影响因素分析251)课题分析不透;“学科归属”不清。2)“语言”不通。3)主题概念不是大了,就是小了。4)“同义词库”不全5)核心词太多6)选择的检索工具专业性不够。E-journalorsearchengine?造成漏检或误检的原因261)课题分析不透;“学科归属”不清。对课题的真正含义和学科归属不清楚,会造成最大的失误。如查找有关“玻璃钢”制造工艺方面的资料:如果没有认真分析课题的真正含义和学科归属,就匆匆着手检索,往往会欲速不达,或多走弯路,甚至导致失败。如果从字面含义着手,以为它属玻璃工业或金属材料的范畴,而事实上,玻璃钢既不属硅酸盐工业里的玻璃类,也不属金属材料里的钢铁制品,而是合成树脂与塑料工业里的增强、填充塑料制品。272)“语言”不通。基于计算机的文献检索的特点与其说是人机对话,不如说是标引人员与检索人员的对话,只有标引人员与检索人员所表达的“语言”一致,才能顺利实现文献检索。往往检索工具使用的是标引语言,而检索者使用的多数是自由词,未经规范化,这样在表达方式上有差异,造成了检索障碍。如:自由词:维生素C(vitaminC);标引词:抗坏血酸(ACID,ASCORBIC)自由词:艾滋病(AIDS);标引词:ACQUIREDIMMUNODEFICIENCYSYNDROME(后天免疫缺陷综合症);又如“沙示”(SARs),禽流感(Birdflu)…….283)主题概念不是大了,就是小了。检索者不知道如何正确定位课题的主题概念,往往会不是大了,就是小了,初学者更容易把概念偏大。主题概念的范畴太大造成大量没用的文献被误检,太小造成重要的的文献被漏检。如“石油工业的废水处理”,若用“废水处理”作为主题概念,就会太大,在《中国期刊网》中有1400多篇,如果我们知道石油工业主要排放的是毒性
本文标题:02-第二讲:信息检索技术及中文全文库(CNKI、维普)
链接地址:https://www.777doc.com/doc-3391969 .html