您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 信息检索与利用第2讲章计算机检索技术
1信息检索技术基础信息检索与利用2主要内容2.1信息检索语言2.2信息检索技术2.3检索效果评价2.4检索词的确定2.5信息检索策略及策略式2.6信息检索步骤2.7科技查新3•检索语言:在信息的存储和检索过程中,为使信息在用户和系统间有效传递,各种检索工具使用专门的语言体系来描述信息的内部特征和外部特征,同时要求用户依此构造检索提问式来进行信息检索,这种专门的语言体系成为检索语言。2.1信息检索语言4检索语言描述文献内容特征分类语言主题语言描述文献外表特征题名(书名、刊名、篇名)著者出版事项代码/序号关键词语言叙词语言标题词语言2.1信息检索语言单元词语言5•主题语言(内容特征)•按照主题性质的不同可分为:•标题词•单元词•叙词•关键词2.1信息检索语言6•标题词语言:是表征文献内容特征的、经过规范化处理的名词术语(包括词和短语)。例如:飞机:plane、airplane、aeroplaneaircraft用aircraft来表示所有“飞机”概念,以此作为规范词.使用aircraft一词的检索结果将包括全部有飞机概念的文献.•单元词:指从信息内容中抽出的最基本的词汇。•关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。2.1信息检索语言7叙词语言•叙词:指从信息的内容中抽出的、能概括表达信息内容基本概念的名词或术语,它是经规范化处理的自然语言词汇。•叙词受叙词表控制,有组配功能。•通常使用的叙词表有:国内《汉语主题词表》,英国《科学文摘》使用的《INSPECThesaurus》,美国《工程索引》使用的《EiThesaurus》等。运输飞机设计运输飞机设计运输飞机飞机设计8EI(Thesaurus)9作用•检索词用来组织信息(信息工作者)•对文献信息内容进行标引;•对内容相同或相关的信息加以集中或揭示其相关性;•对信息进行系统化、有序化;•检索词用于检索(检索用户)•进行主题检索•进行分类检索•进行外表特征检索•检索词是信息资源组织与检索者检索提问的桥梁,在数据库中,对应为检索点、检索入口2.1信息检索语言对文献信息内容进行标引特征1特征2特征3特征4特征5特征n11字段名数据库中文献的记录方式122.2.1布尔逻辑2.2.2截词检索2.2.3限制检索2.2.4位置逻辑2.2.5检索策略式2.2信息检索技术13在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。用“与”(AND)、“或”(OR)、“非”(NOT)来表达。2.2.1布尔逻辑检索14•布尔逻辑检索:在进行信息检索时,检索项之间概念有相交关系、同义关系或相关关系,这时采用布尔逻辑进行检索项之间的逻辑组配。•布尔逻辑算符有三种:逻辑与、逻辑或、逻辑非用“与”(AND)、“或”(OR)、“非”(NOT)来表达。2.2.1布尔逻辑15逻辑“与”•在计算机信息检索时,“与”用于表示概念的交叉、限定关系•逻辑符号:and、﹡、还可用空格表示•表达形式:AandB、A*B、或AB•具有缩小检索范围和提高专指性的功能。•例:computerandcontrol(SCI)computer*control(Dialog)computercontrol(Google)AB16逻辑或•逻辑“或”算符,用来表示概念的并列、平行、等同关系•代表符号:“or”、“+”•表达形式:AORB或A+B•具有扩大检索范围,减少漏检的功能。•例:AIRPLANEORAIRCRAFT(Google)或AIRPLANE+AIRCRAFTAB17•逻辑“非”算符,是具有概念包含关系的一种组配,可以从原检索范围中排除某一内容。•表达形式:AnotB、A-B•具有缩小命中范围,提高查准率,增强检索的专指性,减少输出量的作用。•例:Energynotnuclear逻辑非AB18布尔逻辑检索技术•逻辑或(OR):扩大检索范围,有利于提高查全率。•逻辑与(AND):缩小检索范围,有利于提高查准率。•逻辑非(NOT):缩小检索范围,有利于提高查准率。ABAB逻辑与A*B逻辑或A+B逻辑非A-BAB19运用“布尔算符”的注意事项:•布尔逻辑运算符运算顺序为:not→and→or•运算符遵循数学运算法则;(a)括号优先;(AorB)andCnotD(b)在检索式中只有and或or前后的检索标识可以交换;(c)检索式中有not时前后检索词不能交换。备注:()必须在半角和英文状态下输入2.2.1布尔逻辑20布尔逻辑检索表达式的特点•布尔检索表达式式目前信息检索系统中使用最多的一种方法。•优点:表现直观清晰,方便扩检和缩检。易于计算机实现。•缺点:没有反映文献内容(或信息需求)所涉及的多个概念的相对重要性。没有反应概念之间的内在语义关系。写出下图的布尔逻辑检索式22•截词(truncation):是指检索者将检索词在认为比较合适的地方截断,也称模糊检索,又称词干检索法•截词检索,用截断的词的一个局部进行的检索即利用检索词的词干加上截词符号去数据库中进行检索。(模糊检索)•截词符号:一般为“?”或“*”。各种检索系统有不同规定,没有统一标准。•截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。2.2.2截词检索23截词的分类•按位置分类:前截词中间截词后截词•按取代数量分:有限截词无限截词24•后截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。•词尾的有限截断•相同字符串后可能变化一个字符时,则在其后使用一个“?”,常用来表示检索词的单复数变化。例如用system?可以查出sytem和systems的文献。•相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,??表示两个字符,???表示三个字符,以此类推•如表示九十年代;199?•如表示20世纪:19??后截词25词尾的无限截断•相同字符串后可能变化任何字符串时,则在其后使用一个“?”或“*”。这种方法可以查找出含有相同字符串的所有检索词。•例如,comput*可查出compute,computer,computing,computation,computerisation等•如physic*可检出:physical,physic,physicalismphysician,physicists,physicochenistry,physics等.•即相当于为上述各检索词的逻辑OR运算后截词26•中间截词:可变化的字符出现在单词的中间位置。例如:“woman”和“women”,可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。•查找英美不同拼法最有效中间截词27•前截断:将截词符号放在一个字符串的左方是后方一致的检索。例如:*physics可检physics、astrophysics、biophysics……..*Chem*可检chemical,electrochemic,chemistry,thermochemistry……..•很少使用前截断28*——EiVillage,WebofScience,Elsevier,EBSCOJane‘s航空数据库?——PQDD,INSPEC,Dialog截词29•限制检索是限定检索词出现在数据库记录中某一字段范围的一种检索技术。•检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。•基本检索字段标题、文摘、叙词、自由标引词Title、abstract、descriptor、identifier•辅助检索字段作者、刊名、语种、年代、专利号等author、journal、language、publicationyear、patentnumber2.2.3限制检索30字段检索常用代码31目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。如题名字段Ei中,用highwaytransport*withinTI来表示;OCLCFirstsearch中,用TI:highwaytransport*来表示。在进行字段检索时,应先看一下该数据库的使用指南。例:EiCPXWeb网络版数据库主要字段的字段代码如下:CVEi叙词表受控语TI题名AB文摘AU著者姓AF著者机构名称ST连续出版物名称PN出版时间注意例:检索2005年以后在《情报学报》上发表的有关信息价值计算方法的文献•限定范围:2005以后;《情报学报》•检索词:信息价值、计算•时间上的限定,有“=”、“>”、“<”、“>=”、“<=”。例如:PY>=2004表示检索2004年以来(包括2004)发表的文献。•检索式:(年=2005)*(刊名=情报学报)*(主题=信息价值*计算)Searchwithinaspecificfieldusingwn{testbed}wnALLAND{atmnetworks}wnTI(windowwnTIANDsapphirewnTI)ORSakamoto,K*wnAU36•利用位置算符来表示检索词之间的位置关系,以实现位置逻辑检索功能。•特征•这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。•可表达复合内容•属于提高专指度的方法•引入位置算符的目的是增加检索式的灵活性,表达复杂专深的概念,从而提高检索的专指度,弥补布尔逻辑算符难以表达某些复杂提问的不足。2.2.4位置逻辑37分类:•记录级检索:要求检索词在同一记录中有L•字段级检索:要求检索词在同一字段中,有F•子字段或自然句级检索:要求检索词出现在同一子字段或同一自然句中,有S,•词位置检索:要求词之间相互位置满足某些条件,有W,NW,N.nN等2.2.4位置逻辑38(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为()。•例如:Aircraft()design可检索出含有Aircraftdesign的文献记录。•Computer()aided()design可检索出含有Computeraideddesign的文献记录•(Dialog为例)(1)(W)—With39•(nW)表示在此算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。•例如:laser(1w)printer可检出含有laserprinter和lasercolorprinter的文献记录•Computer(1w)animation可检出Computerassistedanimation•(Dialog为例)(2)(nW)—nWords(W),(1W),(nW)40•Wn如:W8——EBSCO例:taxW8reform•ADJ——Elsevier两词按指定顺序排列,相当于短语例:remoteADJeducation•PRE/n——PQDD例:militaryPRE/1weapons常见的另外的表达形式41•(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。•例如:computer(N)network可检出含有computernetwork、networkcomputer形式的文献记录。•例ECONOMI*(1NEAR)RECOVER*可包含多重组合和含义(Dialog为例)(3)(N)—Near42•(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。•例如computer(2N)system可检出含有computersystem,computercodesystem,•computeraideddesignsystem,systemusingmoderncomputer等形式的文献记录。(4)(nN)—nNear(N),(1N),(nN)43•Nn例:taxN5reform(EBSCO)•NEAR[N]例:remoteNEAR[5]ducation(Elsev
本文标题:信息检索与利用第2讲章计算机检索技术
链接地址:https://www.777doc.com/doc-46076 .html