您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 第二讲---网络信息检索基本方法
LOGO2010-9-13第二讲网络信息检索基本方法【目的与要求】掌握布尔逻辑检索等网络信息检索的基本技术。熟悉网络信息检索的途径和步骤。【重点】布尔逻辑语言、邻近检索、截词检索【难点】邻近检索影响信息检索质量的因素信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐)检索软件对信息检索的影响(不同的搜索引擎,数据库系统)用户水平对信息检索的影响网络信息检索的基本技术网络信息检索的基本途径网络信息检索基本步骤网络信息检索基本方法MACTH计算机将检索提问词文献记录标引词信息检索过程的实质:基本技术邻近检索一、网络信息检索的基本技术1.布尔逻辑检索(booleanlogic)逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(booleanlogicoperator),它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。主要运算符有“和(and,*)”、“或(or,+)”、“非(not,-)”。运算优先级顺序为NOT、AND、OR,可以用括号“()”改变它们的运算顺序。如Aand(BorC),检索顺序为先B或C,然后再与A实例:【实例】在搜索引擎中输入“电视台-中央电视台”,查询结果不包含“中央电视台”。逻辑算符举例①查找关于“动物保护”的文献:“动物AND保护”②查找有关冬虫夏草的文献:“冬虫夏草or冬虫草or虫草”③查找关于能源方面的文章,但关于“核能”的不要:“energynotnuclear”(energy-nuclear)④检索西红柿种植技术的相关文章:(西红柿+番茄)*(种植+栽培+培育)Exercise1:查找电子图书的标准(DigitalbookORelectronicbookORe-bookORonlinebook)ANDstandardGoolge的默认运算符就是逻辑“与”,用空格、“AND”和“+”都表示,而逻辑“非”只能用“-”而不能用“NOT”表示,逻辑“或”用“OR”表示。百度的默认运算符是逻辑“与”,空格均表示逻辑“与”。在ISIWebofKnowledge平台上,逻辑算符“AND”、“NOT”、“OR”不区分大小写,但不支持以“*”、“-”、“+”代替。在ScienceDirect中,逻辑“非”是用“ANDNOT”表示,而不是我们常用的“NOT”。2.词组检索(phrasesearch)通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索”(exactsearch)。例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖息地保护、动物资源保护等形式。ScienceDirect用双引号“”表示宽松短语检索,标点符号、连字符、停用字等会被自动忽略,如检索式为“heartattack”会检出包含“heartattack”和“heart-attack”的检索结果。在该数据库中,精确检索是用“{}”表示。邻近检索有时又被称为位置算符检索。因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也是如此。3.邻近检索(proximitysearch)布尔逻辑运算符和词组检索虽然能有效的扩大和缩小检索范围,但无法对检索词之间的相对位置进行限制文献记录中词语的相对次序或位置不同,所表达的意思可能不同又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特定位置关系同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。Eg:“粉末的掺合与颜料包装”①(W)—WITH算符表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或者是逗号。【实例】在OCLC中输入communicationwsatellite;②wN(withN)算符表示两个检索词之间插有n个词,但顺序不能颠倒。表达式:AWNBAB两词靠近,次序为A先B后,中间最多可加n个词。【实例】在EBSCO中输入communicationw3satellite;③N(Near)算符N(Near)表示两个检索词可以互换顺,二者之间只能间隔连字符、空格或者是逗号。表达式:ANB:AB两词靠近,次序可变。【实例】在OCLC中输入communicationnsatellite;④nN(NearN)算符表示两个检索词之间可以插入n个词并且词序可以颠倒表达式:A(nN)B:AB两词靠近,次序可变,中间最多可加n个词。【实例】在EBSCO中输入communicationn3satellite;比较:在EBSCO中输入sourceandlaw、sourcew2law⑤(F)——Field(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。⑥(S)算符(S)算符表示在此运算符两侧的检索词必须同时出现在文献记录的子字段或同一段话中,两个词次序不限,中间插入词的数量也不限。4.截词检索(truncation/wildcat)截词检索又称部分一致检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符用“?”或“*”标识。截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不同形式等。后截断无限截断——同根词检索如:physic??截词检索与截词检索算符PhysicphysicsphysicstphysicalismPhysicphysicsphysicst如:physic*有限截断——单复数也称“右截”中截断——用于中美拼写不同和单复数前截断——同根词检索如:m?nmanmen如:*computerminicomputercomputermicrocomputer“左截”特别提示:“*”、“?”的比较“*”,无限截词,代表0-无数个字符如regard*,代表regard,regarding,regardless等。“?”,有限截词,代表0-1个字符,如library?,library,librarys。5.字段限制检索技术(fieldlimiting)组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。一般来说,数据库的记录基本包括下列字段:题名(TI,title)、关键词(KW,keyword)、主题词(DE,descriptor)、文摘(AB,abstract)、全文(FT,Fulltext)、作者(AU,author)、作者机构(CS,CoporateSource)期刊名称(JN,Journal)、出版国(CO,Country)、出版年份(PY,PublicationYear)、语种(LA,Language)字段限制检索就是通过限制字段和限制字段的范围来缩小检索结果,达到精确检索的方法。检索方式主要有:限定字段检索和限定范围检索(1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊名(JN)、出版年(PY)、语种(LA)等字段后,例如:AU=Evans,A.,LA=Chinese②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in或/;如:Furniture/TI即家具一词出现在题目中。(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到优化检索的方法。不同的检索系统略有不同,常通过使用的有:“=、=、=、、、:”等。表达式:字段名=(=、=、、、)例如:PY=1995即限定出版年份为1995及以后的文献;PY=1996:2005即1996年至2005年的文章思考:比较3个检索式检索结果的不同“Informationretrieval”/TIInformationANDretrieval/TIInformation(F)retrieval不仅要求在题名字段中,还要求两者必须与输入的形式完全相同只要求在题名字段中,而不严格限制它们是短语,如“informationorganizationmethodsforeffectiveretrieval”只需要在同一个字段中Exercise2:查找华中科技大学罗俊院士1999年以来发表的文章?AU=LuoJunAND(CS=HuazhongUniv*)ANDPY=1999查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。“Thelegislationofhumancloning”orhumancloneandlegislat*andLA=EnglishandPY=2002大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在特定的范围中,如:标题(title)图像(image)文本(text)统一资源定位符(url)网站(site)链接(link)举例:url:gov.cnLink:whitehouse.govsite:区分大小写检索(case-sensitive)china--china,China,CHINAChina—ChinaWindows,windows7.模糊检索(fuzzysearch)又称概念检索(相关检索)。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。如“检索”,查找,寻找,找寻,找一找…….如“土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、“洋芋”等含义相近或相关的内容。现在大多数搜索引擎都有这种功能,只不过模糊程度不同。8.自然语言检索(naturallanguagesearch)即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。智能检索CouldyoupleasegivemesomeinformationonEnglishliterature?这种智能检索也是搜索引擎发展的趋势。实际检索时,需要将上述各种方法综合使用才能获得最佳检索效果。如“查找2000年以来PeterSuber教授撰写的关于开放存取”的论文?可以构建检索式为:OpenAccessOROAOR*freeresourcesOROpenSource)AND(AU=PeterSuber)ANDPY=2000。检索式的构建不是一蹴而就的,需要根据检索结果的多寡和精准程度进行不断调整。另外需要特别注意的是,不同的检索系统所使用的算符类型和符号各异,本文拘于篇幅无法一一列举,因此使用检索系统尤其是数据库前必须浏览帮助系统,详细了解字段及算符的设置情况,以确定最合适的途径进行检索。二.网络信息检索的基本途径即我们常说的检索点AccessPoint检索点即是检索信息或文献时所通过或使用的渠道,而检索工具提供的检索点是多种多样的,它以检索的对象文献的特征而定。科技文献有两方面的特征,一是外表特征——文献载体的外表上记明的易见的线索;二是文献的内容特征——即从文献内部包含的知识信息中的内隐的潜在的线索。1.按文献外表特征的检索途径:名称途径——即根据书名、刊名、篇名来查找文献信息的途径,它是把文献名称按照字顺
本文标题:第二讲---网络信息检索基本方法
链接地址:https://www.777doc.com/doc-4378236 .html