您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 信息检索基本方法教案
第五章信息检索的基本方法5.1布尔逻辑检索Booleanlogic由GEORGEBOOLE1815-1864提出,目前大多数搜索引擎都采用与AND,*,&或OR,+,︱非NOT,—,!逻辑“与”:用关系词AND表示(可写作“*”或“&”)。逻辑“与”表示AND所连接的两个检索词必须同时在结果中出现才满足检索条件。逻辑“或”:用关系词OR表示(可写作“+”或“︱”),逻辑“或”表示OR所连接的两个检索词只要有一个能出现在结果中就算满足了检索条件。逻辑“非”:用关系词NOT表示(可写作“andnot”“—”或“!”),逻辑“非”表示NOT后面的那个检索词一定不能在检索结果中出现。例如:校庆AND武汉大学高等教育*中国湖南OR湖北移动学习+泛在学习大学NOT武汉大学玉米–甜玉米例如,用GFsoso检索,电子AND读书笔记电子读书笔记OR读书笔记软件5.2位置限制检索临近检索(ProximitySearch)以Dialog为例,收900多个数据库(1)PRE/0,P/0表示前后词序不能颠倒,中间不能插入其他词,但可以插入符号。With,(W)例如:WuhanP/0University(2)PRE/#,P/#表示前后词序不能颠倒,中间可插入一定数量的单词,即插入#个单词。例如:WuhanP/1University检索结果:WuhanMedicalUniversity;WuhanAgricultureUniversity;WuhanTechnologyUniversity;(3)NEAR/0,N/0表示前后词序可以颠倒,但中间不能插入单词。例如:WuhanN/0University检索结果:WuhanUniversity;Wuhan–University;Wuhan,UniversityUniversity,Wuhan;University-Wuhan;UniversityWuhan(4)NEAR/#,N/#表示前后词序可以颠倒,中间可以插入#个单词。例如:WuhanN/1University检索结果:WuhanMedicalUniversity;WuhanAgricultureUniversity;WuhanTechnologyUniversity;UniversityofWuhan;UniversityinWuhan;UniversityatWuhan(5)(s)是sentence的缩写,A(s)B表示A和B必须同时出现在记录的同一个句子或短语中,但次序可以随意改变,A与B之间可以有若干个其他的词。如:resin(s)ester(酯化树脂)【练习】1、查找computer和game的间隔不大于100个单词的网页2、检索“杂交玉米”的外文文献,要求两词间隔1个词,前后次序固定。hybrid、corn答案:1、computernear/100game2、hybridp/1cornhybridw/1corn5.3短语检索(精确检索)(PhraseSearchExactSearch)一般用“”表示。常见类型:(1)机构名称检索:“WuhanUniversity”“TheWorldIntellectualPropertyOrganization”(2)人名检索:如“GeorgeW.Washington”否则可能出现:GeorgeW.BushspokeatWashingtonD.Cabouthumanrights(3)用于专有名称检索:如“informationretrieval”“sleeplessinseattle”电影名电子读书笔记与“电子读书笔记”的检索结果是不同的5.4截词检索(TruncationWildcat)是指在检索式中用专门的截词符号(一般用*表示)表示检索词中的某一部分允许有一定的词形的变化。因此,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。截词符号可以用*,?,位置可分左截断、右截断、中间截断、左右截断(1)左截断:*physics可检索出physics,biophysics,chemophysics,geophysics等。*ology→Biology,geology,zoology*ism,*graphy(2)右截断:Comput*可检索出Comput,Computing,Computer,Computerized等。econom*,→economy;economic;economics;economical;economist;economize;……(3)中间截断wom*n一个?代表一个字符,结果是woman,women(4)左右截断*toxic*→cytotoxic;neurotoxicities;hepatoxicologic;…表5-1世界上主要数据库截词算符数据库平台1个字符多个字符0或1个字符MEDLINEPubMed*MEDLINE,SCIWOS?*$MEDLINE,CSAProQuest?*Agricola?EBSCO?*#Lexis-Nexis*!SDOL,Springer?*5.5字段限制检索(FieldLimiting)通过对检索词出现的位置进行限定,以实现精确检索。例如:中国有多少政府网站?无固定答案,因该题是一个动态变化的过程。网站的构成规律,斜杠越多,层次越多。例如:国家或地区代码,美国没有usedu机构类型代码,如gov表示政府机构;org表示非盈利机构;com表示商业性机构whu表示机构名称sim表示某机构下面的子机构,此处代表SchoolofInformationManagement(1)网址字段:URL:UniformResourceLocator例如:url:gov.cn结果有多少个记录,就有多少个政府网站(2)题名字段:title(ti):WuhanUniversity(3)出版字段:PY=2010(PY=PublicationYear)(4)语种字段:la=english(5)链接字段:link:whitehouse.gov(link用来查找链接到某个网站的所有的网页,如果某人有自己的博客或主页,通过这种方法可以看到它被链接的情况,从而了解到本人的知名度。此外,用link还可以查看其它网站的链接情况)(6)多字段组合检索例如:admissionANDsite:(site表示检索结果要限制在后面这个网址当中,即只能从这个网站去找资料。上式表示从哈佛大学的官网中找入学的资料)例如:au=wangliAND(CS=WuhanUniv.)(CS=corporatesource)例如:比较下三个检索式检索结果的不同之处①“informationretrieval”/TI②informationANDretrieval/TI③information(F)retrieval(F=field)检索结果中,第3个最多,第1个最少。第一个结果表示在题名字段中检索,并且必须与输入的形式完全相同;第二个表示在题名字段中检索,但不严格限制是短语,如“informationorganizationmethodsforeffectiveretrieval”;第三个表示只需要在同一个字段中即可。5.6区分大小写检索(Case-Sensitive)China中国;china瓷器Apple苹果公司(产品);apple苹果Windowswindows操作系统;windows窗户Jobs乔布斯;job工作Web万维网、web蜘蛛网例如:国家图书馆联机公共目录查询系统中的“多字段检索”采用的就是字段检索;Metacrawler的高级检索等。5.7多语种检索方法的综合运用(IntegratingDifferentSearchMethods)表达一个概念的词有很多,如移动学习、数字学习、泛在学习;信息素质、信息素养、咨询素养等,因此在构造检索式时要充分考虑每个检索词的不同表达形式,尽量不要遗漏,最好的方法是采用积木型检索式构造方法。例1:查找与电子图书标准化有关的文献(“电子图书”OR“电子书”OR“数字图书”OR“在线图书”OR“线上图书”)AND(“标准化”OR标准OR规范)上述的问题若换成英文检索,其中标准的表达是standard;standards;standardize;standardizing;standardization;standardizations等,很麻烦,可以考虑用截词符号代替,即standard*,上述检索式可转换为:(e-bookOR“electronicbook”OR“digitalbook”OR“onlinebook”)AND(standard*ORspecification)例2:查2009年出版或发行的关于克隆人立法方面的英文著作或论文中文检索式:PY=2009AND克隆人AND(立法OR法律OR法规)ANDLA=EnglishAND(DT=bookORarticle)英文检索式:PY=2009AND“humancloning”AND(lawORlawsORlegislat*ORrule)ANDLA=EnglishAND(DT=bookORarticle)注:上例中用legislat*代替了legeslate;legislating;legislated;legislation;legislations…..但用截词检索时要慎重,要避免不必要的词出现,如law,如果用law*检索,则会出现lawyer律师,lawsuit思考题:试列举百度、谷歌的高级检索指引。
本文标题:信息检索基本方法教案
链接地址:https://www.777doc.com/doc-2692597 .html