您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 专题二:现代信息检索技术
专题二:信息检索技术本专题内容•第一节布尔逻辑检索•第二节截词检索•第三节位置检索•第四节限定检索•第五节全文检索•第六节引文检索第一节布尔逻辑检索•一.布尔逻辑运算符•二.布尔逻辑运算符的运算次序•三.布尔表达式编制注意事项•四.布尔检索表达式的特点(优缺点)*检索单元•单元词检索-?Scomputer13000computer•多元词检索-?Sinformationretrieval21300informationretrieval一.布尔逻辑运算符•布尔逻辑检索的布尔逻辑表达式是采用布尔逻辑运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”)来连接运算分量(检索词),以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。•逻辑与“and”•逻辑或“or”•逻辑非“not”逻辑或“or”•AorB;A+B•信息源中含有检索词A或B的所有信息均为命中对象。•逻辑或可以实现扩检,增强检全率ABABAB布尔或关系文氏图逻辑与“and”•AandB;A*B•同时含A、B两个检索词的信息为命中信息。•逻辑与运算,可以增强查找的专指性,提高检准率。布尔与关系文氏图ABABAB逻辑非“not”•AnotB;A-B;-B*A•逻辑非运算是一种排除性运算,逻辑非运算必须与逻辑与运算同时使用。•在实际检索中,常常在一个检索中间结果中使用“非”运算,用来排除指定的其中某类文献,以提高检索的查准率。ABABAB布尔非关系文氏图二.布尔逻辑运算符的运算次序•对于一个布尔检索逻辑表达式,计算机的处理总是从左向右进行的,遵循四则运算;•对于运算符or,and,not,它们的运算优先次序在不同的系统中有着不同的规定:–DIALOG:not-and-or•对同一个布尔逻辑提问式来说,不同的运算次序将会产生不同的检索结果。练习练习1有关上海市内的河流污染的文献。A上海市内B河流C污染练习2对日本与美国的军队信息化建设方面进行比较的文献。A日本B美国C军队信息化建设练习3有关日本或者美国的军队信息化建设方面的文献。A日本B美国C军队信息化建设练习4有关除了大米以外的谷物进口的文献A谷物B大米C进口三.布尔表达式编制中的注意事项•(1)概念整体与部分的关系•(2)慎用“not”•(3)布尔逻辑算符的使用技巧(1)概念整体与部分的关系•例如“检索关于欧洲能源问题的文献”欧洲(Europe);能源(Energy)Europe*Engergy*概念检索(同义扩展、相关概念的联想)(Europe+Britain+France+Italy+Spain+…)*(Energy+coal+petroleum+naturalgas+…)练习•查找“有关上海市内的河流污染的文献。”A上海市内;B河流;C污染(上海市+黄埔区+卢湾区+…)*(河流+黄埔江+苏州河+暗沟+…)*污染(2)慎用“not”•避免将非运算和或运算一起使用,否则将会再现滥检现象。•检索逻辑‘not’慎用,否则会检索失败。•例如:–NOT计算机OR软件–militaryaircraftNOTaircraft–(computer+software)NOTharware(3)布尔逻辑算符的使用技巧•当采用逻辑与“*”连接检索词时,尽可能将出现频率低的词放在“*”之前,其目的是为了使否定的答案尽早排除。(要求较高的查准率)•采用逻辑或“+”连接检索词时,将出现频率高的词放在“+”之前,确保命中答案尽早出现。(保证较高的查全率)四.布尔检索表达式的特点优点:•与思维习惯一致–查找出有关某一主题的文献–同时包含主题A和主题B的文献–主题A和主题B只要有一种即可–获得主题A的文献,但排除其中含有主题B的文献•表达方式直观清晰•方便扩检与缩检–增加逻辑或(扩检)–增加逻辑与(缩检)缺点•检索输出量难以控制;•检索结果不能根据用户的检索需求按重要程度顺序排序输出;•对于文献描述与布尔查询中的词汇无重要层次之分;•过分依赖于检索用词,检索效果不甚理想。布尔逻辑检索小结•布尔检索技术一直是信息检索系统采用的主要检索技术之一。•布尔逻辑检索反映了检索词之间的逻辑关系,属于一种定性的信息检索技术,这种定性检索难以分辨出检索结果之间的重要程度。•严格的二值逻辑判断,使单纯布尔逻辑检索的结果缺乏“量”的比较。第二节截词检索(模糊检索)截词检索利用检索词的词干或不完整的词形进行检索。在检索标识中保留相同部分,用相应的截词符(?#:$)代替可变化部分进行的检索。截词检索类型(一)按截断字符数量分:有限截断;无限截断(二)按截词位置分:左截断;右截断;中间截断词干后至多跟与截字符相同的字符数DIALOGchild????child+children+childish+childlikeORBITchild####BRSchild$4(一)按截断字符数量分(1)有限截断(LimitedTruncation)有限截断一个字符DIALOGtechnique??technique+techniquesORBITtechnique#BRStechnique$1?Sau=pauling,l?pauling,l+pauling,linus+pauling,linusc+pauling,linuscarling?Spy=199?检出文档中所有20世纪90年代出版的文献Spollut?pollutant+pollutants+pollute+polluting+pollution…(2)无限截断(unlimitedtruncation),也称“开放式截断”DIALOG中,词干后跟一个“?”•ORBIT–pollut:•BRS–pollut$(二)按截断位置分•(1)右截断(righttruncation)•右截断主要用于:--词的单复数book?Child???--同根词color?--作者au=chamberlain,a?--出版年py=199?注意:右截断截得过短易造成大量误检。•ORBIT、BRS有限和无限左截断;DIALOG无此功能。•##hydroxy(羟基)–dehydroxy+dihydroxy+hydroxy•$2.hydroxy–dehydroxy+dihydroxy+hydroxy(2)左截断(lefttruncation)举例magneticelectro-magneticelectromagneticparamagneticthermo-magneticthermomagneticORBIT:magneticBRS$.magnetic(3)中截断(internaltruncation)•中截断,也称嵌入式截词•organi?ation--organization+organisation•wom?n?--woman+womanly+women中截断主要用于•第一,单复数在词中元音上变化的情况--manmen;goosegeese•第二,动词与名词拼写的不同--adviceadvise•第三,同一单词英美拼写的差异--defensedefenceORBIT前后截词CHEMICALCHEMISTRYCHEMISORPRIONCHEMISTELECTROCHEMICALELECTROCHEMISTRYPHYSICOCHEMICALPHYSICOCHEMISTRYTHERMOCHEMICALTHERMOCHEMISTRY:CHEMI:主要联机系统拥有的截词功能联机系统右截断左截断左右同时截断中截断DIALOG有无无有ORBIT有有有有BRS有有无无截词检索的作用扩大查找范围,提高检全率;减少检索词的输入量,简化检索步骤,节省费用第三节位置检索(邻近检索)一.概念及作用二.常用的位置逻辑算符三.位置算符的综合运算四.位置非算符在《美国商业与工业管理索引ABI/INFORM》查找有关“利用计算机犯罪”的文献ABI/INFORM(Copr.DataCourierInc.)?scomputercrime10COMPUTERCRIME?sscomputer?andcrime?223428COMPUTER?31178CRIME?43002AND3?t4/4/14/4/1ScotlandYardtoBattleEscalatingCrimewithComputerizedCommandandControlSystemAnonymousComputerworldv16n37pp:18-19Sep13,1982TheMetropolitanPoliceForceatScotlandYardhasinstalledacomputerizedcommandandcontrolsystem.ThesystemwillplaceLondon’sbobbiesatthevanguardofmoderncomputingandcommunicationstechnology.…Whenthesystemisfullyoperational,thepolicedepartmentwillhavedirectconnectionswiththePoliceNationalComputerforimmediateaccesstosuchinformationasfingerprintrecords.一.概念及作用•位置逻辑检索(ProximitySearching)–通过位置逻辑算符规定词间位置关系所进行的检索。•位置逻辑算符–即邻接算符,是表示词间位置关系的符号•作用–表达复杂概念;解决词表规范词数量不足和词表不全的困难;提高查找深度二.常用的位置逻辑算符(以DIALOG为例)位置检索大致包括下列四种级别的检索:•(一)词位置检索•(二)子字段或自然句级检索•(三)字段级检索•(四)记录级检索(一)词位置检索•(1)(W)或()--词位置顺序紧连With•表示(w)连接的两词相邻,词序不变。两词之间可有单个空格、标点符号(连字符)。?ssolar(w)energy//?ssolar()energy可检得含有固定词组“solarenergy”的结果?son(w)line可检出online或on-line?sx(w)ray可检出x-ray比较检全率?ssolar(w)energy?ssolarenergy?ssolarandenergy(2)(nW)--位置顺序隔词(nWord)•(nW),表示(nW)所联接的两词之间可含有0~n个词,两词次序不能颠倒。?slaw(2W)sea可以检出LAWOFTHESEA?scomputer(1W)communication可检出:computercommunication;computerandcommunication;computerforcommunication?sscomputer?(w)crime?S5154COMPUTER?(W)CRIME?82027316TimeBanditsMiksanek,ChrisInterface:DataProcessingMgmtv7n3pp:8Autumn1982ThecostofcomputercrimetoUSbusinesseswillexceed$200millionin1982.Althoughtheftofcomputertimeoccursinmostdataprocessing(DP)centers,veryfewDPmanagersareawareof…92003058Stop,Thief!/TrendstoEyein’92Johnson,BobComputerworldv16n1pp:72-76Dec28,1991/Jan4,1992Becausethedataprocessedbycomputersisintangible,unlimitedpossibilitiesexistforthecomputercriminaltoobtain,misuse,ordestroyinf
本文标题:专题二:现代信息检索技术
链接地址:https://www.777doc.com/doc-44224 .html