您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 总结/报告 > 精准获取信息的方法——编写检索式
精准获取信息的方法——编写检索式主要内容为什么要精准获取信息检索策略和步骤如何编写检索式搜索引擎中的检索式为什么要精准获取信息★保证检索的全面性不仅要广泛查阅自己特定范围内的国内外有关研究成果,而且要把视野放宽,广泛测览特定范围以外的有关研究成果。不仅要搜集与自己观点一致的材料,也要搜集那些与自己观点不一致,或与自己构思相矛盾的资料。不仅要广泛查阅中文资料,同时也应查阅外文资料,以便及时掌握最新的研究资料和动向特别是要着力搜集第一手资料,以保证研究的客观全面。★保证检索的准确性通过细读,基本掌握若干年来所研究的领域内讨论过的问题,分歧意见,代表人物和主要著作,主要倾向。要认真推敲观点和论据,并做好记录。从前人分歧矛盾中发现问题:(1)前人的结论可能是正确的,但论据不充分;结论可能是错误的,但研究过程或研究方法可能有启发;(2)前人的争论焦点,可能是问题的关键所在,也可能只在表面现象上争吵不休,并未触及问题的实质;(3)前人的理论依据及史料依据,可能是准确无误十分丰富,也可能是篡改文献,贫乏薄弱得不足为据。我们要通过细致查阅,搞清来龙去脉。★检索效果评价查全率是指检索出的相关文献量占系统中所有相关文献总量的百分比,用来反映检索的全面性。查准率是指检索出的相关文献量占所有检出文献总量的百分比,用来反映检索的准确性。查全率P=a/(a+c)ⅹ100%查准率R=a/(a+b)ⅹ100%R:表示查全率;P:表示查准率;a:检出的相关文献量为;b:检出的非相关文献量;c:系统中未检出的相关文献量。查全率的互补数就是漏检率查准率的互补数就是误检率。查全率和查准率也是互补的关系。在一个特定的检索系统中,当查全率不断提高的同时,查准率就会降低,而当查准率提高的同时,查全率又会降低。但当查全率和查准率都很低的时候,两者可以通过检索策略的改善同时得到提高。检索课题主题分析选择数据库确定检索词制定检索式计算机处理数据库原文标引结果评价用户词表★检索步骤NY结果返回构造检索策略★制定检索策略什么是检索式检索式:检索式是指计算机检索中用来表达用户检索提问的逻辑表达式,由检索词、检索算符以及系统规定的其他连接符号等构成运算符又称逻辑算符,是表达检索词之间逻辑关系和限制关系的运算符号,它是复合检索式中必不可缺的构件。包括逻辑算符、截词符、位置算符等字段检索☆编制检索式用逻辑算符说明词间的逻辑关系用位置算符指定词间的位置关系用截词符描述词尾变化检索字段分析检索结果,调整检索式,直至满意试解释检索式:S(speckleandnondestruc?(w)test?)/ab,ti,de☆检索词的选定确定检索词的基本准则必须能正确反映检索要求;必须符合数据库的检索用词规则;优先选用具有检索意义学科名词术语;多选常用的基本词汇进行组配。进行文献的主题分析,包括审读文献,划分主题类型和分析主题结构,选直接表达文献主题概念的词表中的正式专指叙词;要利用概念之间的属种关系和相关关系增加检索线索选择主题词要领把握概念的含义注意利用词表属种关系又称上下位关系,包括概念是属概念,被包括的概念是种概念。利用属概念扩大检索途径,可提高查全率,利用种概念缩小查找范围,可提高查准率。相关关系指属种关系以外的具有交叉、并列、对立关系的概念,以及形式与内容、本质与现象、原因与结果等关系。善于利用这些关系,有利于提高查全率。《词表》是文献检索的重要辅助工具,使用时要注意从多角度查词,要充分利用辅助表。当查不到与某个具体概念相对应的专指叙词时,可以把该概念分解为几个较一般的概念(外延相对宽的),然后再去查表。1直接选词法当检索题目中使用的自由词与规范词相一致时,可直接选取。例如:“光缆(opticalfiber)”、“计算机辅助设计(computeraideddesign)”等,这些词属于范围大、命中率高的选词,检索人员可直接进行检索。这种方法的结果最为接近主题。2专指选词法选用专指性强的主题词越多,则检出的文献针对性越强,查准率就越高。突出检索主题的深度。3转换选词法检索词的确定必须经过对检索主题的正确分析得到。选词过程中还经常会遇到不能直接查到所需文献的词,这中间就需要有一个转变过程。例如:检索《COBOL语言设计》课题,若不加分析就选用“COBOLlanguagedesign”,则必然碰壁。而通过正确分析理解就会知道COBOL语言是一种用来编制计算机程序的语言,所以应先确定检索词为“计算机程序语言(computerprogramminglanguages)”,然后再进一步与COBOL组配,定能得到满意结果。此种选词法可促使科技人员对主题词表的主题词结构及类型有所了解,锻炼多角度选词的能力。4通配符的运用(1)“?”——代表检索词中的一个汉字、西文字符或其他字符。例如:“计算?”,表示“计算机”、“计算器”等词;“航?器”,表示“航空器”、“航天器”等词;“int??net”,表示“internet”、“intranet”等词。(2)“#”——代表检索词中的一个汉字、西文字符或其他字符,也可不代表任何汉字、西文字符或其他字符。例如:“微#机”,表示“微机”、“微型机”等词;“missile#”,表示“missile”、“missiles”等词;“colo#r”,表示“color”、“colour”等词。(3)“$”——代表检索词中的任意多个汉字、西文字符或其他字符,也可不代表任何汉字、西文字符或其他字符。例如:“网络$”,代表“网络”、“网络软件”、“网络计算机”、“网络操作系统”等词;“electron$”,代表“electron”、“electrons”、“electronic”、“electronics”等词。“?”、“#”和“$”的相同点与不同点:(1)“?”与“#”均代表一个汉字、西文字符或其他字符;“#”与“$”均可以不代表任何汉字、西文字符或其他字符,检出的词均包括词干本身。(2)不同点:使用“?”,检出的词不包括词干本身;使用“$”,可代表多个汉字、西文字符或其他字符检出的词包括词干本身。☆使用运算符的检索技术1.布尔逻辑检索技术2.位置检索技术3.截词检索技术4.字段限定检索技术5.原文检索技术6.扩检与缩检一、布尔逻辑检索技术在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。1逻辑“与”含义:检出的记录必须同时含有所有的检索词。基本作用:一种用于交叉概念或限定关系的组配,可以缩小检索范围,有利于提高检索的专指性。用and或*表示例如:查找同时含有概念A和概念B的文献,可表示为:“AandB”或“A*B”2逻辑“或”含义:检出的记录中,至少含有两个检索词中的一个。基本作用:用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。可以避免了命中文献的重复出现。用OR或“+”表示例如:检索含有检索项A或检索项B的文献,可表示为:“AORB”或“A+B”3逻辑“非”含义:排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。基本作用:用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。用“NOT”或“-”表示,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆。例如:在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“ANOTB”或“A-B”。4运算优先级运算优选级顺序为(),NOT,OR,AND;可以用括号改变它们之间的运算顺序。通常在有括号的情况下,括号内的逻辑运算先执行,有多层括号时,先执行最内层的括号。例如:(AORD)ANDB,表示先执行“AORD”的检索,再与B进行AND运算。5注意事项1)有的检索工具以符号形象地表达布尔检索的功能,如“+”表示逻辑与,“-”表示逻辑非。有的检索工具直接把布尔逻辑隐含在菜单中,例如,Lycos以“matchallterms”表示逻辑与,以“matchanyterm”表示逻辑或。绝大多数检索工具的高级检索完全用表格和文字来表达布尔关系,如,Excite以“必须包括(MUSTcontain)”表示逻辑与,用“一定不含”(MUSTNOTcontain)表示逻辑非。有的检索工具部分支持布尔关系,如Yahoo!尚不支持逻辑非。2)用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。布尔算符使用正确但却不能达到应有检索效果的例子很多。OR逻辑有些检索词表达的概念,存在整体与部分的关系。在检索中,这类关系如果处理不好,就不能得到满意的检索效果。对此,一般原则是,如果检索词涉及到表达整体的概念,就要针对具体情况分别列出每一个表达部分概念的检索词,否则将出现漏检。NOT逻辑在检索逻辑中使用NOT,能排除含有由NOT指定的检索词的文献,协助检索出更准确的文献。但是,使用NOT必须慎重。因为,如果两个关系紧密的检索词同在一个检索逻辑中,对其中一个使用NOT逻辑会导致含另一个词的文献也被排除。6小结检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。示例:使用布尔逻辑运算符表明查询结果中必须同时包含intelligentrobot和control表明查询结果中至少包含两个检索词中的任意一个,intelligentrobot或control表明检索结果包含intelligentrobot,但同时必须去掉和control相关的内容Intelligentrobotandcontrol(intelligentrobot*control)Intelligentrobotorcontrol(intelligentrobot+control)Intelligentrobotnotcontrol(intelligentrobot-control)注:英文数据库通常用字母,中文数据库要用符号。二、位置检索(邻近检索)技术表明两或多个检索词之间关系的符号。适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。可以看成特殊功能的AND算符。AND算符不限制两个检索词的位置和出现顺序。例如:communicationANDsatellite命中的文献可能有communicationsatellite;satellitecommunication;communicaticndevicesforsatellites;communicaticnlinkswithoutsatellites;位置算符可以改进AND算符的这种不足,它是特殊功能的AND算符。按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一位置算符,检索系统不同,规定的位置算符也不同。1)“(W)”含义:“(W)”算符中的W含义为“With”。表示其两侧的检索词必须紧密相连,除开空格和标点号外,不得插入其他词或字母,两词的词序不可颠倒。其简略形式为()。例如:communication(W)satellitecommunication()satellite两者相同2)“(nw)”“(nW)”中的“W”的含义为“Word”,它允许两词间插入最多为n个其他词,包括实词和系统禁用词,词序不变。例如:communication(2W)satellite则会检出communicationsatellitecommunicationthoughsatellitecommunicationonthesatellite3)“(
本文标题:精准获取信息的方法——编写检索式
链接地址:https://www.777doc.com/doc-4818732 .html