您好,欢迎访问三七文档
第四章计算机检索基本原理1计算机检索系统2计算机检索的基本原理与技术3计算机检索策略及其调整1计算机检索系统1.1计算机检索系统组成计算机硬件,计算机软件,数据库1.2数据库1.2.1定义:包含书目以及与文献有关数据的机读记录的有组织的集合。机读记录是文献的代替物,一条记录对应一篇文献,数据库由若干条记录组成。1.2.2类型1.2.3构成1.2.2文献数据库类型(据数据库所含信息内容)1)文献数据库:存储文献型数据,如一次文献或二次文献•书目数据库(二次文献数据库):包括各种文摘、索引、目录。存贮某个领域原始文献的书目。组成记录的字段一般有文献的标题、作者、出处、文摘、主题词等。•全文数据库:存贮文献全文或其中主要部分的数据库。能使用户获得最终的一次文献。2)源数据库:存储事实、数值、概念、图形等非文献数据的数据库•数值数据库:提供以数值方式表示信息的一种源数据库,其检索结果可能只是单一的值或一组数据。数值数据库能提供产品价格等数值信息,也可提供物质的物理化学性质、结构、频谱等数据。•事实数据库:自原始文献或社会调查中获得并经过处理的各种事实,如机构、人物、产品、资源等数据。常见的有指南数据库、产品数据库等。•概念数据库:库内存储各种名词术语或语言资料,如词典数据库、语料库等。•多媒体数据库:将各种类型的信息集中在CD—ROM上,是视频、音频、文字、图像、动画等的集合体,如一些互动性的百科全书。1.2.3数据库的构成1)记录:是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库由若干条记录构成。每条记录相当于文摘型或题录型检索刊物的一条著录款目。文献记录格式(以Dialog系统中EICompendexPlus数据库为例)如下:AN=DIALOGNO:03883137EIMonthlyNO;EIP94031231114/TITitle:Laser/LightimagingforunderwateruseAU=Author:Caimin,FrankM.CS=CorporateSource:HarborBranchoceanographiclnst.Inc.FLPierce,FL,USASO=Source:ScaTechnology,V.34NO.12Dec.1993.P.22--27PY=PublicationYear:1993CO,SN=CODEN:SEATADISSN:0993-3651LA=Language.EnglishDT,TC=DocumentType:JA(JoumalArticle);TreatmentcodeX(Experimental);/ABAbstract:ConventionalunderseaimaginglimitationsavePointedoutandseveralimagingsystemsaredescribed,inparticulartherangegaledimaging,field—limitedimaging,and3-DStructuredinterferometricilluminationsystems./DEDescription:*Imagingtechniques:Laserapplication;engineering;Vision/IDIdentifiers:Laserlightimaging;UnderwatertechnologyCC=EIClassificationCodes;2)字段:是文献记录的基本单元。一条记录有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条记录应包含原始文献的篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。数据库的字段可分为基本字段和辅助字段:基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等字段;辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。AN=:Dialog存取号(DialogAccessNumber)。在一个数据库中,每条记录只有一个存取号,两者一一对应。/TI:篇名字段(Title)。AU=:作者字段(Author)。CS=:作者所在单位字段(CorporateSource)。SO=:文献来源字段(SourcePublication)。包括期刊名称、年,卷、期、页等,或包括会议事项。PY=:出版年份(PublicationYear)。CO=:期刊代码字段(CODEN)。LA=:语种字段(Language),表示原文的语种。DT::文献类型字段(DocumentType)。TC=:处理码字段(TreatmentCode).表示论文的性质,A表示应用,X表示实验,T表示理论,等等/AB:文摘字段(Abstract)。/DE:叙词字段(Descriptor),选自叙词表、主题词表中的词。/ID:自由标引词字段(Identifier),非系统词表中的词,由标引人员确定。CC=:分类代码字段(ClassificationCode)。对于不同检索系统、不同数据库来说,其记录格式、字段代码、字段数目可能不完全相同。3)文档(File):若干条逻辑记录构成的信息集合。文档是书目数据库和文献检索系统中数据组织的基本形式。根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。顺排文档:是按文献记录的输入顺序(即文献序号)排列的文档。相当于印刷型检索工具的正文部分。在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为主文档(MasterFile)。这种存贮方式决定了对记录的存取只能按顺序进行。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存贮的记录愈多,扫描的时间愈长,从而严重影响了检索的速度。主要供用户输出和打印文献记录用。倒排文档:把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。倒排文档与顺排文档的区别:顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。辅助索引文档:前缀倒排索引文档基本索引文档:后缀倒排索引文档索引文档存取号文档倒排文档2计算机检索的基本原理与技术2.1检索原理检索提问命中文献匹配运算数据库计算机简单查询过程(以检索小麦或燕麦的文献为例)2.2检索功能•布尔逻辑检索功能•词间位置检索功能•截词检索功能•限定字段检索功能•禁用词•其他功能1)BooleanSearch(布尔逻辑检索)•逻辑“与”:AND;and;*ABAandB;A*Bwheatandmildew定义:用于交叉概念或限定关系的组配,即被命中的文献必须同时含有检索项A和B。作用:可缩小检索范围,提高查准率。要求:运用时,把出现频率低的检索词置于“与”的左端,可使否定答案尽早出现,节省机时。1)BooleanSearch(布尔逻辑检索)•逻辑“或”:OR;or;+ABAorB;A+B;computerorrobot定义:表示两个概念的并列,即被命中的文献含有两词之一或同时包含两词。作用:可扩大检索范围,提高查全率。要求:组构检索式时,可将估计出现频率高的词置于“或”的左面,可使选中的答案尽早出现。1)BooleanSearch(布尔逻辑检索)•逻辑“非”:NOT;not;-ABAnotB;A-B;mildewnotwheat定义:表示两个概念的排除,即被检索文献在含有检索词A而不含有检索词B时才被命中。作用:用于排斥关系的组配,即从原来的检索范围排除不需要的概念或影响检索结果的概念,提高查准率。注意:往往会把切题的文献给丢掉,运用时要非常慎重。2)位置检索:•表达检索词之间位置关系的一种检索•位置算符3)截词检索:*;?•定义:允许检索词有一定范围的变化。检索时将截词符置于检索词允许变化的部位,只要检索词和标引词的词干相同即为命中文献。•作用:减少检索词的输入量,扩大检索范围,提高检索效率。•注意:使用截词检索必须慎重,一是词干不要太短,以免检出许多与原来检索词不相关的文献记录,二是英美不同拼法的词,如变化字母数不同则不能使用中间截词检索,必须详细写出并用OR组配后输入。•分类:按截词位置:前截断;后截断;中间截断按截词方式:无限截词;有限截词;中间截词前截断:将截词符放在词根前边,后方一致,表示在词根前方有有限个或无限个字符。如*magnetic能够检出含有magnetic、ctromagnetic、paramagnetic等词的记录。后截断:将截词符放在词根后边,前方一致,表示在词根后方有有限个或无限个字符。如metal*,能够检出含有metal、metals、metaled、metalist等词的记录。中间截断:将截词符放在词的中间,词的前后方一致。如colo*r,能够检出含有colour、color的记录。无限截词:指允许截去的字符数量不限,也称开放式截断。如前截断和后截断有限截词:允许截去有限个字符。如dye***·*,能够检出含有dyer、dye、dyed、dyeing等词的记录。中间截词:如中间截断。4)限定字段检索:•定义:将检索过程限定在记录的特定的字段中进行。•作用:缩小或约束检索结果,提高检索效率。•检索符号:in、=、<、>、>=、<=等。•computer/TI,AB:表示在TI和AB字段中检索computer。•AU=WangfangandPY>=2000:表示查找王芳于2000年以来发表的文章。5)禁用词(stopwords):•保留词:Near、and、or、not•噪音词(非常常见的词):a、are、for、the、with、is、of、about、for、as、from、this等6)其他功能:•整体检索:在词组的两端加上“”,如“wheatpowderymildew”•优先级检索:在一个复杂的逻辑提问中,使用括号(单层或多层)来指定运算的先后顺序。(A*B+C)*(D+E)+F3计算机检索策略及其调整3.1计算机检索策略1)最专指面优先策略2)最少记录面优先策略3)积木型概念组面策略4)引文珠形增长策略5)逐次分馏策略3.2计算机检索策略调整•扩检•缩检1)最专指面优先策略:指在检索时,首先选择最专指的概念组面进行检索,如果检索命中的文献相当少,那么其他概念组面就不再加到检索提问式中去;如果检索命中的文献较多,就把其他概念组面加到检索提问式中,以提高查准率。2)最少记录面优先策略:与最专指面优先策略类似,即先从估计检中的文献记录数量最少的概念组面人手,如果检中的文献记录相当少,则不必检索其他概念组面,反之,则将其他概念组面加到检索提问式中去,提高检索结果的查准率。3)积木型概念组面策略:把检索课题分解成若干个概念组面,并分别先对这几个概念组面进行检索,在每个概念组面中尽可能全地列举同义词、相关词、近义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把所有概念组面的子检索式连接起来构成一个总检索式。4.引文珠形增长策略:从直接检索课题中最专指的概念组面开始,以便至少检出一篇命中文献。检索人员从这一条或数条记录中找到新的规范词或自由词,补充到检索式中去,然后再检索就能重新查出更多的文献。5.逐次分馏策略:先确定一个较大的、范围较广的初始文献集,然后逐步提高检索式的专指度,从而逐步缩小命中文献集,直到得到数量适宜、用户满意的文献集合为止。•扩检时,即提高查全率时,调整检索式的主要方法有:(1)选全同义词并以“OR”方式与原词连接后加入到检索式中。(2)降低检索词的专指度,从词表或检出文献中选一些上位词或相关词。(3)采用分类号进行检索。(4)删除某个不甚重要的概念组面,减少AND运算。(5)取消某些过严的限制符,如字段限制符等。(6)调整位置算符。•缩检时,即提高查准率时,调整检索式的主要方法有:(1)提高检索词的专指度,增加或换用下位词
本文标题:计算机检索基本原理
链接地址:https://www.777doc.com/doc-4009492 .html