您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 信息检索技术方法及搜索引擎
信息检索技术方法及搜索引擎第一节:信息检索技术数字资源的检索技术布尔逻辑检索技术1截词检索技术2邻近检索技术3字段检索技术4布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法.主要的布尔逻辑关系词有:逻辑与(AND),逻辑或(OR),逻辑非(NOT)1布尔逻辑检索技术逻辑与逻辑乘:and或*表示组配方式:A*B或者AandB表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率.逻辑或又称逻辑和:or,+组配方式:AORB或者A+B,表示检索含有A词,或含有B词,或同时包含A,B两词的文章.作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率.逻辑非又称逻辑差:not-组配方式:A-B,表示检索出含有A词而不含有B词的文章.作用:逻辑非用于排除不希望出现的检索词,它和*的作用相似,能够缩小命中文献范围,增强检索的准确性.例如检索:打印机驱动程序查询关键词:打印机,驱动程序检索表达式:打印机AND驱动程序例如检索:微型计算机方面的有关信息查询关键词:微型计算机,微机检索表达式:微型计算机OR微机布尔逻辑检索举例布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOTANDOR例:检索唐宋诗歌的有关信息.关键词:唐,宋,诗歌;检索表达式:(唐OR宋)AND诗歌;唐AND诗歌OR宋AND诗歌;错误表达式:唐OR宋AND诗歌;唐AND宋AND诗歌;唐OR宋OR诗歌;唐AND宋OR诗歌;布尔逻辑运算符优先级请注意在不同的数据库中,所使用的逻辑符号可能是不同的,有的用and,or,not有的用*,+,-.一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中.一些网络检索工具如搜索引擎甚至用〕,,,-(即空格,逗号,减号)来表示.主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化.作用:主要是提高查全率截词符一般用或*表示2截词检索技术截词位置按截词位置可分为前截词,后截词,前后截词和中间截词;按截断字符数的不同,可分为有限截断和无限截断.右截词,又称后截词,前方一致.允许检索词尾有若干变化.例如comput*将检索出computer,computing,computerised,computerized,computerization等结果.中间截词,又称前后方一致.允许检索词中间有若干变化.例如wom*n,检索到woman,women的结果.英美的不同拼法,defen*e可同时检出defence和defense的结果.左截词,又称前截词,后方一致,允许检索词前有若干变化,例如*physics就可检索到physics,astrophysics,biophysics,chemophysics,geophysics等词的结果.前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式.如computer可检索computer,computers,computerize,computerized,computerization,minicomputer,minicomputers,microcomputer,microcomputers等结果.请注意在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用,有的用*,有的用#,用的用$等.即便常用的和*在不同的数据库中其用法也是不一定相同的.在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见.我们将要使用的一些数据库,一般用*代表一个字符串,用代表任意一个字符.邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置.例如检索生物防治的文献,若用检索式biological*control检索,则会将抑制生物(controlbiological)的文献也查出来,这显然不是所需文献.主要有相邻位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).3邻近检索技术(W)算符(W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号.如biological(W)control相当于检索biologicalcontrolCD(W)ROM相当于检索CDROM或CD-ROM.(nW)算符(nW)是nwords的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变.如wear(1W)material相当于检索wearmaterials,wearofmaterials等.(N)算符(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号.information(N)retrieval可检出:informationretrievalretrievalinformation(nN)算符(nN)表示两词间可插入最多n个词,词序可变.如检索式environment(2N)protection就可检索出包含environmentprotection,environmentoftheprotection,environmentofwaterprotection,protectionofforestenvironment(S),(F)算符(S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限.(F)算符:在联机检索中还有对同字段进行检索的(F)算符.(F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限.用此算符时须指定所要查找的字段,如题名字段,文摘字段,叙词字段等.例如digital(F)computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息.字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找.3字段检索技术数据库中的字段包括TI(题名),AB(摘要),DE(主题词),ID(标识词),SU(主题词),KW(关键词)AU(著者),BN(国际标准书号),SN(国际标准刊号),CC(分类类目),CS(机构),DT(文献类型)或PT(出版物类型),JN(刊名)或JA(刊号),LA(语种),PY(出版年),SO(来源出版物)注意:不同的数据库其字段代码可能不同.举例在EBSCO数据库检索中,某一用户需检索有关数字图书馆与信息检索,参考咨询方面的文献信息,检索要求:题名或文摘中包含数字图书馆digitallibrary,数字图书馆要求考虑单复数,主题为信息检索informationretrieval或参考咨询reference,请编制其检索策略(检索式).(ti:digitallibrar*orab:digitallibrar*)andsu:(referenceorinformationn2retrieval)第二节:信息检索方法信息需求分析选择信息资源选定检索词构造检索表达式确定检索途径对检索策略进行调整实施并输出检索结果1信息需求分析分析信息检索目的,制定检索目标.分析所需信息涉及的学科,确定检索的学科范围.分析所需信息的类型,年代,确定检索的信息类型和年代范围.2选择信息资源(数据库的选择)数据库的类型学科范围时间范围3选定检索词分析主题,找出课题所包含的显性概念和隐含概念.找出核心概念,排除无关概念和重复概念.从待检数据库和检索工具的词表中选取规范化的词或词组.选用上位词,近义词或下位词作为检索词.4构造检索表达式分析检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式.找出在编制检索提问式时,准确,合理地运用位置逻辑算符,截词符,字段符等技术是编制检索式的基本要求.5确定检索途径第一类是表示主题概念的检索词---主题词,包括标题词,单元词,叙词,关键词.第二类是表示学科分类的检索词,如分类号.第三类是表示作者的检索词,如作者姓名,机构名称等.第四类是表示特殊意义的检索词,如专利号,国际标准书号,分子式等举例一个研究生在做论文题:数字图书馆中的元数据体系与互操作研究,这是一个计算机科学,信息科学方面的课题,请你帮助他在维普数据库中找到最新的参考文献.第三节:搜索引擎SearchEngine搜索引擎利用情况搜索引擎的概念和作用搜索引擎的工作原理搜索引擎的分类搜索引擎的一般检索技术搜索引擎利用技巧主要搜索引擎目录搜索引擎的应用现状从用户使用的角度,国外的调查发现:网上搜索信息的人很少考虑如何找到他们所需要的信息,因此搜索信息时象动物猎食般盲目;只有18%的用户表示总能在网上搜索到需要的信息.68%的用户说他们对搜索引擎很失望;平均每个搜搜者在12分钟的徒劳搜索后就感到恼火和受挫.46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎.国外的应用状况那些每周平均花5个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上;人机界面高手nielsen(google的设计者)研究表明:略超过1/2的互联网用户属于search-dominant,约1/5用户属于link-dominant,其它用户的搜索倾向属于混合行为型.search-dominant在到达一个网站后直接就奔向搜索按钮,他们对浏览网站不感兴趣,他们有明确的目的,倾向于以最快速度找到信息.相反,link-dominant喜欢点击浏览一个网站,即使他们想找特殊信息时也是这样,只有在他们用点击超链的方法已经实在找不到了,才会想起搜索按钮.国内的应用状况国内的调查发现:cnnic2004年1月的调查:61.6%的中国互联网用户经常使用搜索引擎(仅次于E-mail).83.4%的中国互联网用户得知新网站的主要途径是搜索引擎.赛迪咨询的搜索引擎调查:截止2000年8月,92.9%的网民使用过搜索引擎,同时有六成左右的网民将搜索引擎列为经常使用的网络服务.新浪搜索的统计表明:第1条搜索结果获得的点击量,是第2页第1条的150倍.百度公司:百度2001年中国互联网用户搜索热点统计搜索引擎是一个用来搜索世界各地Internet网络资源的WEB服务器.它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面.搜索引擎提供的导航服务(搜索引擎就是网络的指南针)已经成为互联网上非常重要的网络服务,成为和电子邮件并列的最重要的互联网应用.搜索引擎的概念和作用(1)信息搜集(2)信息索引(3)信息查询(4)检索结果的相关性处理搜索引擎的工作原理(1)信息搜集各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的网页搜索软件,在互联网中漫游,发现和搜集信息.访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,要尽可能多,尽可能快地搜集各种类型的新信息.因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接.(2)信息索引将网页搜索软件带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容.有的搜索引擎把网页搜索软件发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址,篇名,特点的段落和重要的词.(3)信息查询根据用户的查询需求在索引库中快速检出相关网页,并反馈检索结果.一般包括分类目录及关键词两种信息查询方式.(4)检索结果排序概率法是根据关键词在文中出现的频率来判定的,出现的次数越多,认定其与查询的相关程度越高;位置法是根据关键词在文中出现的位置来判定,位置越靠前,文件的相关程度越高;分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中.(1)关键词搜索引擎(2)主题分类搜索引擎(3)综合
本文标题:信息检索技术方法及搜索引擎
链接地址:https://www.777doc.com/doc-46085 .html