您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 基于搜索引擎的信息检索
LOGO基于搜索引擎的信息检索——中南财经政法大学图书馆文献资源建设部杨小玲电话:88387115Page2统一资源定位符UniformResourceLocator,简称URL,是系统使用的一种特殊地址。每一个文件无论它以何种方式存在何种服务器上,都有一个唯一的URL地址,该地址不仅指明信息资源所在目录和文件名,还指明信息文件存在于网络的哪个节点的计算机上,以及可以访问的方式等。只要用户正确地给出了一个文件的URL地址,客户机上去。URL可以看成是一个文件在Internet上的标准通用地址。Page3URL的一般格式通信协议://主机/路径/文件名通信协议:指提供文件的服务器所使用的通信协议。如HTTP:超文本传输协议,Gopher:Gopher协议,FTP:文件传输协议,Mailto:电子邮件地址等;主机:指上述服务器所在主机的IP地址;主机名由多级域名组成,域名是从右到左理解的。路径:该文件在上述主机的路径;文件名:该文件的名称。图书馆·中南财经政法大学·教育机构·中国。Page4搜索引擎搜索引擎又称检索工具,上的一种信息检索软件。工作原理与传统的信息检索系统类似,都是对信息集合和用户信息需求集合的匹配和选择。输入检索词以及各检索词之间的逻辑关系,获得检索结果(在Internet上是一系列节点地址)并输出。搜索引擎实际上是Internet的服务站点,有免费为公众提供服务的,也有进行收费服务的。不同的检索服务可能会有不同界面,不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。这个索引库是向用户提供检索结果的依据,其中收集了Internet上数百万甚至数千万主页信息,包括该主页的主题、地址,包含于其中的被链接文档主题,以及每个文档中出现的单词的频率、位置等。Page5搜索引擎的工作原理搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。Spider或Robot是一种软件,它沿着文件的链接在网上漫游,记录URL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和URL、文件的大小、语种以及词出现的频率。Page6搜索引擎的种类检索型搜索引擎:比较著名的有:AltaVista、Google、天网、百度、悠游等。目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系。雅虎就是以卓越的分类目录型导航服务而称誉全球。混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。多元搜索引擎:也称为集合型搜索引擎。将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。如万维搜索()等。以GOOGLE为例来进行说明Page7网络搜索引擎检索技巧逻辑操作ANDORNOT搜索短语和句子site:搜索结果限于特定网站Link:检索链接某网址的网页Inurl:网络链接与网页关键词Allinurl:网络链接字符串检索Filetype:文件类型检索与文件中关键词define定义检索相似网站检索……Page8逻辑检索与=AND,空格同时有或=OR都有,或有你,或有我AORB非=“–”排除,注意减号前空一格综合:“A+B-C”不分大小写,所有字母示为小写的、of会被忽略,如要查用“”Page9短语与句子检索Page10site:检索限于某网站Site:表示检索结果局限于某个具体的网站或者网站频道示例:检索包含“鲁迅”的中文新浪网站页面检索:鲁迅site:sina.com.cn说明:site后面的冒号为英文字符,而且冒号后面不能空格,否则“site:”将被一个检索关键词;另外,网站的域名不能有http或者找其他大学网站中有关我校领导例子:1、刘可风site:znufe.edu.cn冒号后不空2680结果,508类似条目,url全为以上网站冒号后空2620结果,19类似条目,url含其他网站刘可风site:whu.edu.cn刘可风site:pku.edu.cn注意:冒号后不能有空格。有空格,后如关键词。不空格则网页url再试试加site与不加site的结果,不加site两部分如关键词杨志光site:znufe.edu.cn杨志光znufe.edu.cnPage12Link:检索链接某网址的网页Link:返回所有链接到某个URL地址的网页示例:所有含指向新浪网“”链接的网址检索:link:说明:link不能与其他语法相混合操作,所以,后面即使有空格也被GOOGLE忽略。如:link:文件类型检索Filetype是实用功能强大的搜索语法,就是说,除一般文字页面外,还可以搜索二进制文档:可检索微软的office文档,xls.ppt.doc.rtf可检索wordperfect文档,Lotus1-2-3文档可检索adobe的pdf文档可检索ShochWave的swf文档(Flash动画)示例:检索一些关于搜索引擎检索知识和技巧方面的PDF文档检索:“serchengine”tipsORtutorialfiletype:pdfPage14检索PPTPage15检索DOSPage16检索FLASHPage17Inurl/allinurl:检索限制在urlinurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。inurl语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料示例:检索用Flash做的关于幼儿英语课件检索:inurl:flash幼儿英语课件Page18网页链接中包含第一个关键词Page19Inurl/allinurl:检索限制在urlallinurl语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。Page20Intitle/allintitle:检索限制在标题intitle和allintitle的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。PS:Intext/allintext:检索限制在正文(类似)Page21define:定义检索检索式1:define概念相当于检索2个关键词。如有定义,也是知识库中的定义,非网络定义检索式2:define:概念相当于网络定义二者都可用,比如晕轮效应,用第二种方法,检索不出,网络上无定义。但第一种方法,可检索出,在网络上的知识单元数据库中可查出Page22Page23related:相似网站检索related:结果:中国的大学网站,相关度:地域、专业等related:搜索结果商业网站related:地域、大学、知名度、专业、国家等related:除皇家音乐学院,有地区音乐资讯、城市等related:搜索全部为中国政府类网站related:美国政府网站Related:域名常识.com(商业机构);.com.cn(国内商业机构);.co.uk(英国、日本商业机构).net.cn(国内互联网机构);.org(非赢利性组织);.org.cn(国内非赢利性组织);.gov(国家政府机构).intInternationalorganizations,国际组织.mil:Military(U.S),美国军部.net(从事互联网服务的机构);.name.个人网站.edu.教研机构.ac.科研机构,英美的教研机构/大学.Page25与牛津大学相关的名校Page26混合使用各种检索技巧缩小检索范围:intitlesite如:intitle:自动化site:edu.cn检索特定类型的信息:inurl如:inurl:mp3红玫瑰检索特定网站、特定文献类型中的特定内容(示例)不混合使用多种检索技巧的情况:不混合使用有抵消的检索:如:知识管理site:edu.cn–inurl:edu不重复使用同一语法结构:如:知识管理site:comsite:cn但是这种状况可行:知识管理(site:com|site:cn)不要一次性使用过多的限制,应逐级加深Page27检索特定网站、特定文献类型中的特定内容Page28GOOGLE学术搜索-实例Page29谢谢!愿梦想从这里起飞!
本文标题:基于搜索引擎的信息检索
链接地址:https://www.777doc.com/doc-4334197 .html