您好,欢迎访问三七文档
简单地说,所谓搜索引擎,就是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。它能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址。1、什么是搜索引擎?它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可称为Internet上具有检索功能的网页。2、搜索引擎的工作原理搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。Spider或Robot是一种软件,它沿着文件的链接在网上漫游,记录URL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和URL、文件的大小、语种以及词出现的频率。Internet网页自动分类子系统网页搜集子系统信息检索子系统资源索引数据库管理子系统搜索界面通用搜索引擎系统结构3、搜索引擎的主要任务(1)信息搜集。各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的“网页搜索软件”,在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新。(2)信息处理。将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。故有的搜索引擎数据库很大,而有的则较小。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。(3)信息查询。每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息。关键词查询是利用建立的网络资源索引数据库向网上用户提供查询“引擎”。用户只要把想要查找的关键词或短语输入查询框中,并按“Search”按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。4、搜索引擎的种类检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球。混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。按照工作方式的不同可分为并行处理式和串行处理式两大类。著名的有:Dogpile、Mamma和万维搜索(Http:///)等。5、搜索引擎的一般查询规则利用搜索引擎既可以检索出Internet上的文献信息,还可以查找到公司和个人的信息;既可以通过输入单词、词组或短语进行检索,还可以使用逻辑算符及位置算符等对多个词进行组合检索;既可以以词语查询有关主题的页面信息,也可以以特定的域名、主机名、URL等查找有关的网站信息。搜索引擎是基于一些基本的查询规则来实现这些查询条件的,但各个搜索引擎所采用的查询规则又不尽相同。下面介绍的是常用的一般查询规则。1.布尔逻辑算符(1)逻辑“与”逻辑“与”一般用“AND”表示,有的搜索引擎还可以用“&”表示。使用逻辑“与”是为了要求检索结果的Web页面中同时出现所有输入的检索词,提高查准率。(2)逻辑“或”逻辑“或”一般用“OR”表示,有的搜索引擎还可以用“|”表示。使用逻辑“或”是为了允许检索结果的Web页面中出现输入检索词的任何一个,提高查全率。(3)逻辑“非”逻辑“非”一般用“NOT”表示,有的搜索引擎还可用“!”表示。使用逻辑“非”是为了要求检索结果的Web页面中出现NOT前的检索词,但排除含有NOT后的检索词的页面信息,以缩小检索范围。2.连接符连接符有加号(+)和减号(-)。(1)在检索词前使用“+”时,表示所有检索结果的页面中都必须包含该词。例如:检索式“+A+B”,表示查得的页面中应出现“A”和“B”方面的信息;而检索式“A+B”,则表示在检索结果页面中一定含有“B”,但不一定有“A”的信息。(2)检索词前使用“-”时,表示任何检索结果的页面中都不能包含该词。例如:检索式“microwave-ceramic”,则表示查找关于microwave的页面,但排除那些和ceramic有关的页面。3.截词符截词符一般用星号(*)表示。当“*”置于一个词的未尾时,表示将相同词干的词全部检索出来。例如;检索式“compu*”,则表示可以检索到computer、computing、compulsion等词。有一些搜索引擎支持自动截词,用户不需要专门输入截词符,系统自动将相同词干的词全部找出来。注意:“*”不能用在检索词的开始和中间。4.邻近符邻近符(NEAR)用于检索在一定区域范围内同时出现的检索词的文献,它指定了检索词之间的距离。用NEAR/n(n为1,2,3…)精确控制检索词之间的距离,表示检索词的间距最大不超过n个单词。例如:检索式“Computernear/10Network”,可查找出computer和Network两词之间插入不大于10个单词的文献,检索结果输出时,间隔越小的排列位置越靠前。5.空格、逗号、括号、引号的作用(1)空格空格的作用与逻辑“与”(AND)相同。例如:检索式“aircraftengine”,表示可查出含有“aircraft”及“engine”的页面。在汉字作为关键词输入时,切记不要在构成关键词的两个字之间插入空格,否则,就会发生两个字之间进行逻辑“与”的检索错误。例如:用户要查找“飞机”这个关键词,但却输入了“飞机”,由于“飞”和“机”两字之间插入了空格,而被处理为“与”的关系,查出所有同时含有“飞”和“机”两个字的页面。这个检索结果的范围要比“飞机”作关键词的结果扩大了很多,许多结果中已不含有与“飞机”相关的信息。(2)逗号逗号(,)的作用类似于逻辑“或”(OR),也是查找那些至少含有一个指定关键词的页面,区别是,检索结果输出时,包含指定关键词越多的页面,其排列的位置越靠前。例如,检索式“计算机,网络,多媒体”,可查出包含三个关键词中的任何一个或几个的页面,而同时含有“计算机”、“网络”和“多媒体”的页面输出时排在前面。(3)括号括号“()”的作用是使括在其中的运算符优先执行,用于改变复杂检索式中固有逻辑运算符优先级的次序。例如,检索式“多媒体and(计算机or网络)”,表示要求先执行括号中的“OR”运算,再执行括号外的“AND”运算。(4)引号引号(“”)的作用是,括在其中的多个词被当作一个短语来检索。绝大部分主要搜索引擎都支持短语检索,找到含有与短语词序和意义完全相同的页面。例如,检索式“electronicmagazine”,表示把electronicmagazine当作一个短语来搜索。如果不加引号,搜索引擎就会把两词之间的空格按“与”处理,查出包含electronic和magazine的页面,结果应与用户要求的主题内容相去甚远。6、国外综合型检索工具目前有记录可查的国外的搜索引擎数量已达到2500个,其中有不少优秀的综合型搜索引擎,如:Google、Yahoo!、AltaVista、Excite、Infoseek、Lycos、HotBot、OpenText等。访问AltaVista()的次数超过1亿次。HotBot()是美国享有盛誉的综合型、混合型搜索引擎。7、著名综合型检索工具Google(1)、概述Google是从第一代搜索引擎中脱颖而出的第二代搜索引擎的代表。1998年,两位斯坦福大学的博士生LarryPage和SergeyBrin创立了Google,它的使命就是要为用户提供网上最好的查询服务,促进全球信息的交流。Google开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对40多亿网页进行整理,可为世界各地的用户提供适合需要的搜索结果,而且搜索时间通常不到半秒。现在Google每天需要提供1.5亿次查询服务。(2)、特点:支持多达132种语言;提供40多亿个搜索网页,涵盖内容齐全;搜索速度快;结果命中率高;搜索结果摘录查询网页的部分具体内容,而不仅是网站简介;智能化的“手气不错”功能,提供可能最符合要求的网页;“网页快照”功能,能从Google服务器里直接取出缓存的网页。(3)、检索功能基本检索:逻辑“与”:检索框中的两个关键词之间用空格隔开则默认为是“AND”(“与”运算)连接。逻辑“非”:用“—”(减号)表示,同时要求在减号前保留一个空格。逻辑“或”:用“OR”表示。双引号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词。逻辑与“”中间是空格逻辑非“”中间是空格,第二个词前有“-”号连接逻辑或“”中间是连接符“OR”连接两个关键词字段限定检索site:限定在某个特定的域或站点中进行检索。命令格式:检索词site:域名示例:要搜索北京大学山鹰社的信息。检索式:山鹰社site:pku.edu.cninurl:表示限定搜索结果,网页的URL必须包含所规定的字符串。命令格式:inurl:限定的字符串检索词示例:搜索电子商务的专题资料。许多中文网站都以“dzsw”作为电子商务专题目录或频道名称。检索式:inurl:dzswfiletype:用来限定命中文件的类型。命令格式:filetype:文件类型检索词试析检索式:filetype:ppt信息检索指定网域查询(4)、使用时应注意的问题:不区分英文字母的大小写,所有字母均作小写对待。例如:输入“georgewashington”(乔治·华盛顿),或是“GeorgeWashington”,再或是“gEoRgEwAsHiNgToN”,结果都是一样的。通配符问题。Google对通配符的支持有限,只能用“*”代替单个字符,而且必须将检索词用引号引起来,如“以*治国”。忽略的字符与强制检索。Google对一些出现频率极高的英文单词,如“i”、“com”、“”等,以及一些符号如“*”、“.”等,作忽略处理。如果必须进行强制检索,在这些字符前后用“+”,如“+的历史”,或用英文的引号。强制搜索强制搜索输入格式(5)、检索方法(1)分类检索在Google中选择“网页目录”(Directory),即可进入Google分类目录检索界面点击“网页目录”分类检索(2)关键词检索Google关键词检索分为基本检索和高级检索1、输入检索词2、点按“搜索”即可基本检索界面高级检索界面输入检索词限制区域高级检索功能:可排除某个特定站点的网页(限定网域)可对检索结果
本文标题:搜索引擎
链接地址:https://www.777doc.com/doc-3882466 .html