您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 搜索引擎基本工作原理
搜索引擎基本原理一.全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。二.目录索引与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用OpenDirectory目录提供分类查询。而象Yahoo!这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。搜索大法——浅谈搜索引擎一、什么叫搜索引擎?在Internet上有上百亿可用的公共Web页面,即使是最狂热的冲浪者也不会访问到所有的页面,而只能看到其中的一小部分,更不会在这浩瀚的Web海洋中发现你那即使精彩却渺小的一隅。当然你可以为你的存在做广告,可以用大大的字把你的URL刻在你的身体上,然后裸体穿过白宫草坪,但你得保证媒体正好在那里,并注视到了这一切。与其这样做,不如好好去理解搜索引擎是如何工作的?又怎样选择和使用keywords(关键词)等等。本文的目的就是让众多的页面设计者在了解搜索引擎的基础上,寻求如何使自己的页面在搜索引擎索返回的列表中获得好的排列层次的方法。搜索引擎这个术语一般统指真正意义上的搜索引擎(也就是全文检索搜索引擎)和目录(即目录式分类搜索引擎),其实他们是不一样的,其区别主要在于返回的搜索结果列表是如何编排的。1、目录目录(比如Yahoo!)返回的列表是由人工来编排的。这类引擎提供了一份人工按类别编排的网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,再记录一些摘要信息,对该网站进行概述性介绍(摘要可能是你提交过去的,也可以是引擎站点的编辑为你的站点所做的评价)。人们搜索时就按相应类别的目录查询下去。这类引擎往往还伴有网站查询功能,也称之为网站检索,即提供一个文字输入框和一个按钮。我们可以在文字框中输入要查找的字、词或短语,再点击按钮,便会在目录中查找相关的站名、网址和内容提要,将查到的内容列表送过来。目前国内Sohoo、常青藤等都是这种搜索方式。2、搜索引擎搜索引擎看起来与目录的网站查询非常相似,也提供一个文字输入框和按钮,使用方法也相同,而且有些也提供分类目录,但两者却有本质上的区别。目录的资料库中,搜集保存的是各网站的站名、网址和内容提要;搜索引擎的资料库中,搜集保存的则是各网站的每一个网页的全部内容,范围要大得多。搜索引擎是以全文检索的方式工作的。全文检索查到的结果不是站名、网址和内容提要,而是与你输入的关键词相关的一个个网页的地址和一小段文字。在这段文字中,可能没有你输入的那个关键词,它只是某一网页的第一段话,甚至是一段无法看懂的标记,但在这个网页中,一定有你所输入的那个关键词,或者相关的词汇。打个比方说,网站查询可以查到网上有哪些报纸,如《文汇报》、《大公报》,而全文检索则可以查到网上这些报纸的每一篇文章中的词汇。3、两者相结合的搜索引擎某些搜索引擎同时也提供目录。包含在搜索引擎中的目录通常质量比较高,也能从那里找到许多好站点。因为即使你把你的站点提交过去,也并不能保证一定被加到目录中去,他们把注意力放在那些已经在别的目录中存在的站点上,并有选择地寻找有吸引力的加到自己的目录中。搜索引擎和目录各有各自不可替代的功用。目录比较简单,要想获得一个好的排列层次,除了你努力创建一个好内容的高品质站点外别无他法。搜索引擎复杂得多,它们随时都在自动地索引众多WEB站点的最新网页,所以常常会发现目录所不能得到的信息。如果你改动了你的页面,搜索引擎还随时会发现这个变化,并重新排列你在列表中的位置。而目录就做不到。下面专门讨论搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。二、搜索引擎是如何工作的?搜索引擎有三个主要的基本部分。1、搜索引擎蜘蛛搜索引擎首先利用的是一种俗称蜘蛛(Spider)或爬虫(Crawler)的软件。搜索引擎蜘蛛访问到一个页面,读取它,然后跟随这个页面链接到这个站点的其他页面,这就是人们所说的站点被套住了或者被爬过了。蜘蛛会按照固定的时间不断的回来访问这个站点,如每月或每两个月,以便查看页面的变化。2、索引蜘蛛所找到的每一个页面放入搜索引擎的第二部分--索引。索引也可以说是目录册,就像一本巨大的书,书中包含了蜘蛛所找到的每个Web页的拷贝。如果Web页改变了,这本书当然也会更新。但有时蜘蛛发现了新的Web页和Web页的变化,并不是马上加到索引中去,当中间隔一段时间,就是说一个Web页被爬过了,但却不能被索引,直到这个Web页被加到了索引里才可用于搜索引擎的搜索。3、分析软件搜索引擎分析软件是一个搜索引擎的第三部分。这个程序详细审查记录在索引中的成百上亿的Web页,找出与搜索要求相匹配的那些,并按他认为最合适的相关性排列出列表,呈现在冲浪者的面前。三、搜索引擎如何排列Web页面用你所喜欢的搜索引擎搜索任何东西,搜索引擎几乎立刻就从他知道的几百万的页面中挑选出与你的主题相匹配的那些,呈现在你的荧屏上。这些网页按一定的顺序排列起来,最相关的排在最前面。但搜索引擎并不是图书管理员,他没有能力一再地询问有关的问题来更好地定位搜索的目标,也不能依靠智力判断和过去的经验来排列网页,而人可以做到。智能化是发展的方向,但还有一段很长的路要走。那么搜索引擎是怎样决定相关性的呢?他们依靠一套规则,主要的规则是页面中关键词出现的位置和频率,我们把这称做位置/频率法。1、位置如果你到图书馆去寻找有关旅游方面的书,管理员首先会去查找题目中有旅游的书籍。搜索引擎也一样,关键词(即旅游)出现在题目(Title)中的页面比那些Title中不出现关键词的页面更相关。搜索引擎还会检查关键词是否出现在页面的顶部,如文章标题中或前面的几个段落。他们认为与搜索主题相关的页面在开始都会提到那些词语。2、频率频率是相关性的另外一个主要因素。搜索引擎会分析页面中关键词相对其他词语所出现的频率,频率越高,就越具相关性。3、搜索引擎在排列网页时有一定的差异所有的搜索引擎都有以上提到的三个基本部分,在一定程度上都符合“位置/频率法”,但在具体实施上又有区别,这就是为什么我们用不同的搜索引擎做同样的搜索时会产生不同结果的原因。首先,有些搜索引擎会索引到更多的Web页面,有些又会比其他引擎更新索引的频率快,所以搜索引擎索引中不可能收集完全一样的Web页面。其次,出于某种原因,有些搜索引擎也可能给某些Web页面在排列层次上有优先权。如Excite用链接的流行度作为排列网页的一个因素,他知道在索引中哪些页面有许多指向他们的链接,他在排列时就给这些页面小小的奖励,将他们适当提前。这也是合理的,因为在Internet上有越多指向他们的链接,就说明这些页面更被大家看重。另外,一些混合结构(搜索引擎和目录共存)的搜索引擎可能会把那些目录中已存在的站点的网页靠前,理由是一个站点足够好才能放到目录中,就应该有机会比那些不被列在目录中的站点的网页靠前。最后要强调的是,许多Web页面设计者错误地认为Metatags是将Web页提到列表前列的秘密,实际上有些搜索引擎会把那些Metatags中有keywords的页面靠前,有些搜索引擎根本就不读Metatags。Metatags是解决问题的一个方面,但并不是什么必需的绝密武器。四、如何提高Web页面的相关性搜索引擎的一次搜索会返回成百上千的相关网页,一般情况下首先呈现出来的是10个最相关的页面。任何站点都想被列在前10位,因为大多数的用户都喜欢从前10位中找到他所要的结果,排在第11位以下就意味着许多人不会访问到你的站点。下面就来看看如何能使你的网页排在列表前列。1、选择合适的关键词(Keywords)大胆地设想别人在搜索引擎的搜索框内正好输入的是你页面的Title中选择的关键词,那该多好啊!例如,如果你有一个有关邮票收藏的网页,如果你想别人任何时候在搜索框里输入邮票收藏时你能排在前10位,那么就为这个页面选择邮票收藏这个关键词吧!网站的每一个页面都应该有反映网页内容的关键词,并且关键词至少由2个以上的字或词组成。通常与单个的字或词相关的网站太多太多,例如邮票就比邮票收藏所相关的网页多得多,那么竞争就激烈,网页排在前列的概率就相对低一些。所以不要怕花费时间,尽量选择2个以上的字或词组成的短语,成功的可能性会大得多。最后,假设适当地扩展文章的涉及范围,多选几个关键词又会怎么样呢?例如,一个邮票收藏的网页可能会提到收藏家和收藏,那么扩展开来,用邮票收藏家和邮票收藏增加关键词的数量也是合理的。可不是没有问题,因为你的网页实际上是关于邮票收藏的精典网页,应该出现在邮票收藏一类网页的前列,但你在关键词上扩展了页面的涉及范围,可能就会无意识地降低页面对于邮票收藏的相关性。如何决定更好,看你的想法了!2、关键词(Keywords)出现的位置选择好关键词后还要确保关键词出现在至关重要的位置。首先页面的题目(Title)是最重要的地方,忽略将关键词放进页面的题目中是许多本身具备良好相关性的网页被排在底层的原因。其次像前面提到的,搜索引擎也看中关键词出现在页面前面的网页,所以有可能的话就把关键词作为大标题,并使得关键词出现在网页的第一段。特别注意的是使用表格会把网页的正文推到网页的更下面,就会造成相关性的降低。例如,画一个有两列的表格,第一列放的是对其他网页的链接,第二列才是含有关键词的正文。浏览看到的网页是这样的:主页邮票收藏邮票历史邮票收藏爱好者遍布世界各地。每天都有
本文标题:搜索引擎基本工作原理
链接地址:https://www.777doc.com/doc-4874565 .html