您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 市场营销 > 3google工作原理
Google搜索引擎原理简介Google搜索引擎的主要工作过程大体上分为三个阶段:(1)爬行和抓取:(2)预处理:(3)排名:第一阶段(爬行和抓取)知识要点:a.GoogleBotb.跟踪链接c.吸引蜘蛛e.地址库f.文件储存g.复制内容检测GoogleBot——传说中的“蜘蛛侠”“蜘蛛”被称为(spider),也称为机器人(bot)。是搜索引擎用来爬行和抓取网页的一种程序。蜘蛛访问网站时,根据搜索引擎的爬行规则,对网站发出访问请求,网站的服务器就会返回HTML代码给蜘蛛,蜘蛛程序把收到的代码存入原始页面数据库。注意:搜索引擎爬行网站时不止只有一个蜘蛛,为了提高爬行和抓取的速度,通常会有N个蜘蛛同时展开行动。引发思考:问题1.蜘蛛主要通过什么进入到网站爬行?答:蜘蛛通过“导入链接”进入网站,导入链接越多蜘蛛进入网站的机会就越多。(联想:入口越多,你进房子的选择方式就越多。)问题2.蜘蛛为什么要爬行网站?答:因为蜘蛛要收集信息,搜索引擎信息不全,就无法提供搜索服务。问题3.是不是所有信息都会被蜘蛛吞进“肚子”里呢?答:不是,蜘蛛只会把最新、最原创、最有价值的信息吞进肚子里。(蜘蛛会厌食哦!)总结:蜘蛛爬行网页并抓取网页数据,最终目的是为了将最新的网页数据“收录”到数据库中备份。(数据库会反复更新)。蜘蛛与robots.txt文件robots.txt是搜索引擎蜘蛛访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看,或不能被查看。当搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,蜘蛛程序就会遵守协议,按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的蜘蛛程序将能够访问网站上所有没有被robts.txt屏蔽的页面。要点提示:1.蜘蛛最先访问robts.txt文件。(要进门,先敲门)2.robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。3.robots.txt文件使用基本规则:·User-Agent:定义访问程序类型Disallow:要拦截的网页Allow:定义允许搜索引擎收录的网址robots.txt文件与SEOrobots.txt在SEO中作用:通过robts.txt禁止搜索引擎蜘蛛访问网站内部不想被访问的文件或页面。也就是说使用robts.txt可以限制一个范围不让搜素引擎蜘蛛爬行或访问。从而达到集中网站权重的目的。有效避免页面权重分散。思考:问题:网站内部哪些页面是可以被robts.txt文件禁止的?1.服务2.注册3.购物4.条款5.广告……总结:将所有非SEO页面,禁止搜索引擎收录。SEO与搜索引擎的将建立初步友好关系。直接有效地减轻了搜索引擎蜘蛛爬行网站时的工作压力。让蜘蛛的爬行过程更加有目的性,有针对性。扩展补充:SEO基本原则:1.与搜索引擎最大程度友好化。2.与用户最大程度友好化。跟踪链接—蜘蛛什么怎么爬行的•让我们一起跟着蜘蛛去爬一下网站吧!•思考:为什么爬?怎么爬?•为什么爬?•蜘蛛为了抓取更多的网站页面,就会跟踪网页上的链接。•怎么爬?•蜘蛛从任何一个页面出发,顺着一个链接就可以爬行到网站上的任何一个页面。•由于网站跟页面链接结构异常复杂,致使蜘蛛需要采取一定的爬行策略才能遍历网站上的所有页面爬行策略:深度优先、广度优先备注:无论是“深度优先”或是“广度优先”,对于我们SEO来说都没有太大的影响。蜘蛛的爬行规则,是我们无法控制或干预的。思考:如何才能吸引蜘蛛爬行你的网站?要点提示:a.蜘蛛并不是会爬行所有的网页b.蜘蛛只会爬行它认为比较重要的页面引发思考:那么究竟哪些页面被蜘蛛认为比较重要呢?1.网站各级页面URL:静态化。2.高权重页面(质量内容、关键词频率,关键词位置)3.网页更新(保持更新、更新规律、内容相关、原创强)4.导入链接(相关性、权重高、数量多—dofollow)5.与首页点击距离(越近,权重页面越高)……Google“蜘蛛”——地址库•由于蜘蛛会对已经爬行过的网页进行回访,所以为了避免重复收录相同的网页数据,搜索引擎会建立一个地址库。用来记录已经被搜索引擎抓取的网页及未被抓取的网页。•所以“地址库”分为两个部分:待访问地址库和已访问地址库。•Google网站管理员工具中有一个提交网站URL的功能。这个功能就是用来让网站管理员主动向蜘蛛发出爬行请求的。像Google一样提交至索引(待访问地址库)思考:是不是站长只要把网站所有的网址都提交上去就能确保蜘蛛爬行所有页面呢?答:提交似乎并不能起到什么作用,因为搜索引擎更喜欢自己沿着链接发现新页面。文件储存•文件存储是搜索引擎的一个技术关键所在,同时也是面临的一个挑战。•当GoogleBot爬行和抓取完成后,会把这些数据存入原始页面数据库。在这个数据库里存放的数据和用户在浏览器中看到的页面是完全一样的。•但是数据库中的每个URL都会有一个独特的编号。Google对网站重复内容的检测•Google对网站的数据内容,会进行检测。这种检测是指搜索引擎会自动辨别网站数据中的内容是否“原创”。对非原创的,抄袭或转载的内容进行删选。如果网站的内容,都不是SEO自己重新编辑,撰写,而是直接复制竞争对手的网站的话。那么蜘蛛将很可能中途放弃爬行或不再对网站进行返回爬行。这也就是为什么很多网站无法被搜索引擎收录的原因。第二阶段(预处理):知识要点1)提取文字2)分词技术3)去停词4)消除噪声5)去重6)正向索引7)倒排索引8)链接关系计算9)特殊文件处理预处理•搜索引擎抓去原始页面,并不能直接用于查询排名处理。因为Google搜索引擎数据库中的页面数有“数万亿”级别以上,当我们输入关键词后,如果单靠Google的排名计算程序要对这么多页面实施分析和计算,工作量实属太大。Google将不可能在一两秒中返回排名结果。因此抓取来的页面必须经过预处理,也就是编入索引,为最后的查询排名做好准备。备注:我们在搜索时是感受不到预处理的感觉的。思考:Google是怎么预处理网站数据的呢?提取文字•搜索引擎抓取网页主要是提取文字内容。•图片,flash文件的属性标签都要以文字形式表达给搜索引擎。所以我们的页面内容要以文字为主,大量的flash或许很好看,但是,搜索引擎读不懂。导致网页无法被搜索引擎收录,是得不偿失的做法。我们优化网站的首要目的是被搜索引擎收录。网页没有被收录,那么网页想要获得排名对于我们来说就是浮云。分词处理技术谷歌的分词很细碎例如:cheapuggbootsonlinestore可以分成:CheapuggUggbootsBootsonlinestoreUggbootsonlinestore……为了不让Google把我们原先想要表达的关键词意思给拆分,我们在做站内优化内容的时候,需要适当地提醒搜索引擎蜘蛛,比如在cheapuggbootsonlinestore前后分别加strong/strong提醒Google这是一个关键词。去停止词•所谓去停词就是指去掉在页面中出现的频率很高,对网页的内容没有任何影响的词。•例如:”the,a,en,for,of”等。•Goolge为了使被索引的页面主题更加的突出,会在索引页面之前去掉这些词。减少无谓的计算量。•所以我们在平时撰写页面内容的时,要尽量避免使用这些词。消除噪声一个网站绝大部分的网页上还有一部分内容对页面本身的主题是没有什么贡献的。比如:版权说明文字,导航条,广告等。但是这些关键词与页面本身是毫不相关的,那么当用户在搜索这些词的时候,这些词将被列为网页噪声的处理范畴。搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消除噪声的基本方法是根据HTML标签对页面分块,区分页眉、页脚、导航、正文、广告等区域,在页面中大量出现区块往往属于噪声。搜索引擎对页面进行消噪,剩下的才是页面主体内容。去重由于同一篇内容经常会出现在不同网站或同一个网站的不同网页中。搜索引擎不喜欢这种重复性的内容。当用户在搜索时,如果在前两页看到的都是来自不同网站的同一篇内容,那么用户体验度就非常差,虽然内容都是相关的。但是搜索引擎希望只返回相同内容的其中一篇。所以在进行排名计算的过程中,还需要识别和删除重复的内容。这个计算过程就叫做“去重”。了解了搜索引擎的去重算法,SEO人员就应该知道简单地增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。正向索引搜索引擎经过前面几个步骤的计算后,按照分词程序划分好的词,把页面转换为一个关键词组合的集合,同时记录每个关键词在页面中出现的频率,次数,格式,位置(如出现在标题标签,黑体,H标签,锚文字等)这样以来,每个页面都可以记录为一串关键词的集合,其中每个词频、格式、位置等权重信息都记录在案。简化的正向索引表结构图•每个文件对应一个文件的ID,文件内容被表示成一串关键词的集合体,实际上在搜索引擎库中,关键词也已经转换为关键词ID。这样的数据结构就成为正向索引。倒排索引正向索引直接用于排名,假设用户搜索“关键词2”,如果只存在正向索引,那么排名程序需要扫描所有索引库中的文件,找出包含“关键词2”的所有文件,再进行一系列相关的计算。这个计算量是无法满足事实返回排名结果的要求的。所以搜索引擎会将正向索引得到的数据重新构造成倒排索引。把文件对应到关键词转换为关键词对应到文件的映射。简化的倒排索引表结构图如图所示:倒排索引中关键词是主体,每个关键词对应一系列文件,这些文件中都出现这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词就可以马上找出所有包含这个关键词的文件。链接关系计算•链接关系计算是搜索引擎排名处理中非常重要的一个部分,现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓去页面后,必须提前计算出;页面上有哪些页面指向其他页面,每个页面有哪些导入链接。导入链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。•GooglePR值就是这种链接关系的主要体现之一。其他搜索引擎也都进行着类似计算。•由于页面和链接数量巨大,网上的链接关系又时时处在更新状态中,因此链接关系以及PR计算要耗费很长的时间。特殊文件处理•除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型。•如:PDF,Word,WPS,XLS,PPT,TXT,等。我们在搜索结果中也有可能看到这类文件。但是目前搜索引擎还无法处理,图片,视频,Flash这类非文字内容。第三阶段(排名):知识要点•1)排名过滤及调整•2)排名显示•3)搜索缓存排名过滤及调整•选出匹配文件子集、计算相关性后,大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。•提示要点:搜索引擎会反复地对一个网站进行回访并找出网站存在的缺点或验证网站是否违反当前排名算法的原理。从而对网站整体的排名进行微调,或大幅度调整。•所以SEO人员要记住,打江山容易,守江山难。排名显示•所有排名确定后,排名程序调用原始页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。•备注:当站长没有设置描述标签或在描述标签中没有符合与被搜索条件相关的关键词。那么搜索引擎将自动在对应的页面中抓取与被搜索条件最相关的信息。作为显示在排名中的一个描述。搜索缓存用户搜索的关键词有很大一部分是重复的。按照2/8定律,20%的搜索词占到了总搜索次数的80%。按照长尾理论,最常见的搜索词没有占到80%那么多,但通常也有一个比较粗大的头部,很少一部分搜索词占到了所有搜索次数的很
本文标题:3google工作原理
链接地址:https://www.777doc.com/doc-3371083 .html