您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > SEO是什么与搜索引擎原理
SEO是什么与搜索引擎原理作者:罗义杰沈阳SEO、SEO的含义2、SEO常见方向3、Spider4、内容处理、中文分词和索引5、页面去重原理6、用户需求分析7、内容相关性计算8、连接分析9、用户体验判断10、有效索引和缓存机制11、反作弊和人工干预沈阳SEO、SEO的含义SEO原始定义搜索引擎优化,指为了提升网页在搜索引擎自然搜索结果中的收录数量及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现网站形象。SEO现实含义还需要对搜索流量在网站中整个行为(PV和转化)负责。沈阳SEO是忽悠还是技术,策略还是艺术?面试官问“你认为SEO是什么?”沈阳SEO、SEO常见方向原始方向发发外链,写写文章,堆堆关键词现实方向技术,产品,运营沈阳SEO、派出Spider,按照一定策略把网页抓回到搜索引擎服务器用户进行查询后,搜索引擎工作流程和机制2、对抓回的网页进行链接抽离、内容处理,消除噪声、提取该页面文本内容3、对网页的文本内容进行中文分词、去除停止词4、判断该页面内容与已索引网页是否重复,剔除重复页,对剩余网页进行倒排索引,然后等待用户检索1、对用户所查关键词进行分词,并根据用户地理位置和历史检索特征进行用户需求分析2、查找缓存中是否有该关键词的查询结果,如果有,搜索引擎会根据当下用户的各种信息判断其真正需求,对缓存中的结果进行微调或直接呈现给用户3、如果用户查询的关键词在缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果加入到缓存中4、网页排名是根据用户的搜索词和搜索需求,对索引库中的网页进行相关性、重要性(链接权重分析)和用户体验的高低进行分析所得出的沈阳SEO、SpiderSpider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名首先,Spider想要抓取网页,要发现网页抓取入口,所以要给Spider一些网页入口,然后顺着入口进行爬行抓取,这就涉及抓取策略问题其次,网页内容是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,这就涉及再次抓取和更新策略问题再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”并且这部分网页也是需要呈现给网民浏览的,这就涉及如何解决暗网问题最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider同时作业且抓取页面不重复,这就涉及分布抓取策略沈阳SEO有明显的抓取范围和目标,设置抓取时间限制、抓取数据量的限制,或抓取固定范围内页面的限制没有固定目标、范围和时间限制,会无休止地抓取下去直到把全网的数据抓完为止只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制的范围内进行增量型的抓取沈阳SEO的抓取方式深度优先策略广度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路Spider在一个页面上发现多个连接时,先把这些页面抓一遍,然后再抓这些页面中提取下来的链接其他策略重要页面优先抓取策略大站优先策略沈阳SEO再次抓取更新策略用户体验历史更新频率网页类型搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结果中用户可能看到的网页,继而进行优先再次抓取和更新。Spider的再次抓取就是为了发现已经被索引网页是否有变化,如果某个网页持续没有变化,搜索引擎就会降低对其抓取的频率不同的网页类型有不同的更新频率网页权重网页权重是决定抓取频率的重要因素沈阳SEO可以容易的分辨网页中是否有隐藏内容,是否被挂了黑链,但不能完全了解网页的图片,JS,Flash中的内容,普通用户却恰恰相反Spider对网站的抓取全部都是直接访问,而普通用户中除了直接访问的用户外一般都是有上级访问路径的Spider不支持Cookie,但普通用户的浏览器一般是支持的Spider不会主动注册登录网站,但是普通用户是可以的;Spider不会抓取网站Robots中屏蔽的内容,但是普通用户是可以访问的Spider对于有多个动态参数网站的抓取,可能会陷入死循环,但是普通用户不会Spider对于列表中前几页的新内容抓取可能不好,但是感兴趣的普通用户会依次浏览Spider暂时还不能真正判断文章是不是原创,但是普通用户可以通过多种方式来确定是原创还是转载沈阳SEO、内容处理、中文分词和索引4.1内容处理即搜索引擎对Spider抓取回来的页面进行处理步骤要判断该页面的类型提取页面的文本信息去除页面噪声去除内容的停止词沈阳SEO、基于词典匹配2、基于统计对大量文字样本进行分析,把相邻出现次数多的几个字当成一个词,可以解决搜索引擎词典更新问题,并消除歧义使用搜索引擎自己的词典对网页内容进行拆分正向最大匹配逆向最大匹配最小匹配匹配方式:沈阳SEO、页面去重原理搜索引擎不想呈现给用户的搜索结果都是相同的内容,在抓取这些重复的页面,在一定意义上就是对搜索引擎自身资源的浪费,因此去除重复内容的网页也成了搜索引擎所面临的一大问题。沈阳SEO、用户需求分析6.1搜索词分析当用户向搜索引擎提交查询后,搜索引擎首先判断用户所提交的搜索词的类型:是普通的文本搜索、普通文本带有高级指令的搜索,还是纯高级指令的搜索。6.2搜索意图分析当用户搜索一些比较宽泛的关键词时,只根据关键词本身,搜索引擎并不能知道用户确切需要什么,此时就会尝试性地分析用户的搜索意图沈阳SEO、内容相关性计算相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的问题,只是通过关键词分词匹配、关键词在内容中的频率密度、关键词字体位置和页面外链等表面特征来进行内容相关度的计算。沈阳SEO在索引库中进行检索,并提出所有包含词A或者词B的文件组成文件集合上L3.在文件集合L中把同时包含词A和词B的文件优化提出来组成文件集合M排在前面,把只包含词A或词B的文件排在后面4.继续对文件集合M进行分析,把完全包含用户搜索词的文档提出来组成文件集合N,并排在前面,把内容中没有完全匹配搜索词的文件排在后面5.在根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合N中的文件进行排序6.搜索引擎还会分析文件的外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度。外链的数量和质量来确定文件的重要程度,以进行排序调整沈阳SEO语义分析只根据关键词匹配和外部链接对网页的描述(锚文本),搜索引擎还不能真正理解网页的内容语义分析技术其实就是同各国对海量内容的分析找出词汇之间的关系,当两个词或一组词经常出现在同一个文档中时,就可以认为这些词之间是语义相关的沈阳SEO、连接分析网页之间的链接关系在一定程度上反映了每个网页各自的重要程度,理论上重要的网页获得的连接数量会比较多。同时链接的属性中还有锚文本,用来描述被连接页面的内容,对搜索引擎的排名有很大的影响沈阳SEO、用户体验判断现在的搜索引擎已经不是以连接分析为中心了,而是以用户体验为中心。在正常的内容相关性判断和链接分析的基础上,网页的用户体验对于搜索排名的影响越来越大。网站的用户体验优化(UEO)沈阳SEO正常用户体验普通用户浏览网站时的用户体验,可以分以下五大类:1.感官体验:呈现给用户视听上的体验,强调舒适性;2.交互体验:呈现给用户操作上的体验,强调易用、可用性;3.情感体验:呈现给用户心理上的体验,强调友好性;4.浏览体验:呈现给用户浏览上的体验,强调吸引性;5.信任体验:呈现给用户的信任体验,强调可靠性。沈阳SEO、有效索引和缓存机制10.1有效索引用户搜索时,可能会匹配户几十万上至几亿的网页,但是大部分用户只会浏览前三页,这样搜索引擎就没有必要相应每次搜索时都对全部的索引文件进行检索,只需要对一个适当数量范围内的索引文件进行索引就可以了。百度最多呈现760个结果,Google最多呈现1000个结果。沈阳SEO缓存机制缓存就是临时文件交换区,是可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速率极快。缓存淘汰机制把使用频率小的搜索结果剔除,补充进来使用频率大的搜索结果,来保证缓存空间中的内容可以相应及命中当下尽可能多的用户搜索请求。缓存更新机制搜索引擎为了节约资源,不可能对缓存中的内容进行实时更新,而是会选择搜索请求比较少的时间段进行更新缓存。沈阳SEO、反作弊和人工干预自从有搜索引擎以来,就有人不断研究搜索引擎的排名机制,进而寻找搜索引擎排名的技术和逻辑漏洞,来快速提升自己网站的搜索排名。沈阳SEO反作弊算法反作弊就是过滤环节的重要组成部分黑白名单搜索引擎会根据网站内容的质量、权重、品牌建立白名单,也会找出明显作弊严重的网站建立黑名单。作弊特征研究作弊特征研究是现在搜索引擎进行反作弊的主要手法。当发现一个对搜索结果影响很大的作弊网站或一种新的作弊收法时,一般不会只是人工地把这个或这些网站降权或者屏蔽,而是潜心研究这个网站或这些网站到底是怎么作弊的,以及钻了搜索引擎技术和逻辑上的什么漏洞。SEO工作中体现最明显的就是选择服务器和交换友情链接。沈阳SEO人工干预在反作弊过程中,也很有可能会伴随着人工干预自然搜索排名,但是搜索引擎中的人工干预肯定不会是大众想象的那样频繁,也不是浅层次上的干预,否侧搜索引擎自然排名的算法就可以丢弃了,搜索引擎也没有那么多专门来干预排名的人。沈阳SEO
本文标题:SEO是什么与搜索引擎原理
链接地址:https://www.777doc.com/doc-3378772 .html