您好,欢迎访问三七文档
搜索引擎工作原理SEO基础课程目标认识搜索引擎的工作原理记忆搜索引擎的工作流程目录网页收集1预处理2检索服务3网页收集搜索引擎是如何收集互联网中的网页的?蜘蛛程序抓取例如:认识蜘蛛什么是蜘蛛?网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取互联网中网页的程序或者脚本蜘蛛的工作方式蜘蛛是通过链接进行爬行并抓取网页的认识种子站点种子站点蜘蛛起始的抓取站点,这类站点具有一定的权威性和导航性,如新浪、hao123等搜索引擎收集机制收集机制根据网站的更新周期定期定量的收集三天打鱼两天晒网原始数据原始数据库蜘蛛抓取的页面所要储存的位置百度快照目录网页收集1预处理2检索服务3思考什么是预处理?蜘蛛抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理预处理提取文字分析链接建立索引中文分词去除重复页面计算网页重要度213456预处理的工作流程提取文字1.提取文字搜索引擎是以文字内容为基础的,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容中文分词2.中文分词分词分词是搜索引擎特有的步骤,把网页中提取的文字按照词组进行划分例:百度联盟可拆分成百度联盟百度联盟消噪对内容没有任何影响却大量出现的词,如:的、地、得、啊、哦、呀、不但、而且等去除重复页面3.去除重复页面镜像网页内容完全相同,网址不同倾向原创计算网页重要度4.计算网页重要度积分制计算通过被指向链接计算网页的原创性认识索引5.建立索引索引是建立关键词与网页之间的对应表,建立索引的最大好处在于可快速获取对应的数据页面关键词关键词页面正排索引倒排索引旅游页面1页面3页面1↓旅游页面2↓美容页面3↓旅游认识索引索引示意图网站A网站B关键词C关键词C关键词C正排索引正排索引提取链接6.提取链接根据页面中存在的链接继续抓取预处理小结43054501提问搜索引擎的预处理包含哪些工作?提取文字中文分词去除重复网页计算网页重要度建立索引分析页面中的链接小结提问如何展现用户所搜索的关键词?查询词的处理获取倒排索引检索服务查询词的处理搜索词进行分词获取排序获取倒排索引总结网页收集认识蜘蛛、种子站点、收集机制、原始数据库预处理提取文字、分词、去除重复页面、计算重要度、建立索引、提取链接检索服务查询词处理获取排序总结蜘蛛网页分析器索引器检索器百度用户原始数据库索引数据库
本文标题:搜索引擎工作原理
链接地址:https://www.777doc.com/doc-6836826 .html