您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 商业计划书 > 主要搜索引擎介绍谷歌Google
第三章网络技术基础搜索引擎导引•搜索引擎已是上网生活中不可或缺的一部分导引搜索引擎的概念•搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。•搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。•搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎年度市场份额搜索引擎年度市场份额搜索用户首选搜索品牌•2008年全国范围内搜索用户的搜索引擎首选•2009年搜索用户首选搜索品牌其他2.0%搜狗2.9%谷歌16.6%百度76.9%雅虎1.6%搜索引擎的历史•1990年,加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生开发出Archie。当时,万维网还没有出现,人们通过FTP来共享交流资源。•Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。•用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。•虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。•互联网发展早期,以雅虎(1994年)为代表的网站分类目录查询非常流行。•网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。•用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。搜索引擎的历史搜索引擎的组成•搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:–搜索器:其功能是在互联网中漫游,发现和搜集信息;–索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;–检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;–用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。搜索引擎的工作原理•抓取网页–每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。•处理网页–搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。•提供检索服务–用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。信息搜集功能•定期搜索–即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。•提交网站搜索–网站拥有者主动向搜索引擎提交网址信息推荐原理•当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法(关联规则)——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。中文搜索引擎的发展趋势•1.支持目录式分类结构和全文检索•2.检索方法多样、查找手段完备•3.不仅提供受控语言检索,还支持自然语言检索•4.提供自动换库检索•5.提供多媒体检索功能•6.自动识别多种汉字编码•7.能够区分搜索结果的相关性•8.增加服务功能,提供全方位的信息服务搜索引擎的分类全文搜索引擎目录搜索引擎元搜索引擎全文搜索引擎•全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。•它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。•从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。目录索引•目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。•目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有OpenDirectoryPro-jec(tDMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。元搜索引擎(METASearchEngine)•元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。除上述三大类引擎外,还有以下几种非主流形式:–a)集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。–b)门户搜索引擎:如AOLSearch、MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。–c)免费链接列表(FreeForAllLinks,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。搜索引擎及网站推广•头部内容与网站推广的关系–在一个网页中,head/head之间,就是一个页面的头部信息部分,Google的蜘蛛优先抓取网页时的头部文件信息的描述和关键字描述;–百度的蜘蛛的喜欢程度不如Google。搜索引擎及网站推广•页面内容与网站推广的关系–页面内容是指访问网站是生成的页面内容,通常是指生成的html代码文件时body/body之间的内容。–百度的蜘蛛更喜欢这里的东西,而且这里面除去Html代码标记后的前300个字符通常显示为搜索引擎的检索时的描述内容,也是用户检查网站内容的关键之一。•蜘蛛的工作周期与网站的推广的关系–百度的工作周期相对来说比google短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。搜索引擎及网站推广•搜索引擎的自定义排名•这是搜索引擎公司益利的主要手段,搜索引擎公司由于可以自定义排名,和可以过滤一些关键字、词和网站,这样可以造成网站无法收录到搜索引擎的数据库中。•如果长期内,你的网站在搜索引擎中没有什么变化,可以考虑调整你网站里的字、词和网站里的内容。搜索引擎的自定义排名竞价排名•竞价排名是一些搜索引擎公司所推出的一种按效果付费的网络推广方式,其具体做法是,广告主在购买该项服务后,通过注册一定数量的关键词,按照付费最高者排名靠前的原则,购买了同一关键词的网站按不同的顺序进行排名,出现在网民相应的搜索结果中。竞价排名•竞价排名的基本特点是按点击付费,广告出现在搜索结果中(一般是靠前的位置),如果没有被用户点击,则不收取广告费。在同一关键词的广告中,支付每次点击价格最高的广告排列在第一位,下面其他位置同样按照广告主自己设定的广告点击价格高低来决定。竞价排名特点•按效果付费,广告费用相对较低;•广告出现在搜索结果页面,与用户检索内容高度相关,增加了广告的定位程度;•竞价广告出现在搜索结果靠前的位置,容易引起用户的关注和点击,因而效果比较显著;•搜索引擎自然搜索结果排名的推广效果是有限的,尤其对于自然排名效果不好的网站,采用竞价排名可以很好弥补这种劣势;•广告主可以自己控制广告价格和广告费用;•广告主可以对用户点击广告情况进行统计分析。检索技巧•分析检索的主题•选择合适的搜索引擎•抽取适当的关键词•正确构造检索式•及时调整检索策略分析检索的主题•了解查询目的和要求,确定需要的信息类型(全文、文本、图像、声音等)查询方式(浏览、分类检索、关键词检索等)查询范围(全文、网页、标题、FTP、软件、外文等)查询时间选择合适的搜索引擎要选择合适的检索工具时,就要先了解所要使用的搜索引擎•GOOGLE特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。选择合适的搜索引擎•雅虎!是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。选择合适的搜索引擎•百度百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。抽取适当的关键词如何抽取关键词:•使用名词或物体做关键词•检索式中使用2-3个关键词•要注意同义词、近义词、相关词或同一术语的不同表达方式。如,internet、web、、thenet•对固定短语,用“”括起来进行检索,以提高检索的精确度。如,“worldwideweb”及时调整检索策略•扩大检索范围:检索结果为0或太少时,就需要扩大检索范围使用同义词、近义词或相关词减少最不重要的概念词,或使用较普遍的词,或改用上位词。利用某些搜索引擎的自动扩检功能进行相关检索。使用多个搜索引擎。及时调整检索策略•缩小检索范围:如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围。使用布尔逻辑使用词组检索使用高级检索语法布尔逻辑检索•布尔逻辑:是指适用AND、OR或NOT等运算符查找含有某种词语或特定组配形式的那些网页(记录)。格式:关键词AAND(空格)关键词B例:查找胰岛素治疗糖尿病胰岛素AND(空格)糖尿病布尔逻辑检索•格式:关键词AOR(|)关键词B(|前面必须有空格)例:查找电脑电脑OR(|)计算机•格式:关键词ANOT(-)关键词B(减号前面必须有空格)例:查找佳能的产品(相机除外)佳能NOT(-)相机词组检索•使用双引号(在输入法半角的状态中输入)当您输入较长的查询词时,搜索引擎会依据查询词的字符串做拆字处理。若您需要得到精确、不拆字的搜索结果,可在查询词前后加上双引号。例如:华南师范大学考研与“华南师范大学考研”高级搜索语法•Intitle(在GOOGLE中是allintitle)intitle的意思是所有搜索结果的网页的标题中都要包含“关键词A”。•格式:关键词Bintitle:关键词A(多个个关键词中最重要的词放此)[只适用在百度中]allintitle:关键词A[用于GOOGLE中]•例:查找有关温总理访日融冰之旅方面的信息温家宝融冰之旅与intitle:温
本文标题:主要搜索引擎介绍谷歌Google
链接地址:https://www.777doc.com/doc-3869732 .html