您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 搜索引擎的现状和发展趋势
期末课程论文论文标题:搜索引擎的现状与发展趋势课程名称:信息检索技术课程编号:1220500学生姓名:潘飞达学生学号:1100310120所在学院:计算机科学与工程学院学习专业:计算机科学与技术课程教师:王冲2013年7月1日【摘要】搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,社区化等多个趋势。【关键词】发展过程、发展趋势、检索技巧、个性化、智能化1搜索引擎简介搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。其工作作原理分为抓取网页,处理网页和提供检索服务。抓取每个独立的搜索引擎都有自己的网页抓取程序,它顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。搜索引擎是根据用户的查询请求,按照一定算法从索引数据中查找信息返回给用户。为了保证用户查找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。一般的搜索引擎由网络机器人程序、索引与搜索程序、索引数据库等部分组成。系统结构图2搜索引擎的工作原理第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网络机器人程序网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。第二步:抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。第三步:预处理搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。⒈提取文字⒉中文分词⒊去停止词⒋消除噪音搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告5.正向索引6.倒排索引7.链接关系计算8.特殊文件处理除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。第四步:排名用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。3搜索引擎的发展过程搜索引擎的发展起源可以追溯到第一个Gopher搜索工具Veronica。后来的搜索引擎的发展分为五个阶段。第一阶段,出现WorldwideWebWanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址。第二阶段,出现了以概念搜索闻名的Excite以及元搜索引擎Dog-pile。第三阶段,即yahoo的出现。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。Yahoo以后陆续有Google等提供搜索引擎服务,但不可否认的是,Yahoo几乎成为20世纪90年代的因特网的代名词。第四阶段,一种新的搜索引擎形式出现了,即元搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第五阶段的代表是智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。4搜索引擎的发展趋势当然,发展到现今这个阶段,搜索引擎技术和商业经营模式已经处于一个成熟和相对稳定状态。搜索引擎服务商要进一步发展必然要突破现有的技术和商业经营模式制约,而通过市场整合走综合化道路对于搜索引擎服务商来说是一个不错的选择。这样既可以发挥他们在搜索引擎领域的技术、市场优势,又可以实现从单一搜索引擎业务到综合门户业务的跨越式发展。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。搜素引擎经过多年的发展后,功能越来越强大,提供的服务也越来越多样化。目前搜索引擎已达数千种,因此行业竞争也越来越激烈。日前,百度发布的新版首页在业界激起了热烈反响,其认为个性化推荐是网络搜索的未来这是国内搜索引擎首次试水“个性化推荐”。在未来的搜索引擎发展进程中,也将出现许多其他趋势。首先,多元化搜索会有不少竞争和成长的空间。搜索引擎服务从提供单一的文字、图片搜索,向提供音乐、视频、资讯、软件、文件等多元化的搜索发展。其次,搜索引擎会提供更具有个性化和智能化的针对性搜索。例如根据用户自身平时使用的搜索习惯和可能从事的行业特点,能够深度理解你要搜苹果还是水果还是要搜公司,更深度理解。第三,移动化。中国普通网民移动化的浪潮已经存在,随着手机等移动工具的使用,搜索引擎为我们提供的移动搜索也将进一步发展。第四,社区化。社区搜索整合的目标是为用户提供一站式服务,比如在Facebook、QQ里搜索与某个用户相关的内容,依托社区网友的内容,可以实现更准确的搜索,其目标就是为了用户提供一站式的服务。此外,未来的搜索引擎还将在以下几个方面改进和发展。一、搜索细化搜索条件。给出的搜索条件越具体,搜索引擎返回的结果也会越精确。二、用好搜索逻辑命令。搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,或与之相对应的布尔逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。三、精确匹配搜索。除利用前面提到的逻辑命令来缩小查询范围外,还可使用引号。5检索技巧1高级查询双引号()给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。使用加号(+)在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。使用减号(-)在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。通配符(*和?)通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerized、computerized”等单词,而输入“comp?ter”,则只能找到“computer、competer、competer”等单词。2使用元词检索大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。3区分大小写这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。4特殊搜索命令intitle:是多数搜索引擎都支持的针对网页标题的搜索命令。例如,输入“intitle:家用电器”,表示要搜索标题含有“家用电器”的网页。5总结随着信息技术的发展,网络信息的高速膨胀,查找高相关的信息犹如大海捞针。为了提高检索质量,为了提高工作效率,我们应该对搜索引擎多一些了解。比如学会使用高级查询、布尔检索和元词检索等。俗话说“工欲善其事,必先利其器”,只有熟练掌握搜索工具和灵活运用检索技巧才能在网络检索中有的放矢、事半功倍。参考文献:[1]崔维梅.范荣鹏.搜索引擎的技术现状和热点[J].青年记者2005,(15):116~117.[2]王慕东,搜索引擎的发展状况及使用技巧,信息系统,2001(4).[3]李刚.宋伟.邱哲Ajax+Lucence构建搜索引擎[M].2006.4.[4]欧朝晖.SEO智慧-搜索引擎优化与网络营销革命[M].北京:电子工业出版社,2009:[5]李艳梅,浅议搜索引擎google,现代情报,2003.7.
本文标题:搜索引擎的现状和发展趋势
链接地址:https://www.777doc.com/doc-1463999 .html