您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 搜索引擎原理与检索技巧
搜索引擎——原理与检索技巧搜索引擎的概念搜索引擎:就是在Internet上执行信息搜索的专门站点,它们可以对主页进行分类与搜索。如果输入一个特定的搜索词,搜索引擎就会自动进入索引清单,将所有与搜索词相匹配的内容找出,并显示一个指向存放这些信息的连接清单。搜索引擎的分类搜索引擎按其工作方式主要可分为三种:全文搜索引擎(FullTextSearchEngine)如:Google、Baidu、Yahoo、Bing目录索引类搜索引擎(SearchIndex/Directory)如:搜狐、新浪、网易、Yahoo元搜索引擎(MetaSearchEngine)如:全文搜索引擎工作原理全文搜索引擎是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。全文搜索引擎都拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用。全文搜索引擎工作原理搜索引擎的自动信息搜集功能分两种。一种是每天24小时不间断地,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。全文搜索引擎工作原理当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。全文搜索引擎工作原理关于网站搜索的更新频率:百度搜索可以设定网站的更新频率和时间,一般对于大网站更新频度很快,而且会专门开设独立的爬虫进行跟踪,不过百度是比较勤奋的,中小网站一般也会每天更新。因此,如果你希望自己的网站更新得更快,最好是在大型的分类目录(例如yahoosina网易)中有你的链接,或者在百度自己的相关网站中,有你网站的超链接,在或者你的网站就在一些大型网站里面,例如大型网站的blog。全文搜索引擎工作原理关于采集的深度百度搜索可以定义采集的深度,就是说不见得百度会检索你网站的全部内容,有可能只索引你的网站的首页的内容,尤其对小型网站来说。关于对时常不通网站的采集百度对于网站的通断是有专门的判断的,如果一旦发现某个网站不通,尤其是一些中小网站,百度将自动停止往这些网站派出爬虫。谷歌搜索排名技术对于搜索来说,谷歌强于百度,主要的原因就是谷歌更加公正,而百度有很多人为的因素(这也符合我国的国情),google之所以公正,源于他的排名技术PageRank。很多人知道PageRank,是网站的质量等级,越小表示网站越优秀。其实PageRank是依靠一个专门的公式计算出来的,当我们在google搜索关键词的时候,页面等级小的网页排序会越靠前,这个公式并没有人工干预,因此公正。PageRank的最初想法来自于论文档案的管理,我们知道每篇论文结尾都有参考文献,假如某篇文章被不同论文引用了多次,就可以认为这篇文章是篇优秀的文章。同理,简单的说,PageRank能够对网页的重要性做出客观的评价。PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样,PageRank会根据网页B所收到的投票数量来评估该页的重要性。此外,PageRank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。谷歌搜索排名技术PageRank的公式这里省略,说说影响PageRank的主要因素1、指向你的网站的超链接数量(你的网站被别人引用),这个数值越大,表示你的网站越重要,通俗的说,就是其它网站是否友情链接,或者推荐链接到你的网站;文章来源2、超链接你的网站的重要程度,意思就是一个质量好的网站有你的网站的超链接,说明你的网站也很优秀。3、网页特定性因素:包括网页的内容、标题及URL等,也就是网页的关键词及位置。目录索引工作原理目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。目录索引工作原理与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Sina这样的超级索引,登录更是困难。目录索引工作原理此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。主要的全文搜索引擎介绍⒈Google()Google成立于1997年,几年间迅速发展成为世界范围内规模最大的搜索引擎。Google数据库现存有42.8亿个Web文件,每天处理的搜索请求已达2亿次,而且这一数字还在不断增长。Google借用Dmoz()的分类目录提供“网页目录”查询(=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默认网站排列顺序并非按照字母顺序,而是根据网站PageRank的分值高低排列。⒉百度()百度是国内最早的商业化(早期为其它门户网站提供搜索服务,现在的竞价排名更是日进斗金)全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场,除有网页搜索外,百度还有新闻、MP3、图片等搜索,并在2003年底推出“贴吧”、按地域搜索等功能。检索技巧分析检索的主题选择合适的搜索引擎抽取适当的关键词正确构造检索式及时调整检索策略分析检索的主题了解查询目的和要求,确定需要的信息类型(全文、文本、图像、声音等)查询方式(浏览、分类检索、关键词检索等)查询范围(全文、网页、标题、FTP、软件、外文等)查询时间选择合适的搜索引擎要选择合适的检索工具时,就要先了解所要使用的搜索引擎GOOGLE特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。选择合适的搜索引擎雅虎!是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。选择合适的搜索引擎百度百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。选择合适的搜索引擎搜狐分类目录主题分类,500,000优选网站,人工精选分类Google网页目录=zh-CN&tab=wdGoogle的网路目录内容是依据『OpenDirectory』,经由全球各地的义务编辑人员精心挑选,再由Google著名的『网页级别』技术(专利申请中)分析,让网页依照其重要性先后排列出,并透过网页介绍里的横线长度,来标明此网页的重要程度。网易搜索分类目录一个由网上的志愿人员编辑的分类网站目录。新浪搜索分类目录由新浪搜索专业编辑挑选和分类的网站结果。抽取适当的关键词如何抽取关键词:使用名词或物体做关键词检索式中使用2-3个关键词要注意同义词、近义词、相关词或同一术语的不同表达方式。如,internet、web、、thenet对固定短语,用“”括起来进行检索,以提高检索的精确度。如,“worlewideweb”及时调整检索策略扩大检索范围:检索结果为0或太少时,就需要扩大检索范围使用同义词、近义词或相关词减少最不重要的概念词,或使用较普遍的词,或改用上位词。利用某些搜索引擎的自动扩检功能进行相关检索。使用多个搜索引擎。及时调整检索策略缩小检索范围:如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围。使用布尔逻辑使用词组检索使用高级检索语法布尔逻辑检索布尔逻辑:是指适用AND、OR或NOT等运算符查找含有某种词语或特定组配形式的那些网页(记录)。格式:关键词AAND(空格)关键词B例:查找胰岛素治疗糖尿病胰岛素AND(空格)糖尿病布尔逻辑检索格式:关键词AOR(|)关键词B(|前面必须有空格)例:查找电脑电脑OR(|)计算机格式:关键词ANOT(-)关键词B(减号前面必须有空格)例:查找佳能的产品(相机除外)佳能NOT(-)相机词组检索使用双引号(在输入法半角的状态中输入)当您输入较长的查询词时,搜索引擎会依据查询词的字符串做拆字处理。若您需要得到精确、不拆字的搜索结果,可在查询词前后加上双引号。例如:华南师范大学考研与“华南师范大学考研”高级搜索语法Intitle(在GOOGLE中是allintitle)intitle的意思是所有搜索结果的网页的标题中都要包含“关键词A”。格式:关键词Bintitle:关键词A(多个个关键词中最重要的词放此)[只适用在百度中]allintitle:关键词A[用于GOOGLE中]例:查找有关温总理访日融冰之旅方面的信息温家宝融冰之旅与intitle:温家宝融冰之旅又例:查找圆明园的历史由于“圆明园”这个词非常关键,如果选择”圆明园历史“这个搜索式不如选”历史intitle:圆明园“(结果是:在所有标题中包含”圆明园“这个词的网页中寻找出现”历史“这个关键词的结果)高级搜索语法Inurl(在GOOGLE中是allinurl)url是UniformResourceLocator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。意思是在url中含有关键词B的网页中,寻找关于关键词A的信息。格式:关键词Ainurl:关键词B(关键词A与inurl之间要用空格隔开)例:图
本文标题:搜索引擎原理与检索技巧
链接地址:https://www.777doc.com/doc-4007113 .html