您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 02a+网络信息检索课件09版+检索原理和搜索引擎A
课件制作:张胜光第二章检索原理和搜索引擎网络信息检索第2章张胜光制作3本章内容搜索引擎原理和概况2门户网站和看不见的网站6网络信息检索原理31网页搜索引擎简介33网页搜索引擎使用方法34P2P搜索引擎使用方法35第一节信息检索原理:关键词匹配原则网络信息检索第2章张胜光制作51、从“图灵实验”说起大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为“图灵实验”。他并且预言,在20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过“图灵实验”。网络信息检索第2章张胜光制作62、计算机检索的奥妙:关键词匹配计算机既然如此“无能”,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢?原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。网络信息检索第2章张胜光制作7广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。狭义的信息检索:一个匹配(Match)过程即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。3、什么是信息检索?网络信息检索第2章张胜光制作8存储检索原始文献加工整理数据库提问检索输出“爱因斯坦论文”“论文”“爱因斯坦”“论文”“爱因斯坦”网络信息检索第2章张胜光制作94、信息检索原理检索提问式信息的选择与收集信息特征标识语言检索工具匹配检索结果信息源用户信息需求检索提问数据库网络信息检索第2章张胜光制作10What?Where?How?5、信息检索的要领网络信息检索第2章张胜光制作116、信息检索类型₪依信息存储和检索的方式手工检索(ManualRetrieval)也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。计算机检索(Camputer-basedRetrieval)也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。网络信息检索第2章张胜光制作127、主要计算机检索系统类型检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。联机检索(onlinesearch)脱机检索(offlinesearch)光盘检索(CDsearch)网络检索(Internet/Websearch)全球数字图书馆系统(digitalglobalsystem)网络信息检索第2章张胜光制作138、“关键词原则”是信息检索的根本原则四次文献三大系列中文网站两类搜索引擎Keyword原则第二节搜索引擎的原理和发展概况网络信息检索第2章张胜光制作151、网络信息资源种类1.信息资源:web网页2.FTP信息资源:远程计算机上的文件夹3.Blog信息资源:博客、播客等等信息资源4.Telenet信息资源:直接调用远程主机5.BBS、新闻组信息资源:相当于论坛信息6.P2P信息资源:私人计算机上的信息资源7.数据库和收费网站:如三大库三大馆网络信息检索第2章张胜光制作162、网络信息资源的特点信息量大、传播广泛信息类型多样、内容丰富信息时效性强、变化频繁信息分散无序、但关联程度高信息缺乏管理、良莠不齐所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们“大海里捞针”。网络信息检索第2章张胜光制作173、搜索引擎的概念网络信息检索第2章张胜光制作184、搜索引擎的发展历史网络信息检索第2章张胜光制作19搜索引擎发展历史元搜索引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索目录搜索Google1996Baidu1999……第三代搜索网页搜索网络信息检索第2章张胜光制作20搜索引擎的起源——Archie所有搜索引擎的祖先,是1990年由蒙特利尔的McGillUniversity三名学生发明的Archie(ArchieFAQ)。AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。网络信息检索第2章张胜光制作21由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后来另一个Gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。早期的另一个搜索工具Gopher网络信息检索第2章张胜光制作221994年4月,斯坦福大学的两名博士生,美籍华人杨致远和DavidFilo共同创办了Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!---几乎成为20世纪90年代的因特网的代名词。第二代搜索:目录式搜索Yahoo!网络信息检索第2章张胜光制作231995年,一种新的搜索引擎形式出现了——元搜索引擎(MetaSearchEngine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。好听不好用的元搜索引擎网络信息检索第2章张胜光制作24第三代搜索:网页搜索它们都属于网页自动搜索引擎,有的还带有智能分析或FTP、P2P搜索功能网络信息检索第2章张胜光制作255、搜索引擎的工作原理网络信息检索第2章张胜光制作26网络信息检索第2章张胜光制作27搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成:爬行器(即机器人、蜘蛛等搜索程序)索引生成器(即网页索引数据库)查询检索器(即用户检索界面)随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。网络信息检索第2章张胜光制作28搜索引擎的工作原理就像超市索引生成器(网页数据库)爬行器(蜘蛛)查询检索器(用户查询)因特网网络信息检索第2章张胜光制作29利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。第一步:从互联网上抓取网页因特网网络信息检索第2章张胜光制作30第二步:建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。网络信息检索第2章张胜光制作31搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。网络信息检索第2章张胜光制作32第三步:检索界面的建立当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。网络信息检索第2章张胜光制作33每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。网络信息检索第2章张胜光制作34网络信息检索第2章张胜光制作35第三节两类搜索引擎及网页搜索引擎网络信息检索第2章张胜光制作37两类搜索引擎的代表2以FTP和P2P资源搜索为主的搜索引擎1以网页搜索为主的搜索引擎百度、Google、Yahoo等迅雷、天网Maze等网络信息检索第2章张胜光制作38第一类搜索引擎:网页搜索引擎以谷歌和百度为代表网络信息检索第2章张胜光制作391、Google搜索引擎Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。Google目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过80亿个网址的索引。“Google”来自于数学名词“Googol”,Googol表示一个1后面跟着100个零。GoogleInt.使用这一术语体现了公司整合网上海量信息的远大目标。地址:网络信息检索第2章张胜光制作40Google简介:LarryPage,创始人之一,主管产品的总裁。密西根安娜堡大学的荣誉毕业生,拥有理工科学士学位。他还因其出色的领导才能获得过多项荣誉,以奖励他对工学院的贡献。他曾担任密西根大学EtaKappaNu荣誉学会的会长。目前他暂时从斯坦福大学计算机研究所博士班休学,其指导教授是TerryWinograd博士。Google就是由Page在斯坦福大学发起的研究项目转变而来的。网络信息检索第2章张胜光制作41Google简介:SergeyBrin,创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29岁的Sergey是美国国家科学基金会的奖学金得主。他在斯坦福遇到了LarryPage并参与了后来成为Google的研究项目。他们于1998年共同创立了Google。网络信息检索第2章张胜光制作42注意用“”与*功能网络信息检索第2章张胜光制作43网络信息检索第2章张胜光制作44谷歌其他功能网络信息检索第2章张胜光制作452、百度(baidu)全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。地址:网络信息检索第2章张胜光制作46一、概况百度(Baidu.com,Inc)于1999年底成立于美国硅谷,2000年,落户中国。2001年8月,发布Baidu.com搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式。2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市。李彦宏网络信息检索第2章张胜光制作48“百度”二字取自辛弃疾的《青玉案》“众里寻她千百度”。现在百度已成为世界上最大的中文搜索引擎。用户能够访问超过6亿的中文网页,5000多万张图片、500多万首中文mp3及各种格式的音乐。网络信息检索第2章张胜光制作49网络信息检索第2章张胜光制作50根据搜索引擎使用个数经加权调整后的市场份额——北京百度60.0%*雅虎搜索6.1%搜狐4.3%新浪3.7%其他搜索引擎3.5%*Google22.4%©北京正望咨询有
本文标题:02a+网络信息检索课件09版+检索原理和搜索引擎A
链接地址:https://www.777doc.com/doc-6067774 .html