您好,欢迎访问三七文档
Web搜索1.Web搜索概述2.Web搜索系统结构3.Web搜索相关技术4.基于主题的Web搜索5.搜索引擎实例分析据2011年1月公布的第27次中国互连网络发展状况调查报告统计,中国大陆网民数和IPv4数已分别达到4.57亿和2.78亿。互连网的发展网络资源的发展静态网页(浅层网络资源)Google2005年底80亿张2008年4月5日用”the”搜索Google,相关记录录:112亿。2009年4月8日用“the”搜Google有124.5亿页。2010年4月8日用”the”搜索有190亿网页。2011年3月26日用”the”搜索有252亿网页。网络资源的发展数据库资源(深层网络资源)数量大,根据BrightPlanet的研究报告,网络数据库资源约是静态网页资源的500倍。增长速度快,同期增长速度是浅层资源9倍。资源稳定,质量高,不但包括大量经对等评审的学术论文,而且一般资源也都经过专业人士的筛选、著录、标引,内容可参考性更强,格式更规范搜索引擎被广泛利用OCLC2005年调研大学生信息获取方式:72%用户选择搜索引擎24%用户选择图书馆4%用户选择书店Hitwise3月19日统计Top10WebsitesHitwise3月19日统计Top10SearchEngines1.1Web搜索分类根据技术原理分依据搜索范围分依据爬行器特征分根据功能特点分1.1.1Web搜索分类根据技术原理不同,搜索引擎可以分为:爬行器式搜索引擎目录式搜索引擎元搜索引擎爬行器式搜索引擎爬行器(Crawler)爬行器是一种可以在Web上漫游并发现、下载页面的计算机程序,也称为蜘蛛(Spider)、机器人(Robot)。爬行器自动在网上爬行,将搜索到的页面自动下载加入到本地数据库中,经索引后提供用户检索服务。特点信息覆盖范围广、自动化程度高、维护费用少;返回信息过多,包括大量无关信息。具有代表性的爬行器式搜索引擎国外:Google、Lycos等国内:百度、天网等。目录式搜索引擎目录式搜索引擎特点采用人工或半自动方式搜索、采集以及编辑、组织信息,支持分类浏览、关键词检索;因为加入了人的智力劳动,所以信息准确、导航质量高;缺点是需要人工介入、维护量大、信息更新不及时。代表性引擎Yahoo、Opendirectory、Looksmart等。爬行器式搜索也提供目录式服务,如Google的网页目录元搜索引擎元搜索引擎(MetaSearchEngine)自己没有网页数据库,当用户提交一个查询请求时,它把用户查询转发给多个其他搜索引擎,返回多个结果,进行归并后返回给用户。多数元搜索引擎只提取出每个搜索引擎的结果中前面10~50条信息。优点同时覆盖多个搜索引擎,缺点是无法使用特定搜索引擎的特殊功能,用户需要做更多的筛选。主要代表ixQuick、SurfWax、Dogpile、Vivisimo等。1.1.2Web搜索分类依据搜索范围不同,Web搜索分两类:普通搜索引擎(general-purposesearchengines)普通搜索引擎的目标是覆盖所有领域的信息资源最負盛名的是Google等。专业搜索引擎(domain-specificsearchengines)专业搜索引擎为满足特定需求而开发的,它是一种基于特定条件的信息搜索引擎,可以针对某一主題(如纳米技术)、某一地区(如台湾)、某一类型的信息(如个人简历、主页、电影、音乐、FAQ等)或某一特定群体(如小学生)等。CiteSeer它是一个专门收集有关计算机科学方面的PDF、PS格式的学术期刊和会议论文资料的搜索引擎。GoogleScholar、GoogleBook1.1.3搜索引擎分类依据爬行器特征,搜索引擎可分:基于通用爬行器(ScalableWebCrawler)的搜索引擎基于主题爬行器(FocusedWebCrawler)的搜索引擎基于个性化爬行器(CustomizedWebCrawler)的搜索引擎基于智能代理(AgentbasedWebCrawler)的搜索引擎基于可迁移爬行器(RelocatableWebCrawler)的搜索引擎面向深层Web信息(DeepWebCrawler)的搜索引擎主题爬行器主题爬行器(FocusedCrawler)主题爬行器爬行有限的网络空间,有选择性地搜寻与指定主题相关的页面。基本原则尽可能多地下载与指定主题相关的网页尽可能少地下载与指定主题无关的网页主题描述方式关键词样本文档Ontology特点因为不采集与主题无关的页面,所以极大地节省了硬件和网络资源,保存的页面也少,更新快。问题如何有效定义、描述主题?如何判定主题相关性?如何控制查全率、查准率等?IBMFocusedcrawlerIBMFocusedcrawler核心部件分类器(Classifier)采集系统首先保存一个经典的主题分类体系,并且为每一个主题类目都保存若干个内容样本,用于评价采集文本是否与主题相关精化器(Distiller)用于从网页中抽取、识别主题相关链接,并将其增加到待爬行队列中。IBMFocusedcrawler应用实例InfoMine一个网络学术资源服务引擎,它利用IBM主题爬行器采集相关主题的信息。构建了一个的Web信息采集器。个性化爬行器个性化爬行器(CustomizedwebCrawler)不同的用户对一个搜索引擎提交同一个检索词,他们期望的返回结果是不同的。根据用户兴趣、个性需求制定采集策略、采集个性化信息。采集结果可以直接提供给用户,也可以先存储起来经个性化处理后再提供。个性偏好信息一般有两个来源:用户手工设置系统学习–通过跟踪用户的浏览习惯和兴趣等自动获得应用实例-SPHINX一个基于Java工具开发的交互式个性化信息采集器,用户的个性化设置嵌在工作台里,并且针对指定的站点进行个性化采集。在Sphinx基础上,产生了Websphinx,它增强了个性化定制能力。SPHINX爬行器个性化定制界面SPHINX爬行器可视化呈现界面基于智能代理的爬行器Agent是一种计算机系统,为了实现设计目的而灵活地自主地活动。智能代理主要应用于主题信息采集和个性化信息采集。Agent特点自治性:Agent运行时不直接由人或其它东西控制,它对自己的行为和内部状态有一定的控制权社会能力:多个Agent体之间信息交换和协作反应能力:对环境的感知和影响知识学习能力例如:在基于用户个性化的采集中,它能像人一样感知用户的兴趣变化,并根据实际情况自主地迅速地灵活地智能地调整采集策略。基于Agent的爬行器应用实例一:InfoSpiders美国爱荷华大学设计的一个模拟生态系统发展和演变的Web信息采集器。它以一个能表明用户兴趣的文件作为采集起点,通过分析这些起点周围区域和链接关系来发现新的相关页面。通过判断采集到页面是否真跟相关性预期相符,来增加和减少能量.当能量很高时,还可以生出新的孩子(新的子树),而当能量过低时,它就死亡。用户兴趣通过机器学习和相关反馈的方法进行调整。基于Agent的爬行器应用实例二:AmalthaeaMIT设计的基于用户个性化需求的元信息采集器。InformationFilteringAgentInformationDiscoveryAgent系统分为五层用户及其反馈个性化Web浏览界面信息过滤信息搜索分布式信息源可迁移爬行器可迁移爬行器可迁移爬行器(RelocatableWebCrawler)将爬行器上载到它所要采集的服务器中,在当地进行采集,并将采集结果压缩后,回传到本地。特点爬行及分析操作在远程主机上,节省了网络资源。爬行器可能不被采集对象所信任,解决办法:建立一种信任机制,采集器由权威的信任机构评估并授权将采集器迁移到离被采集站点比较近的地方实施采集。深层Web爬行器深层Web爬行器(DeepWebCrawler)Web上80%的内容是存储在数据库中的动态信息,它因为没有固定的URL,所以对普通搜索引擎是不可见的(invisibleWeb,hiddenweb),对这类信息的采集用深层Web爬行器。与静态网页资源相比,数据库资源不但质量高,而且,用户访问量也比静态资源高,且大多数数据支持开放访问。对数据库资源揭示成为当前研究热点。将深层网络资源开放给搜索引擎DP9弗吉尼亚大学DP9项目为每个OAI数据库定义一个爬行器入口网页(entrypage),爬行器通过该网页中的链接就可以爬行到OAI数据库中的所有数据。厦门大学有相似作法。深层Web爬行器DQM(DeepQueryManager)BrightPlanet公司开发的“深层网络资源查询管理器”,实现对7万多个数据库的搜索、全文索引。支持深层网络资源的自动发现、自动配置查询表单、制动抽取查询结果,自动配置查询表单的成功率达85%以上。DQM数据库自动查询过程深层Web爬行器HiWE(HiddenWebExposer)斯坦福大学提出一面向特定主题的深层Web爬行器HiWE。HiWE通过模仿人的操作实现查询表单自动填写、提交以及结果页面URL的解析。深层Web爬行器BASE(BielefeldAcademicSearchEngine)德国比勒费尔德大学图书馆开发的深层数据库资源的全文搜索引擎,目前覆盖1555个数据库近2300多万篇文献,提供集成检索、原文链接服务。1.1.4搜索引擎分类根据功能特点分类:多语种与跨语种搜索引擎多媒体搜索引擎自然语言搜索引擎语义搜索引擎多语种与跨语种搜索引擎多语种搜索引擎采用语种辨别技术识别用户提问语种,检索对应语种数据库,返回相应语种结果。Google等支持多语种检索。关键技术是语言识别。跨语种搜索引擎用一种语言提交查询,搜索引擎将其转换成多种语言查询式,实现对多种语言数据库的检索,返回与用户问题相关的多语言相关文献。核心技术机器翻译。基于字典的机器翻译多媒体搜索引擎两种类型基于文本属性描述的多媒体搜索引擎基于内容的多媒体搜索引擎关键技术自动排除:过滤指定多媒体特征的信息自动标引:包括属性标引与内容标引这是个什么建筑物?应用实例:Photo2Search应用实例:Photo2Search数据库ChurchinBellevueOpenhours:9-5pmBuilt:1950…….应用实例:Photo2Search自然语言搜索引擎自然语言搜索引擎用户以自然语言方式提问,系统返回以自然语言方式组织的检索结果主要技术:机器翻译、语义理解及人机会话等相关搜索引擎AskJeeves()AnswerBus()……Powerset语义搜索引擎语义搜索引擎(SemanticSearchEngine)面向语义网络空间,发现用户指定主题及其语义相关信息。W3CLinkedDataCloud实例一:Marbles()实例二:Swoogle实例三:Sindice搜索引擎评价标准检全率指搜索引擎提供的检索结果中相关信息文档数与网络信息中存在的相关信息文档数之比。搜索引擎对互联网信息的有效覆盖率搜索引擎索引数据库的库容量搜索引擎索引数据库的信息更新频率检准率检索结果中有效信息的文档数与搜索引擎提供的全部文档数之比。检索速度取决于网络带宽及搜索引擎本身的速度。1.2搜索引擎评价标准数据库更新周期搜索引擎的更新速度取决于其所收录网页的更新速度及索引更新技术。有增量、完全索引信息的权威性以网络机器人采集、加工数据的搜索引擎对信息有效性的判断能力不及人工参与建库的搜索引擎。有效性成为考察搜索引擎服务质量重要指标。1.3Web搜索发展趋势(1)提高对用户提问的理解用户模型研究于搜索引擎
本文标题:1Web搜索概述.
链接地址:https://www.777doc.com/doc-3024830 .html