您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > Web信息采集系统的设计与实现
基于主题的Web信息采集系统的设计与实现李盛韬,赵章界,余智华(中国科学院计算技术研究所软件研究室,北京100080)摘要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。关键词:信息采集;信息检索;信息处理;主题Email:lishengtao@software.ict.ac.cn;zhaozj@software.ict.ac.cn;yzh@ict.ac.cn中图分类号:TP391文献表示码:A基金资助:中科院计算所领域前沿青年基金资助(资助号20016280-8)DesignandRealizationofFocusedWebCrawlerLISheng-tao,ZHAOZhang-jie,YUZhi-hua(SoftwareDivision,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China)Abstract:Focusedwebcrawlingisanewandpracticaldirectioninthefieldofinformationretrieval.Anditalsoisaresearchhotspotintheinformationprocessingtechnologies.Thispaperarguestheprinciples,difficultiesandmeasuresofthefocusedwebcrawler,andthendetailedlyanalysesthedesignofourSkyReachfocusedwebcrawler.KeyWords:WebCrawler;InformationRetrieval;InformationProcessing;FocusedCrawler1.引言随着Internet的迅速发展,网络正深刻地改变着我们的生活。截止到2000年7月,Internet上的网页数量就已经超过21亿,上网用户超过3亿,而且网页还在以每天700万的速度增加[8]。这给人们的生活提供了丰富的资源。然而,Web信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。因此,基于Web的信息采集、发布和相关的信息处理日益成为人们关注的焦点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,而在这一过程中它并不太在意页面采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上,并且实现起来也相对简单,例如Google采集系统在并行4个采集器时的采集速度可以达到每秒100页。但是,这种传统的采集方法也存在着很多缺陷。随着信息的爆炸性增长,信息采集的速度越来越不能满足实际应用的需要。最近的试验表明,即使大型的信息采集系统,它对Web的覆盖率也只有30-40%。解决这一问题的办法有升级信息采集器的硬件设备、提高并行能力,但是它们的能力十分有限,带来的改善效果仍远不能满足人们的需要。主题采集则可以通过对整个Web按主题分块采集,并将不同块的采集结果整合到一起,来提高整个Web的采集覆盖率。对于传统的信息采集来说,待刷新页面数量的巨大使得很多采集系统刷新一遍需要数周到一个月的时间[1][2],这使得页面的失效率非常地巨大。Selberg和Etzioni在1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[5]。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。为此,我们开展了主题Web信息采集技术的研究,并设计实现了“天达”主题Web信息采集系统。全文的组织是这样的:第二章介绍主题Web信息采集的基本问题;第三章给出了“天达”主题Web信息采集系统的结构模型以及相关细节;在第四章里,我们给出了该系统的实现情况;最后,在第五章里展望了主题Web信息采集发展的动向。2.基于主题的Web信息采集的基本问题2.1基于主题的Web信息采集的定义在Web信息采集的大家庭中,有一类非常重要,它就是基于主题的Web信息采集(FocusedCrawling),也称为Topic-SpecificCrawling,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行采集的行为。2.2基于主题的Web信息采集的分类2.2.1广泛主题和具体主题的Web信息采集按照采集主题的范围和规模,基于主题的Web信息采集可分为广泛主题的Web信息采集和具体主题的Web信息采集。广泛主题是指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web信息采集也称作领域Web信息采集。一般这类信息采集所需要采集的页面数量较多,为了达到较高的召回率,在进行URL过滤的时候所设定的阈值较低、限制较宽,因此它的页面内容也相对较杂。与之相对应,具体主题涵盖面较窄,意义较明确,采集规模也较小,一般进行URL过滤的时候所设定的阈值较高、限制较严。这类采集一般可直接服务于用户,提供更加灵活、针对性更强的服务。2.2.2固定主题和可变主题的Web信息采集按照采集时能否指定主题,基于主题的Web信息采集分为固定主题的Web信息采集和可变主题的Web信息采集。顾名思义,固定主题的Web信息采集在采集前和采集的过程中都不能进行主题的变更。它一般是针对广泛主题和领域搜索引擎的,不直接服务于用户。可变主题的Web信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体,采集页面的规模也较小,提供给用户的操作方式比较灵活。另外,多个此类信息采集器进行合作,分别采集不同的主题,能够完成一些更高级和复杂的服务。2.3主题页面在Web上的分布特征整个Web上的页面主题分布是混杂的,但同一个主题在Web上分布却有一些规律。我们将这些分布规律总结为四个特性:Hub特性、Sibling/LinkageLocality特性、站点主题特性、Tunnel特性。2.3.1Hub特性美国康奈尔大学的教授JonM.Kleinberg发现Web上存在大量的Hub页面,这种页面不但含有许多outlink链接(指出链接),并且这些链接趋向于相关同一个主题。也就是说,Hub页面是指向相关主题页面的一个中心。另外,他还定义了权威页面(authority)的概念,即其它许多页面都认为相关于这一主题有价值的好页面。好的Hub页面一般指向多个Authority的页面,并且所指向的Authority页面越权威Hub页面的质量也越好;反过来,Hub页面的质量越好,它所指向的每个页面也趋向于越权威。我们把主题在Web上的这一特性称为Hub特性。2.3.2Sibling/LinkageLocality特性在Hub特性的基础上,人们又提出了Sibling/LinkageLocality特性[1]。1).LinkageLocality,即页面趋向于拥有链接到它的页面的页面主题;2).SiblingLocality,对于链接到某主题页面的页面,它所链接到的其它页面也趋向于拥有这个主题。这实际上是Hub特性的变形,主要是从页面的设计者设计的角度考虑的。一个页面的设计者趋向于把本页面指向于与本页面相关的其他页面。我们把主题在Web上的这一特性称为Sibling/LinkageLocality特性。2.3.3站点主题特性我们发现,一个站点趋向于说明一个或几个主题,并且那些说明每个主题的页面较紧密地在此站点内部链接成团,而各个主题团之间却链接较少。我们认为,这主要与网站的设计者的设计思路有关。每个网站在设计时都有目标,而这种目标往往就集中在一个或几个主题中。而网站的浏览者往往也有一定的目的性,这个目的性一般体现在用户趋向于浏览同一主题的页面。为了满足浏览者的这一需求,网站设计者需要将相关内容紧密地链接在一起。为了研究主题团特性,我们设计了实验:首先将站点内的链接分为六类(下行链、上行链、水平链、交叉链、外向链、框架链)、站点内的页面分为四类(主页、索引页面、内容页面、参考页面),并为每一类链接和页面赋予不同的权重,然后通过为每个页面分类,并在站点内部结构特征的基础上,对站点页面树按照自底向上进行主题聚类[9]。试验结果证明了站点中存在着许多主题页面团。2.3.4Tunnel特性在Web中还有一类现象,就是主题页面团之间往往需要经过较多的无关链接才能相互到达。这些无关链接就像一个长长的隧道,连接着两个主题团,因此我们把这种现象称为“隧道现象”(Tunnel)。在基于主题的页面采集过程中,Tunnel的存在极大地影响着采集的质量。为了提高采集页面的准确率,我们需要提高过滤相关性判定阈值,而阈值的提高将过滤掉大量的Tunnel,使得采集系统很可能丢失Tunnel另一端的主题团,进而影响了查全率(或者说资源发现率)。反过来,为了提高查全率,就得大量发现Tunnel,降低过滤相关性判定阈值,但是阈值的降低使得混进了大量的无关页面,从而大大降低了页面的准确率。这是一个两难问题,但关键还是不能有效地区别Tunnel和其它大量无关页面。事实上,两个主题团之间的隧道数也较少。2.3.5四个特性的关系Web中的页面对于主题来说是杂乱的,但也存在一些规律。Hub特性说明了主题容易成团出现的现象,Linkage/SiblingLocality特性进一步对成团的特性有所扩展,站点主题特性说明了主题团所在的位置(即大部分分布于站点的内部),而Tunnel特征说明了主题团在Web上的分布并不稠密。3.基于主题的Web信息采集系统模型3.1系统模型我们在国内外已有主题采集系统的基础上,设计了“天达”主题采集系统,其系统模型如图1所示。为实现对基于主题的信息自动采集,我们将整个处理过程分成七大模块:主题选择、初始URL选择、Spider采集、页面分析、URL与主题的相关性判定(链接过滤/链接预测)、页面与主题的相关性判定(页面过滤)、数据存储。3.2主题的选择为了有效地进行采集,主题信息采集系统所要解决的一个重要问题就是主题选择。针对随便的主题词可能较大地影响采集效果,系统一般提供给用户一个主题分类目录以供选择。为了有效地确定用户选定主题的含义,用户要提供对主题的进一步描述,比如提供若干表达主题含义的文本,当然系统也会提供一些主题文本供用户选择。我们的系统就是按照中国图书馆的分类方法的第一级目录和二级目录对主题进行分类的,并在每个主题下配备了一些主题文本,以供用户选择。3.3采集起点的选择一般采集器是从一个种子URL集出发,通过Web协议向Web上所需的页面扩展的。基于主题的Web信息采集也不例外,也有一个起始采集的种子URL集。但是,它的采集起点选择却必须十分慎重,因为这将影响着采集的效率,尤其是刚开始采集的准确率。根据主题在Web上的Linkage/SiblingLocality特性,一般采集系统需要选择质量较高的主题URL作为初始种子URL集。为此,我们采用我们的小金手元搜索引擎为每个主题搜索页面,搜索排名前50的URL作为每个主题目录下的种子URL。用户在设置主题采集时可以在这50个URL中进行选择,也可以将自己知道的好的主题URL输入进来,以提高采集的效果。Web页面链接Spider采集页面分析页面内容Web页面过滤后的页面链接过滤后的页面内容页面过滤链接过滤主题页面库URL队列中间信息纪录库主题和初始url选择图13.4Spider采
本文标题:Web信息采集系统的设计与实现
链接地址:https://www.777doc.com/doc-1431171 .html