您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 主题搜索引擎的关键技术研究与实现
武汉理工大学硕士学位论文主题搜索引擎的关键技术研究与实现姓名:孙轩申请学位级别:硕士专业:计算机应用技术指导教师:周彩兰20100401主题搜索引擎的关键技术研究与实现作者:孙轩学位授予单位:武汉理工大学相似文献(10条)1.学位论文夏诏杰Internet化学化工搜索引擎的主题网络爬虫和索引研究2008Internet作为信息的主要载体之一,其信息资源几乎涵盖所有学科领域。化学专业领域也不例外,Internet已经逐渐成为人们获取化学信息的主要途径。由于Internet具有节点平等、自由发布的特点,使Internet资源不仅体现为分布式、高度动态和海量,而且信息的质量参差不齐,出现所谓的“信息过载”和“信息迷失”的现象。化学工作者如何有效地从海量信息中检索所需要的、高质量的化学信息,面临着前所未有的挑战。尽管大型的通用搜索引擎可以用于专业信息的查询,但是这类通用搜索引擎在搜索专业信息的同时常会返回很多与主题不相关的噪声信息,因此研究与开发领域化、专业化的主题搜索引擎和针对个人兴趣的个性化搜索引擎是网络信息检索的一个发展趋势。br 本文在对Internet化学化工主题搜索引擎设计和分析的基础上,设计并实现了化学化工主题搜索引擎的两个主要模块:化学化工主题网络爬虫和基于化学化工词典的倒排索引,以此为基础建立了一个规模为1000万网页的化学化工专业搜索引擎原型系统ChemEngine。br 主题网络爬虫系统最大的特点是将待爬行的URL按照主题相关性进行排序。与广度优先(BreadthFirst)和深度优先(DepthFirst)等通用网络爬虫等相比,主题网络爬虫的爬行策略变为主题相关优先(TopicFirst)或者最佳优先(BestFirst)。本文通过对网络化学化工资源的抓取,比较了基于分类器(支持向量机、简单贝叶斯和中心向量)主题网络爬虫、基于关键词匹配主题网络爬虫(匹配网页全文、匹配标题文本和匹配锚文本)和基于链接分析(PageRank和BackLink)主题网络爬虫的爬行效果。爬行实验结果表明基于支持向量机分类器的主题网络爬虫的抓取效果优于其他主题网络爬虫和广度优先通用网络爬虫。实验还发现基于文档对象模型(DOM)的页面分块算法和基于视觉(VIPS)的页面分块算法的主题网络爬虫能进一步降低页面噪音和提高主题网页的爬行效果。另外实验结果显示种子URL对主题爬行的效果有较大的影响,尤其是在爬行的初始阶段。br 倒排文件作为一种简单、高效的文档数据索引方式,是搜索引擎系统实现的一项基础技术。在对Internet化学化工主题搜索引擎ChemEngine的倒排索引的设计和实现中,本文提出了对中文网页基于化学化工专业词典进行分词并以词为单位建立索引,而对除中文以外的网页以字为单位建立索引的方式,这样可以在查全率和查准率之间做出一定的权衡,并且能够减少索引信息对磁盘空间的占用。本文还提出了分桶建索引的算法,即正排索引和倒排索引都按照一定规则被存放在一系列的桶中,每一个桶中只存放一定范围词条(根据词条ID号)所对应的索引,通过合理安排桶的数量就可以减小各个索引文件的大小,方便倒排索引分布式的存储和处理。br 本文设计并实现了一种个性化搜索引擎的原型系统。用户首先通过个性化信息收集与管理系统采集和管理各自的兴趣信息,如关键字、样本文档和URL等。个性化信息收集与管理系统可根据获取的用户兴趣信息,为用户自动生成各自的兴趣模型。个性化爬行时根据用户提交的URL作为爬行起点,并在爬行过程中通过用户兴趣模型来对待爬行的URL进行用户兴趣优先级预测。实验结果表明基于支持向量机的个性化网络爬虫策略的爬行效果优于基于关键词匹配个性化网络爬虫和广度优先策略通用网络爬虫。实验同时显示用户兴趣范围的大小和用户兴趣信息收集的准确性对个性化网络爬虫的性能有较大影响。br2.期刊论文刘淑梅.夏亮.许南山.LIUShu-Mei.XIALiang.XUNan-Shan主题搜索引擎网络爬虫搜索策略的研究与实现-计算机系统应用2010,19(3)根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题.首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递.传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值.最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高.3.学位论文夏亮主题搜索引擎网络爬虫搜索策略的研究与实现2010主题网络爬虫是主题搜索引擎后端获取数据的自动化代码程序,主题搜索引擎前端查询到的数据事先由主题网络爬虫在互联网上抓取,存储在本地。然后对网页进行数据抽取,建立索引。所以主题爬虫对于一个主题搜索引擎来说,起着支撑的作用。本文提出链接文本相关度算法与主题信息值遗传恢复的算法相结合的主题优先抓取算法来指引爬虫抓取方向,并使用postgresql数据库集群技术存储数据。br 主题优先抓取算法根据网络页面结构的特点,通过页面之间的主题传递来预测页面主题相关性,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阀值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。相关性信息值将互联网网页以主题的不同分割在不同的通道内,所有与主题相关的网页都在最大通道内,各个通道交错相连,爬虫按通道的大小顺序抓取。br 爬虫要抓取的网页信息量庞大,单台主机不能满足这些信息的存储。本文在资源库以及链接地址库都采用postgresql数据库集群技术,扩大后台存储容量。并且在各个数据库点中使用pgbouncer连接池技术,减少数据库连接次数,争取时间。在链接地址库中采用缓存技术减少数据库操作次数,减少消耗时间,提高爬虫工作速度。br 最后通过实验测试,分析数据,验证了基于主题优先抓取技术的有效性及postgresql数据库集群技术的爬虫系统的可行性。4.学位论文刘玮基于启发式搜索策略的主题网络爬虫算法的设计与实现2008随着全球信息化的进程逐渐加快,网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的大型通用搜索引擎无法根据用户所指定的主题进行针对性的搜索,主题搜索引擎应运而生。主题搜索引擎主要针对某一特定领域、某一特定主题或某一特定人群,提供内容集中而深入的信息与服务。主题网络爬虫作为主题搜索引擎的重要组成部分,它的好坏直接关系到所搜索到资源的质量,因此如何设计一个高质量的主题网络爬虫就成为了主题搜索引擎研究的一个重要课题。通用搜索引擎设计的目的是在网络上搜索尽可能多的高质量网页,然而Web信息容量的巨大使得网络爬虫不可能提取所有的Web页面,即使能够全部提取,也没有足够大的空间来存放。通用网络爬虫的信息采集方式是盲目的,通常使用宽度优先搜索,深度优先搜索和有限深度的宽度搜索三种策略。主题搜索引擎与通用搜索引擎不同,它的设计目标是尽可能多的搜索与主题相关的网页,尽可能少的搜索与主题无关的内容,提高采集主题资源的效率。主题网络爬虫设计的关键是如何将待爬行的URL按照某种策略进行排序,使得与主题相关的、质量高的URL优先爬行,爬行的过程逐渐向主题领域聚焦。论文首先分析了主题搜索引擎与通用搜索引擎体系结构的异同,主题搜索引擎的信息采集策略,即主题网络爬虫的实现方式。目前比较有代表性的主题搜索策略如:基于启发式搜索算法和基于文本分类的搜索算法。论文通过分析各种搜索算法的优缺点,进行整合和改进,设计出一个基于启发式搜索策略的主题网络爬虫。在主题表示中利用向量空间模型提取主题关键词的算法,并且根据反比文档频率计算出关键词的权重。在预测链接价值的算法中,采用启发式搜索算法,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索,找到到达目标节点的最佳路径,删除不好的节点,保留那些好的节点。论文设计了一个基于启发式搜索策略的主题网络爬虫,对其执行流程给出了精确的算法描述,提出了若干关键算法的解决方案。详细阐述了链接主题相关度预测算法和网页主题相关度分析算法的实现。最后通过实验,证明了论文设计的主题网络爬虫具有较高的搜索效率。5.学位论文吴安清主题搜索引擎爬行策略的研究2006随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展主题搜索引擎已经成为趋势。由于主题搜索引擎搜索的内容只限于特定主题或专门领域,被通用搜索引擎所广泛采用的基于图的遍历搜索策略(如广度或深度优先算法)已不再适用,因此,以何种策略访问Web(即主题爬行策略)已成为近年来主题搜索引擎研究的关键问题之一。本文从提高主题爬虫的搜索效率和搜索精度出发,在以下四个方面对主题搜索引擎的爬行策略进行了较为深入的研究。首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性及主题网络资源覆盖度的搜索策略,以提高主题爬虫的自适应性和搜索效率。其次,为了提高网络爬虫预测链接价值的准确性,本文提出了Shark改进算法,其主要思想是:通过改进Shark算法来提高搜索相关网页的能力以及降低优先排序空间复杂度和时间复杂度,提高搜索效率、节约大量时间和资源。再次,为了提高网络爬虫的自适应性,本文针对传统网络爬虫存在的价值评价标准单一的问题,提出了一种基于综合价值的综合爬行策略,此策略根据不同的搜索阶段选择采用符合实际情况的最优搜索策略。最后,本研究采用改进的Shark算法和自行设计的综合爬行策略相结合,实现了一个基于多种搜索策略的主题搜索引擎网络爬虫系统原型。本系统综合了网页的相关性和重要性两方面的需要,不仅能够准确、自动地爬行到主题相关网页,从而提高信息搜索的效率,而且还可节约网络带宽,具有良好的稳定性。另外,本系统URL的优先级侧重点是可调和,具有很强的灵活性。6.期刊论文夏诏杰.梁春燕.郭力.XiaZhaojie.LiangChunyan.GuoLi化学主题网络爬虫的设计和实现-计算机工程与应用2006,42(10)由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心.同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求.本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究.结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页.7.学位论文陈丛丛主题爬虫搜索策略研究2009随着Web多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供数据更全面精确、时间复杂度更低的因特网搜索服务。在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web链接信息抓取。首先,本文基于现阶段国内外网络爬虫的研究进展,在分析和比较现有主题网络爬虫搜索策略的优缺点的基础上,探讨了网络爬虫主题价值预测的准确性、重要性。其次,作为主题网络蜘蛛搜索策略的核心部分,本文对主题信息的表示和主题相关性判断算法做了详细介绍。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。再次,本文提出了HITS改进算法Topic-HITS,把主题特征加入到HITS算法中,网页的链接结构从主题这个更细化的粒度进行链接分析,针对每一个页面,引入主题权威值向量,并进一步讨论了网站级别的权威值和中心值向量计算公式。最后,
本文标题:主题搜索引擎的关键技术研究与实现
链接地址:https://www.777doc.com/doc-5202455 .html