您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 校园网搜索引擎系统的设计与实现
山东大学硕士学位论文校园网搜索引擎系统的设计与实现姓名:刘琳申请学位级别:硕士专业:软件工程指导教师:马军20070420://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://校园网搜索引擎系统的设计与实现作者:刘琳学位授予单位:山东大学相似文献(10条)1.期刊论文李鲜花.孙静宇.陈俊杰.LIXian-hua.SUNJing-yu.CHENJun-jie搜索引擎-浏览器插件-推荐引擎模式研究-广西师范大学学报(自然科学版)2010,28(1)借助浏览器插件技术可以弥补主流搜索引擎无法有效利用用户搜索经验的不足,可更好地实现个性化Web搜索.为此提出一种新的个性化Web搜索模式,即搜索引擎一浏览器插件一推荐引擎模式,给出一种基于案例推理的个性化Web搜索推荐系统体系结构,探讨了搜索经验的获取、表示与组织等,介绍了案例模型的基本结构.此外,介绍了基于上述模式开发的ExpertRec原型系统.2.学位论文李富萍基于多Agent的信息搜索引擎技术研究与应用2005的发展给人们带来了巨大的变化,面对如此大量的信息,人们迫切需要有效的信息发现工具在技术的发展,为了满足用户日益增长的需要,基于多Agent的搜索引擎也被广泛研究.本论文在对Intemet信息收集处理及多Agent技术的研究基础上,设计开发了一个用于Web信息搜索的基于多Agent的搜索引擎试验系统SEBMA(SearchEngineBasedonMulti-Agent),它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,较好地解决了大规模Internet信息收集和提高信息检索准确率的问题.文中首先给出了SEBMA试验系统的需求分析,对系统特性划分和基本用例分析进行了描述;其次,对基于多Agent的搜索引擎解决方案整体结构及系统各Agent功能模块进行了说明,并对系统采用的插件式Agent构造方法、Agent通信语言、主机Agent管理调度等方面进行了详细介绍;然后对网络蜘蛛、移动远程信息收集Agent、中文分词和全文索引建立、个人偏好处理以及搜索引擎信息检索等相关技术进行了分析研究;最后给出了系统设计开发及其相关技术的介绍,并对该试验系统测试环境、测试用数据以及测试结果进行了说明.由于我们的设计目标是开发一个理论验证性质的系统,所以目前还达不到实际应用的程度.文中指出了需要完善的地方并提出了系统发展计划.3.学位论文孟祥雨校园网中课件资源的爬取与检索2008伴随着人类科技的不断的进步,互联网已经成为人们获取信息增强联系的一个极为重要的方面。在信息增长速度惊人的今天,怎样从如此巨大的信息量中能够快速准确的获取我们需要的信息,于是互联网搜索引擎就作为行之有效的信息检索工具,切合人们的需要而诞生,而web搜索引擎技术,也成为计算机科学界和信息产业界一个热点。在校园网的建设中,出于教学的需要,同时也是校园网特色的体现,对于网络上优秀课件的检索可以更好的为老师和学生提供教学和学习上的方便。课件是根据教学大纲的要求,经过教学目标确定,教学内容和任务分析,教学活动结构及界面设计等环节,而加以制作的课程软件。它与课程内容有着直接联系。现在应用最广泛的多媒体课件形式是PPT,除此之外还有以DOC,PDF等格式保存在网络之中的课件,传统的搜索在信息获取的准确度和内容分析等方面存在着较为明显的缺陷,所以,如何更全面、更准确地获取网络之中的课件已经成为现在搜索领域的一个新课题新方向,也充满了挑战和机遇。作为一个比较新兴的方向,同时也存在着很多的实际问题,比如在网络上课件在保存的形式以及保存格式上的不统一不规范,分类的不明确等等。本文将实现一个在校园网内的对课件进行定向爬取,有着良好的结构化索引,并具有较高的检索准确率的课件检索系统,从而满足校园网搜索引擎的需要。本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合对校园网课件搜索引擎具体需求的分析,搭建了山东大学校园网课件搜索引擎系统。本文详细说明了该课件搜索引擎系统的开发过程和方法,并对搜索引擎的内部软件组织和数据结构、数据存储方法等内容都进行研究、分析和设计。本文还介绍了插件机制,在网络爬虫方面,利用到了定向的页面爬取,通过对爬取到课件相关网页进行信息的抽取建立多field的信息索引,从而用户可以通过多条件结构化查询方式来检索,并通过合适的相关性算法以及网页重要度的计算方法,计算出网页重要度,以对检索结果进行排序。借助了JAVA的索引软件包lucene作为底层来实现,利用eclipse来完成这一系统。4.期刊论文李富萍.曾建潮基于多Agent的搜索引擎设计研究-计算机应用2004,24(z2)提出一个Internet搜索引擎解决方案,它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,较好地解决了大规模Internet信息收集和提高信息检索准确率的问题.在Agent设计上采用了插件式的Agent构造方法,通过提供移动Agent平台来减少网络资源占用并解决快速信息更新的问题.对其系统结构进行了具体描述,并对系统的扩展性方面也进行了简单介绍.5.学位论文杨彬Web信息搜索技术的研究2007随着万维网的发展,Web上的信息资源正在以前所未有的速度增长。面对海量的数据,用户常常无法从中找到自己所需要的数据。如何使用户能够在网络中快速,准确的找到所需要的数据是Web信息检索面临的挑战。搜索引擎技术的出现,为用户提供了一种在Web中检索信息的简单的方法,使用户能够通过关键字进行相关资源的搜索。但是用户所需的资源种类不同,通用搜索引擎难以提供给用户足够的资源,因此出现了针对特定领域的搜索服务。RSS新闻搜索就是这类应用,它仅仅搜索RSS新闻资源。同时,越来越多的网络应用采用了:B/S模式,因此出现了许多集成在浏览器上的搜索服务,并提供其他方便用户的附加功能。本文首先介绍了信息检索技术的基本概念和模型,介绍了搜索引擎和元搜索引擎的基本结构;对基于链接分析的搜索引擎排序算法PageRank和HITS进行了分析和对比,在此基础上提出了基于概念的权重PageRank改进算法以及为页面标记概念的两种方法;提出了基于用户反馈的结果融合排名算法;详细介绍了RSS新闻搜索平台的结构,数据库模式设计,搜索操作的性能优化方法,主客观结合的新闻排名机制;最后介绍了一种浏览器插件,它主要提供一种为页面进行概念标记的方法,同时提供元搜索接口等其他服务。6.学位论文刘迟垂直搜索引擎的抓取技术研究2008垂直搜索引擎的概念,是针对某一特定行业领域提供有一定价值的信息和相关服务,它是搜索引擎的细分和延伸,是为用户提供符合专业用户操作行为的全新信息服务方式,本文是对垂直搜索引擎的抓取技术研究,主要关注垂直搜索引擎的抓取中所遇到的隐蔽网抓取、时效性以及性能和效率问题。本文首先介绍了垂直搜索抓取系统的体系结构,提出了一种分布式和基于可扩展插件的垂直搜索抓取系统框架,其分布式特性和插件模式都便于将来的扩展。然后讨论了垂直搜索抓取系统中隐蔽网抓取的三个问题,并针对隐蔽网抓取中结果消重的问题提出了一种自学习的中文地址判重方法;接下来针对垂直搜索的时效性问题提出了一种基于查询驱动的实时抓取方式;讨论了并比较了影响垂直搜索抓取系统的抓取模式、抓取策略和抓取频率,在本文的系统中采用了稳定持续模式、及时替换式更新、实时抓取与固定频率相结合的方式。本文最后进行了关于判重问题和时效性问题实验,通过实验,证明了本文提出的方法在应用中能获得更好的效果和用户体验。7.期刊论文陈艳春.李双平.ChenYanchun.LiShuangping基于Lucene的企业级搜索引擎的设计与实现-现代图书情报技术2007,(8)针对企业文档信息资源丰富而又缺乏有效搜索工具的问题,提出构建企业级搜索引擎.首先分析企业级搜索引擎应具有的功能和总体架构,在实现中,对Lucene索引器进行深入研究;在抓取器的体系设计中,采用插件设计思想,来对不同的文档类型解析、抽取;在任务调度方面,实现一套多任务并行的调度机制;在用户接口设计上,采用Yui-ext组件和DWR远程对象调用框架,实现Web方式下的异步通信,提升用户体验.学位论文曾维基于LUCENE的多媒体文件检索系统的设计与实现2009随着计算机互联网技术的飞速发展,网络上的网页及各种文本数字信息急剧增长,想要在庞大的数据中便捷、迅速地搜索到所需要的信息将变得越来越困难,信息检索技术日益成为研究的热点,目前流行的搜索引擎软件主要就是用来解决这个问题的。同时随着多媒体技术的发展,其中大量的信息以非文本形式的多媒体文件形式存在,如何高效检索这些数量庞大的多种媒体文件更是有着重要的应用价值。Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个开放源代码的搜索引擎工具包,它不是一个完整的搜索引擎,而是一个全文索引工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能,提供完整的查询和索引及部分文本分析功能。目前大量的应用都是利用Lucene对文本进行检索,而很少用来对多媒体文件进行检索。本文通过研究Lueene在
本文标题:校园网搜索引擎系统的设计与实现
链接地址:https://www.777doc.com/doc-5931456 .html