您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 商业计划书 > 主题搜索引擎的研究与应用
成都理工大学硕士学位论文主题搜索引擎的研究与应用姓名:黄波申请学位级别:硕士专业:地球探测与信息技术指导教师:苗放20070601主题搜索引擎的研究与应用作者:黄波学位授予单位:成都理工大学相似文献(10条)1.学位论文王常星基于中文分词的搜索引擎设计实现2008本项目是公司的电子商务网站项目下的一个关键子项目,项目的设计要求包括根据已有的分词算法,实现自有的中文分词系统,设计实现一个规模适中的搜索引擎系统,具备较强的扩展性和稳定性,控制搜索引擎的规模。虽然搜索引擎技术目前已经有较为成熟的解决方案,但是由于项目特别限定了搜索引擎,包括中文分词处理技术,都需要采用完全自有的设计方案,因此本文所针对的搜索引擎架构设计,以及中文分词算法的实现,都没有采用已经成型的开源设计方案。搜索引擎设计采用了层次化的设计结构,将搜索引擎划分为五个层次,分别是接口层,核心层,存储层,监控系统和中文分词系统。接口层负责处理外部程序与搜索引擎的通信过程。核心层包括四个子系统:中心控制系统,竞价系统,搜索节点和分词系统,中心控制系统是搜索引擎的核心调度系统,竞价系统是搜索引擎可以实现经济效益。存储层是搜索引擎索引数据的存储系统所在位置,其中包括了索引目录服务和数据存储节点,存储节点可随需求进行扩展,增撤节点只要在目录服务中作出相应更新就可以实现存储节点的扩展。搜索引擎集群在运行时,需要一个监控系统来实时监控系统各服务以及网络的运行状态,便于及时发现解决问题,保障系统的在线正常运行。中文分词子系统在查询和更新中被调用,进行信息的分词处理。搜索引擎个子系统间的通信,采用了成熟的HTTP协议,该协议性能稳定成熟,通过专门设计的HTTPServer达到非常高的传输性能。搜索引擎的索引数据随着时间的积累会越来越多,系统设计采取了分布式存储方式来满足搜索性能和存储容量的两方面要求,分布式的存储结构通过一个目录服务达到各节点数据同步的目的。分词系统实现了最大正向匹配切分结合tri-Gram排歧的分词方法。2.学位论文李晓东搜索引擎中中文分词与纠错模块的设计与实现2008随着互联网的蓬勃发展,各种应用服务层出不穷,搜索引擎是其中最流行的一种服务,仅次子电子邮件。伴随着搜索引擎的普及,越来越多的人通过使用搜索引擎,获取日常工作和生活中需要的信息。搜索引擎涉及多种技术,其中,自然语言处理技术是其中重要的一种,它可以帮助搜索引擎提高查询准确度,并丰富搜索引擎的特色功能。中文分词技术与中文纠错技术是自然语言处理技术的两个分支,可应用在搜索引擎的分析系统与检索系统中,对于提高用户检索效率和检索结果准确度具有十分重要的意义。论文选题来源于一个提供旅游信息搜索的搜索引擎系统。文中对中文分词技术和中文查询词纠错技术进行了研究,并从软件工程的角度出发,设计与实现了系统的中文分词模块与纠错模块。具体的工作包括:(1)对一种基于规则的分词算法进行了改进,使用双hash词典结构降低了算法正向、反向最大匹配时的匹配次数;使用正反最大匹配切分策略取代逐词切分策略,降低了算法切分字符串的次数,提高了算法的分词效率。(2)通过相关算法研究提出并实现了一种基于拼音hash词典的同音别字词纠错算法,应用于搜索引擎系统中,用于同音别字词的纠错。(3)改进了双字驱动词典的结构,并结合新的字符串模糊匹配算法对漏字多字查询词进行纠错,增强了系统对漏字多字查询词的纠错能力。(4)将词典技术与Ajax技术相结合,实现了查询词智能提示功能。(5)采用N-gram切分的新词识别算法,用于发现未登录词,实现分词词库的动态更新,提高了中文分词模块的分词准确度。(6)在漏字多字查询词纠错建议中,选择相似度在一定范围内、词频数高于某一阀值的纠错建议词条,作为相关查询词,模拟了相关查询词推荐功能的实现。3.期刊论文曹羽中.曹勇刚.金茂忠.刘超.CAOYu-zhong.CAOYong-gang.JINMao-zhong.LIUChao支持智能中文分词的互联网搜索引擎的构建-计算机工程与设计2006,27(23)中文分词技术对中文搜索引擎的查准率及查全率有重大影响.在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced.它可用作评测各类中文分词算法对搜索引擎的影响的实验平台.对NutchEnhanced的搜索质量与Nutch、Google、百度进行了,对比评测.结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量.4.学位论文朱海星基于Lucene的搜索引擎的研究与应用2007本文对搜索引擎技术进行了深入的研究,并且探讨和实现了搜索引擎在企业中的应用。分析了当前的几种中文分词技术,并在此基础上设计出了自己的中文分词算法,该算法达到了很好的中文分词效果。最终,利用Lucene和自行设计的中文分词工具实现了企业搜索引擎。全文的主要内容是:一、对搜索引擎的原理和组成进行了研究。二、由于搜索引擎在迅速激增的企业内部信息资源中的使用越来越重要,提出了针对企业信息的专业搜索引擎:企业搜索引擎技术。三、研究全文检索技术和中文分词技术,在研究前人的分词技术的基础之上,基于开源全文搜索引擎Lucene,实现了一个自己的中文分词算法。四、设计并实现了一个基于Web的企业信息搜索引擎。5.期刊论文顾爱华.赵泉.周塔.彭昱静.卫丽.徐莹莹.邹盛荣中文分词技术在搜索引擎中的探讨-科技信息2009(35)本文通过深入探讨中文分词菝术在搜索引擎中的算法描述,并详细介绍机器不断地学习新词、动态地维护词典的模型,尝试解决最棘手的处理新词问题,使其更好地为分词提供更智能描述特别是对新词.6.期刊论文王华栋.饶培伦.WANGHua-dong.RAOPei-lun基于搜索引擎的中文分词评估方法-情报科学2007,25(1)中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要.本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法.这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面.实例分析的结果表明此方法是行之有效的.在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等.7.学位论文马志强校园网搜索引擎核心技术——中文自动分词2006随着计算机技术和网络技术的不断发展,校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加,以及信息的分布存储,给用户检索信息带来了困难。导致校园网上大量资源得不到充分利用,造成了信息资源的浪费。校园网搜索引擎是一个对校园网内部信息资源进行搜集整理,然后供用户查询的系统,它包括信息搜集,中文分词,索引和检索四个部分。本课题是校园网搜索引擎课题的一个子课题。研究的目的是为校园网搜索引擎课题提供一个高效的中文分词软件包。为了实现这一目标,首先建立了中文分词子系统实验平台的结构模型以及与其它模块间的数据接口;然后,通过对词典结构机制、未登录词识别和分词算法的研究,提出了适合校园网搜索引擎中文分词的一整套解决方案。该方案是以机械分词为基础,包括逆向词库的建立与扩充、基于整词二分的二层索引结构、基于规则统计的未登录词识别算法以及改进的逆向最大匹配算法等。最后,实现了中文分词子系统实验平台以及中文分词软件包,并进行了速度和内存容量的测试,得到了字典占用内存4.28M,分词速度每秒11k字节的实验数据。实验表明,这个分词软件包可以满足当前校园网搜索引擎课题的使用。本论文中提到的中文分词子系统实验平台和中文分词软件包是在JDK1.4和Oracle9i上实现的。8.学位论文任海一基于上下文分析的中文分词算法研究2006随着Internet的迅速发展,网上信息不断丰富和发展起来。越来越多的人习惯在网上发布和获取信息。但是这些信息却是以各种形式庞杂无序地散布在无数的服务器上,更新变化快,用户要得到真正有价值的东西有很大的困难。因此,网络搜索引擎应运而生。然而,对于中文来讲,汉语以字为基本的书写单位。作为能够独立活动的有意义的最小语言成分的却是词。这与拉丁语系的语言以空格作为词界不同。在汉语中词与词之间没有明显的区分标记。因此在搜索引擎的整理加工阶段,重点需要解决的问题就在于如何准确的进行词的切分。本文专注于中文分词的优化性的研究,通过研究比对机械匹配算法和词频统计算法的各自的优缺点,提出应用马科夫链来表示中文分词的切分过程,并基于概率论提出语义切分理论,同时总结出语义信息函数,针对目前分词不准确,易于产生歧义等主要问题,对分词系统进行了优化处理,并最终提出了基于上下文分析的中文分词的算法。通过实验证明了基于上下文分析的中文分词算法的准确率提高,是目前较好的中文算法之一。本文的结构如下:第一章首先讲述搜索引擎的现状,由此进行对比中外搜索引擎的不同,同时引出中文搜索引擎的分词问题;第二章介绍中文分词的相关概念以及技术难点和基本状况;第三章主要阐述中文分词目前的研究成果和对主流的中文分词系统的分析;第四章主要讲解本文提出的基于上下文分析的中文分词算法的基本思想和实现目标。算法实现的过程,包括设计思想和实现的方法;第五章总结算法的不足之处,以及需要今后继续提高的部分。9.期刊论文李艳欣.LIYan-xin搜索引擎中中文分词的研究-电脑知识与技术(学术交流)2007,2(8)针对目前最常用的分词算法--最大匹配算法效率低,长度受限等缺点,在对中文编码体系和中文分词的算法进行研究的基础上,提出了一种新的词库数据结构.它支持首字Hash和标准二分查找,而且不限制词条的长度.然后介绍了基于该词库设计的一种快速的分词算法,并给出了算法的实现过程.10.学位论文陆宵宏基于P2P的搜索引擎的关键技术研究2009Peer-to-peer(P2P)技术的一个优势便是开发出强大的搜索工具。随着互联网的快速发展,搜索引擎作为一个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。就中文用户而言,提高搜索引擎的效率的关键因素是中文分词匹配效率与搜索引擎索引检索效率的提高。本文首先对P2P技术进行了阐述,包括P2P的定义、P2P模式与C/S模式的比较、P2P的特点以及P2P技术在搜索方面的应用及优势;其次对P2P搜索算法进行了分类探讨,重点研究和分析了几种P2P搜索算法,并指出它们的优缺点。对以传统索引方和倒排索引方这两种索引方式为核心的基于P2P的搜索引擎和其他几种典型的搜索引擎也进行了各方面的比较。接着,为了克服传统的集中式搜索引擎的缺点,针对中文分词本文提出了基于树状词库进行中文分词,这种经过优化的分词方法使传统的匹配算法效率得到大大地提高,并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制,使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。当前,这方向的研究还处于试验、探索阶段,某些方面在理论上还需要有所突破,逐步使搜索引擎更好地服务于用户。本文链接:下载时间:2010年5月14日
本文标题:主题搜索引擎的研究与应用
链接地址:https://www.777doc.com/doc-5122493 .html