您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 基于Lucene的全文搜索引擎设计
基于Lucene的搜索引擎作者姓名:王旭专业班级:2010050704指导教师:涂德志摘要从1994年至今,万维网经过了二十年的飞速发展,当前的万维网数据规模到底有多大无从估量。随着网络信息资源的急剧增长,现如今,信息已经不再是一种稀缺的资源,我们的注意力反而变得稀缺了。人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎提供了一种便捷的获取网络信息的途径,只要你能在电脑上打字,那么你就能通过“输入关键字+自行浏览”的用户交互方式快速查找到自己感兴趣的资源。目前Web搜索引擎(SearchEngine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。搜索引擎是指互联网上一种提供用户查询的一类应用。通过人工目录整理或者是网络爬虫收集互联网上已经存在的网页,在用户输入查询词后,将相关网页迅速展现给用户。用户自行浏览后选择最合适期望的链接,进入查看。关键词:网络信息资源Web搜索引擎查询ABSTRACTSince1994,theWorldWideWebaftertwodecadesofrapiddevelopment,howmuchthecurrentsizeoftheWorldWideWebisincalculable.Withtherapidgrowthofnetworkinformationresources,nowadays,theinformationisnolongerascarceresource,however,ourattentionbecamescarce.moreandmoreconcernedabouthowquicklyandefficientlyfromthevastamountsofnetworkinformation,toextractpotentiallyvaluableinformationtoeffectivelyplayaroleinthemanagementanddecision-making.Searchenginesprovideaconvenientwaytoobtainnetworkinformation,aslongasyoucantypeonacomputer,thenyoucanthroughthemode:keywords+browse,toquicklyfindtheresourcesyouareinterested.CurrentlyWebsearchengine(SearchEngine)technologyisbecomingthetargetcomputerscienceandinformationindustrycompeteondevelopment.SearchengineontheInternetreferstoamethodofprovidingauserqueriesaclassofapplications.SortingthroughartificialcatalogorwebcrawlerstocollectWebpagesontheInternetalreadyexist,aftertheuserentersthequerywords,therelevantpagesquicklypresentedtotheuser.Choosethemostappropriatelink,browsethedesiredpostintoview.Keywords:NetworkInformationResourcesWebSearchEngineConsultI目录第1章前言.............................................................11.1搜索引擎的学术背景与实际意义.................................11.2国内外文献综述................................................21.3课题来源及主要研究内容........................................2第2章相关技术介绍.......................................................42.1JSP与Tomcat...................................................42.2SQLSever数据库...............................................42.3Ajax简介......................................................52.4Lucene介绍....................................................5第3章搜索引擎原理.......................................................83.1搜索引擎体系结构..............................................83.2搜索引擎主要模块功能介绍......................................93.2.1搜索器(Crawler)........................................103.2.2索引器(Indexer)........................................113.2.3检索器(Searcher)........................................123.2.4用户接口((UserInterface)................................12第4章系统分析..........................................................134.1需求分析......................................................134.2系统可行性分析...............................................134.2.1社会可行性分析......................................134.2.2技术可行性分析......................................144.2.3经济可行性分析......................................14第5章总体设计..........................................................155.1系统构架......................................................155.1.1索引建立子系统..........................................16II5.1.2用户接口子系统..........................................165.2数据库设计...................................................165.3实现环境配置.................................................18第6章详细设计..........................................................196.1建立索引.....................................................196.2文件搜索实现................................................196.3数据库搜索实现..............................................216.4后台数据编辑实现............................................22第7章系统测试..........................................................247.1测试重要性....................................................247.2测试用例......................................................25结论....................................................................27致谢....................................................................28参考文献.................................................................29成都理工大学2014届学士学位论文(设计)1第1章前言1.1搜索引擎的学术背景与实际意义万维网是互联网最主要的组成部分,也是人们获取网络信息的最主要的来源。1994年,蒂姆·伯纳斯·李创立万维网联盟(WorldWideWebConsortium,),在万维网的整体构架中,通用资源标识符、超文本标记语言和超文本传输协议这三个元素是万维网的核心,缺一不可。再随后的几十年当中,由于万维网的开放性和其上信息广泛的可访问性,不出意料的成为了互联网的霸主。目前,是以网页为主的互联网时代,以Web网页为对象的搜索引擎检索系统相继产生了,搜索引擎成为人们上网找寻信息的重要手段,搜索引擎的产生,使得人们能够快速的从互联网找到与自己需求相关的网页链接。人工智能、数据挖掘的进一步研究以及现在网页的特性使得搜索引擎技术进一步发展,在搜索后,甚至还有意料之外的收获。2008年,Google在其官方博客上称,仅其页面搜索量就已经高达1万亿个网页,而且现在互联网上的网页数每天都有数以万计的数量增长。Yahoo是出现最早的目录式搜索引擎,全文搜索引擎Google的出现得到了广大网民的认可,并迅速占领了全球市场,到现今国内的如Baidu、新浪爱问、腾讯搜搜、Sogou等,搜索引擎的品牌愈来愈多,服务也越来越丰富。同时,伴随着Web2.0的普及,网络信息的膨胀速度呈指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要键入全文检索的功能。目前,搜索引擎已经不仅仅是采集网页中已经存在的信息并提供给用户访问的工具,它正朝着组建一个大的社区方向发展。Google是目前不可争议的第一大搜索引擎,在这个社区里你可以浏览新闻、地图查看、浏览新闻、收发邮件、翻译你想要翻译的外文文献以及搜索你想要浏览的网页等等。另外,如大家比较熟悉的百度,相继开发的百度百科、百度知道、百度贴吧、百度文库等一系列的社区功能,也吸引了大量用户。搜索引擎构建的社区正在慢慢的融入人们的生活与学习。成都理工大学2014届学士学位论文(设计)21.2国内外文献综述搜索引擎,又称搜索机,Web搜索器,是伴随网络出现的检索网上信息资源的新工具,实质上是一种网页网址检索系统。根据查询方式的不同,搜索引擎也有不同的分类,它们有的提供分类和关键词检索途径,有的仅提供关键词检索途径。提供关键词检索是通过主要由Crawler、Spider、Worm、Robot等计算机软件程序
本文标题:基于Lucene的全文搜索引擎设计
链接地址:https://www.777doc.com/doc-2570453 .html