您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 创业/孵化 > solr全文检索_初级教程
ApacheSolr初学者——初级教程(介绍、安装部署、Java接口、中文分词)ApacheSolr介绍Solr是什么?Solr是一个开源的企业级搜索服务器,底层使用易于扩展和修改的Java来实现。服务器通信使用标准的HTTP和XML,所以如果使用Solr了解Java技术会有用却不是必须的要求。Solr主要特性有:强大的全文检索功能,高亮显示检索结果,动态集群,数据库接口和电子文档(Word,PDF等)的处理。而且Solr具有高度的可扩展,支持分布搜索和索引的复制。Lucene是什么?Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene目前是ApacheJakarta家族中的一个开源项目。也是目前最为流行的基于Java开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于Lucene,比如Eclipse帮助系统的搜索功能。Lucene能够为文本类型的数据建立索引,所以你只要把你要索引的数据格式转化的文本格式,Lucene就能对你的文档进行索引和搜索。SolrVSLuceneSolr与Lucene并不是竞争对立关系,恰恰相反Solr依存于Lucene,因为Solr底层的核心技术是使用ApacheLucene来实现的,简单的说Solr是Lucene的服务器化。需要注意的是Solr并不是简单的对Lucene进行封装,它所提供的大部分功能都区别于Lucene。安装搭建Solr安装Java虚拟机Solr必须运行在Java1.5或更高版本的Java虚拟机中,运行标准Solr服务只需要安装JRE即可,但如果需要扩展功能或编译源码则需要下载JDK来完成。可以通过下面的地址下载所需JDK或JRE:OpenJDK()Sun()IBM()Oracle()安装步骤请参考相应的帮助文档。安装中间件Solr可以运行在任何Java中间件中,下面将以开源ApacheTomcat为例讲解Solr的安装、配置与基本使用。本文使用Tomcat5.5解压版进行演示,可在下面地址下载最新版本安装ApacheSolr下载最新的Solr本文发布时Solr1.4为最新的版本,下文介绍内容均针对该版本,如与Solr最新版本有出入请以官方网站内容为准。Solr官方网站下载地址:程序包的目录结构build:在solr构建过程中放置已编译文件的目录。client:包含了一些特定语言调用Solr的API客户端程序,目前只有Ruby可供选择,Java客户端叫SolrJ在src/solrj中可以找到。dist:存放Solr构建完成的JAR文件、WAR文件和Solr依赖的JAR文件。example:是一个安装好的Jetty中间件,其中包括一些样本数据和Solr的配置信息。oexample/etc:Jetty的配置文件。oexample/multicore:当安装Slormulticore时,用来放置多个Solr主目录。oexample/solr:默认安装时一个Solr的主目录。oexample/webapps:Solr的WAR文件部署在这里。src:Solr相关源码。osrc/java:Slor的Java源码。osrc/scripts:一些在大型产品发布时一些有用的Unixbashshell脚本。osrc/solrj:Solr的Java客户端。osrc/test:Solr的测试源码和测试文件。osrc/webapp:Solrweb管理界面。管理界面的Jsp文件都放在web/admin/下面,可以根据你的需要修改这些文件。Solr的源码没有放在同一个目录下,src/java存放大多数文件,src/common是服务器端与客户端公用的代码,src/test放置solr的测试程序,serlvet的代码放在src/webapp/src中。Solr主目录结构一个运行的Solr服务其主目录包含了Solr的配置文件和数据(Lucene的索引文件)Solr的主目录展开后为如下结构:bin:建议将集群复制脚本放在这个目录下。conf:放置配置文件。oconf/schema.xml:建立索引的schema包含了字段类型定义和其相关的分析器。oconf/solrconfig.xml:这个是Solr主要的配置文件。oconf/xslt:包含了很多xslt文件,这些文件能将Solr的XML的查询结果转换为特定的格式,比如:Atom/RSS。data:放置Lucene产生的索引数据。lib:放置可选的JAR文件比如对Slor扩展的插件,这些JAR文件将会在Solr启动时加载。发布运行Solr将apache-solr-1.4.0/dist/apache-solr-1.4.0.war从安装包中解压到tomcathome/webapps下。WAR是一个完整的web应用程序,包括了Solr的Jar文件和所有运行Solr所依赖的Jar文件,Jsp和很多的配置文件与资源文件,这里需要注意的是:WAR文件中不包括Solr主目录,因此在启动tomcat之前我们要先指定Solr的主目录。将安装程序中的apache-solr-1.4.0/example/solr文件夹解压到tomcathomt/下,然后在tomcathome/bin/catalina.bat第一行添加如下内容:setJAVA_OPTS=%JAVA_OPTS%-Dsolr.solr.home=tomcathome/solr注:Windows以外操作系统需修改catalina.sh文件。启动tomcat,apache-solr-1.4.0.war自动发布为web应用。点击链接访问Solr控制台界面,,显示如下界面表示启动成功。图1Solr欢迎界面图2管理控制台界面使用Java接口访问Solr服务SolrJ是Solr服务器的一个Java接口,使用该接口再也不同为虑客户端与服务器端交互时格式解析和转换的问题烦恼了,取而代之的是用你熟悉的对象来进行相关的操作,而且随着Solr的不断升级SolrJ也会同样提供这些新加入的功能。SolrJ(Solr1.4)依赖的Jar包commons-codec-1.3.jarcommons-fileupload-1.2.1.jarcommons-httpclient-3.1.jarcommons-logging-1.0.4.jarcommons-io-1.4.jargeronimo-stax-api_1.0_spec-1.0.1.jarsolr-solrj-1.4.0.jarwstx-asl-3.2.7.jarstax-api-1.0.1.jarslf4j-api-1.5.5.jarslf4j-simple-1.5.5.jar
本文标题:solr全文检索_初级教程
链接地址:https://www.777doc.com/doc-2849946 .html