您好,欢迎访问三七文档
Lucene视频教程-基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎一、Lucene视频教程课程内容介绍:1、整体思路整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene和solr进行索引和搜索。如下图所示:在网页去重、解析html讲解java开发,在搜索服务工具的封装中,讲解设计模式,项目的前端采用jquery,后台采用SSH2。2、Lucene视频教程内容安排:一、理论部分:2.1、搭建heritrix1.什么是网络爬虫2.网络爬虫能做什么3.Heritrix原理4.Heritrix搭建2.2、如何进行主题抓取1.什么是主题抓取2.主题抓取的意义3.主题抓取的策略4.如何用heritrix进行主题抓取2.3、heritrix优化1.ELFHash算法2.关于robot.txt3.将heritrix打包成工具2.4、解析html页面1.java正则表达式2.基于模板获取网页内容3.利用htmlparser解析html2.5、中文分词介绍1.Lucene自带的分词2.ICTCLAS3.IK4.利用机器学习的算法识别中文文章中的领域词2.6、网页去重1.网页去重的意义2.网页去重的主要方法3.什么是tf*idf4.基于指纹算法的网页去重2.7、Lucene4.6快速索引与搜索1.如何用lucene创建索引2.如何用lucene搜索结果3.Lucene中intfield怎么搜索4.Lucene的结果高亮显示2.8、Lucene4.6索引的相关操作1.创建索引2.修改索引3.删除索引4.索引优化2.9、Lucene4.6的query、及queryparser1.TermQuery2.BooleanQuery3.TermRangeQuery4.NumericRangeQuery5.PrefixQuery6.PhraseQuery7.MultiPhraseQuery8.FuzzyQuery9.WildcardQuery10.queryparser2.10、Lucene的Filter及自定义排序1.Filter2.Lucene自带排序及指定权重3.Lucene自定义排序2.11、Solr快速索引与搜索1.什么是solr2.为什么工程中要使用solr3.Solr的原理4.如何在tomcat中运行solr5.如何利用solr进行索引与搜索2.12、Solr的查询及Filter1.solr的各种查询2.solr的Filter3.solr的排序4.solr的高亮2.13、Solr的facet介绍1.solr的某个域统计2.solr的范围统计2.14、Solrcloud集群搭建1.zookeeper简介2.solrcloud集群搭建2.15、搜索服务的工具封装1.工厂模式2.封装搜索服务_lucene3.封装搜索服务_solr4.将lucene与solr封装成可以配置的工具,可以支持任何业务系统二、Lucene视频教程项目部分:2.16、Lucene视频教程项目实战1.项目需求分析及框架选择2.Struts2.3.16介绍3.Struts2.3.16整合Spring4.0.14.Spring4.0.1整合hibernate4.3.15.利用jquery-easyui1.3.5做后台管理页面6.Heritrix在工程中的运用7.封装好的搜索框架在工程中的运用8.Flexpaper模仿百度文库9.文件上传10.相关代码编写11.搜索结果优化12.项目总结三、Lucene视频教程课程亮点3.1对heritrix进一步封装,可以按照需求配置,单独运行。3.2对lucene4.6.0与solr4.6.0进行封装,通过配置就可以对绝大多数的业务系统进行数据库及其文件的索引、搜索。3.3对目前最新的ssh(struts2.3.16spring4.0.1hibernate4.3.1)整合,并结合目前最新的版本的jquery-easyui1.3.5,构建了一个完整的垂直搜索引擎。3.4整个课程的理论部分,参看了大量的核心期刊论文,并针对目前中文分词,用纯java代码实现了一种基于无监督的识别方法。另外,实现了文本的特征抽取TF*IDF算法,最小编辑距离算法,文本相似度算法(传统的夹角余弦及指纹算法)。Lucene视频教程-基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎下载地址:
本文标题:Lucene视频教程-基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战
链接地址:https://www.777doc.com/doc-2881498 .html