开发自己的搜索引擎---Lucene+Heritrix(第2版)本书目录

如题所述

本书《Lucene+Heritrix(第2版)》涵盖了搜索引擎开发的全面内容,从基础入门到高级应用。

第1章介绍了搜索引擎历史,概述了Archie、Gopher、Robot和Spider的发展,以及Infoseek、AltaVista、Google和Baidu等重要里程碑。同时,讲解了信息检索系统基础,Lucene的核心概念,以及评价搜索引擎的关键标准。

第2章深入剖析Lucene开发,包括实例演示,从文档预处理和Eclipse工程创建开始,详细解释了索引类、搜索类的创建,以及索引建立过程、文件格式优化、文档删除和同步问题。IndexModifier类的使用也在此部分详细介绍。

第3章关注Lucene搜索,通过IndexSearcher、Hits类和评分机制,演示基础和高级搜索,包括评分方法和文档向量空间模型。

第4-7章则更专注于具体技术细节:第4章详细讲解Query对象,如TermQuery、BooleanQuery、RangeQuery,以及QueryParser的使用。第5章阐述排序、过滤和分页技术,第6章深入Lucene的分析器和高级配置,第7章探讨处理Word、Excel和PDF文档的方法。

第8章至第11章,涵盖Compass框架配置、Lucene分布式、Google Search API、Heritrix网络爬虫以及综合实例,其中7.1-7.5介绍xpdf和POI的使用,8.1-8.5讲解Compass框架,9.1-9.3涉及分布式和Google API,10.1-10.4涉及Heritrix的下载和运行,11.1-11.2提供搜索引擎综合实例的准备。

在实践部分,如第14章,作者展示了如何定制Heritrix抓取特定网站,如网易手机频道,并构建产品信息索引。章节还包括搜索引擎Web界面的搭建,如搜索主页面、图片显示和详细信息页面的实现。

通过本书,读者不仅能学习到Lucene和Heritrix的理论知识,还能掌握其实战应用技巧,全面提升搜索引擎开发能力。
温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网