Lucene分析与应用

Lucene分析与应用

吴众欣, 沈家立, 编著

出版社:机械工业出版社

年代:2008

定价:38.0

书籍简介:

本书介绍Lucene工作原理及应用。

书籍目录:

前言

第1章搜索引擎与Lucene

1.1搜索引擎与Lucene简介

1.1.1搜索引擎分类

1.1.2Lucene项目简介

1.1.3其他搜索引擎开发包介绍

1.2Lucene的系统架构

1.2.1Lucene最简示例

1.2.2Lueene采用的索引结构

1.2.3Lucene软件包架构

1.3本书的章节导航

第2章文档逻辑视图与文本分析

2.1文档逻辑视图

2.2Lucene的文本分析过程简介

2.3空格解析器(WhitespaceAnalyzer)

2.3.1空格分词器(WhitespaceTokenizer)

2.3.2Token(标志)

2.4标准解析器(StandardAnalyzer)

2.4.1标准分词器(StandardTokenizer)

2.4.2标准过滤器

2.5打造自己的解析器

2.5.1常用的中文分词法

2.5.2对CJKAnalyzer的分析

2.5.3构造自己的解析器

第3章Lucene创建索引之一(段索引方式与倒排索引结构)

3.1倒排结构与段索引方式

3.2索引写入过程概述

第4章Lucene创建索引之二(在内存中创建索引)

4.1创建Document层面索引

4.2写入field信息

4.3文件倒排过程

4.4填写postin,able

4.5postingTable的排序过程

4.6写入field名字文件(.fnm文件)

4.7写入field信息文件(.fdt,.fdx文件)

4.8写入频率与位置文件(.frq与.prx文件)

4.9TermVector方式写入索引(.tvf,.tvd与.tvx文件)

4.10字典文件(.tis与.tii文件)

4.11写入规格化文件

第5章Lucene创建索引之三(索引合并过程)

5.1document层面的合并过程

5.2field与term的合并过程

5.2.1field信息合并过程

5.2.2term信息合并过程

5.2.3合并norm信息

5.3Lunece索引采用的压缩算法

5.3.1frontcoding(端部编码)

5.3.2variable-bytecoding(变长字节编码)

5.3.3delta-coding或deha-encoding

5.4小结

第6章Lucene查询过程之一(查询模型与引擎预热)

6.1查询模型

6.1.1向量模型

6.1.2布尔模型

6.1.3Lucene的评分(score)方式

6.2查询简单示例

6.3引擎预热

6.3.1获得并打开索引文件

6.3.2获得segment信息

6.3.3FSDirectory打开索引过程

6.3.4获得field信息

6.3.5获得term信息

第7章Lucene查询过程之二(查询解析与语法)

7.1构建查询解析器(QueryParser)

7.2Lucene的查询语法

7.2.1项(Tcrm)查询

7.2.2域(Field)

7.2.3词条查询(TermModifiers)

7.2.4布尔操作符(BooleanOperator)

7.2.5组合查询(Grouping)

7.2.6针对field的组合查询(FieldGroupingField)

7.2.7EscapingSpecialCharacter(转义字符)

7.3Lucene查询语法树的构建过程

7.3.1过程分析

7.3.2语法树分析实例

第8章Lucene查询过程之三(相似度匹配与算法分析)

8.1查询与相似度计算

8.1.1查询器(Searcher)的查询过程

8.1.2查询语句的权重计算

8.1.3获得topK个document

8.2Lncene查询算法分析

8.2.1相似度计算简单实例

8.2.2线性相似度计算

8.2.3基于倒排索引的相似度计算

8.2.4Lucene的相似度计算

第9章Lucene标引与查询全程示例

9.1实例描述

9.2建立索引过程

9.2.1选择文档中建立索引的.field

9.2.2选择field录入方式

9.2.3生成segment文件

9.2.4生成fields文件

9.2.5posting文件

9.2.6合并segmentindex生成index文件

9.2.7合并后的文件关系

9.3查询过程

第10章Lucene的常用应用场景分析

10.1对大型XML文档集合的检索

10.1.1都柏林文件介绍

10.1.2XML分析器介绍

10.1.3Lucene在大型XML文件中的应用

10.2MuhiSearcher的应用

10.2.1MultiSearcher的应用

10.2.2ParallelMuhiSearcher的应用

第11章利用Lucene构建分布式搜索引擎

11.1分布式文件系统和Hadoop

11.1.1Hadoop文件系统体系结构

11.1.2系统交互过程:单一NameNode方式

11.1.3系统组件描述

11.2Nutch简单剖析

11.3体验Nutch

附录ATestIndexWriterMerging

附录BTestDocumentWriter与DocHelper

内容摘要:

  本书对Lucene搜索引擎的源代码进行分析讲解,并用一些具体实例把所有源代码进行组织与剖析,完整地层示Lucene从建立索引到查询的过程。本书通过介绍Lucene的应用,分析Lucene具体项目开发的应用环境。最后简单地介绍了Nutch和Hadoop。本书适用于开发搜索引擎的技术人员、Lucene爱好者等读者。  本书通过对Lucene源代码的解说、辅以图表,并用一些具体实例把所有源代码进行组织与剖析,完整地展示Lucene从建立索引到查询的过程。本书还通过介绍Lucene的应用,体验Lucene具体项目开发的应用环境。最后简单地介绍了Nutcl、和Hadoop。  本书尤其针对查询过程的算法分析道出了Lucene性能秘密,作者把Lucene开发者对查询性能的思考历程通过示例展示出来,将Lucene最精华的,最富有神秘色彩的代码剖析明白,这也是本书与其他Lucene书籍不同之处!  本书适用于搜索引擎技术研究人员、Lucene爱好者、对搜索引擎内核与运行机制感兴趣的读者阅读。

书籍规格:

书籍详细信息
书名Lucene分析与应用站内查询相似图书
丛书名原创精品系列
9787111249924
如需购买下载《Lucene分析与应用》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位机械工业出版社
版次1版印次1
定价(元)38.0语种简体中文
尺寸26装帧平装
页数 380 印数 5000

书籍信息归属:

Lucene分析与应用是机械工业出版社于2008.出版的中图分类号为 TP393.09 的主题关于 计算机网络-程序设计 的书籍。