自己动手写搜索引擎
自己动手写搜索引擎封面图

自己动手写搜索引擎

罗刚, 编著

出版社:电子工业出版社

年代:2009

定价:40.0

书籍简介:

本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。

书籍目录:

第1章遍历搜索引擎技术1

1.130分钟实现的搜索引擎1

1.1.1准备工作环境(10分钟)1

1.1.2编写代码(15分钟)3

1.1.3发布运行(5分钟)5

1.2Google神话9

1.3体验搜索引擎9

1.4搜索语法10

1.5你也可以做搜索引擎13

1.6搜索引擎基本技术14

1.6.1网络蜘蛛14

1.6.2全文索引结构14

1.6.3Lucene全文检索引擎15

1.6.4Nutch网络搜索软件16

1.6.5用户界面17

1.7商业搜索引擎技术介绍19

1.7.1通用搜索19

1.7.2垂直搜索20

1.7.3站内搜索21

1.7.4桌面搜索23

1.8本章小结24

第2章获得海量数据25

2.1自己的网络蜘蛛25

2.1.1抓取网页25

2.1.2网络蜘蛛遍历与实现26

2.1.3改进网络蜘蛛30

2.1.4MP3抓取34

2.1.5RSS抓取36

2.1.6图片抓取38

2.1.7垂直行业抓取39

2.2抓取数据库中的内容42

2.2.1建立数据视图42

2.2.2JDBC数据库连接43

2.2.3增量抓取45

2.3抓取本地硬盘上的文件47

2.4本章小结49

第3章提取文档中的文本内容50

3.1从HTML文件中提取文本50

3.1.1HtmlParser介绍53

3.1.2结构化信息提取63

3.1.3查看网页的DOM结构68

3.1.4正文提取的工具NekoHTML71

3.1.5网页去噪73

3.1.6网页结构相似度计算76

3.1.7网站风格树去除文档噪声80

3.1.8正文提取92

3.2从非HTML文件中提取文本98

3.2.1TEXT文件98

3.2.2PDF文件98

3.2.3Word文件105

3.2.4RTF文件106

3.2.5Excel文件107

3.2.6PowerPoint文件108

3.3流媒体内容提取109

3.3.1音频流内容提取109

3.3.2视频流内容提取111

3.4抓取限制应对方法113

3.5本章小结114

第4章中文分词115

4.1Lucene中的中文分词115

4.2Lietu中文分词的使用116

4.3中文分词的原理117

4.4查找词典算法118

4.5最大概率分词方法123

4.6新词发现127

4.7词性标注129

4.8本章小结139

第5章自然语言处理140

5.1语法解析树140

5.2文档排重141

5.3中文关键词提取142

5.3.1关键词提取的基本方法142

5.3.2从网页中提取关键词145

5.4相关搜索145

5.5拼写检查148

5.5.1英文拼写检查148

5.5.2中文拼写检查149

5.6自动摘要153

5.6.1自动摘要技术153

5.6.2自动摘要的设计154

5.6.3Lucene中的动态摘要162

5.7自动分类163

5.7.1Classifier4J164

5.7.2自动分类的接口定义165

5.7.3自动分类的SVM方法实现166

5.7.4多级分类167

5.8自动聚类170

5.8.1聚类的定义170

5.8.2K均值聚类方法170

5.8.3K均值实现173

5.9拼音转换179

5.10语义搜索180

5.11跨语言搜索186

5.12本章小结188

第6章创建索引库189

6.1设计索引库结构190

6.1.1理解Lucene的索引库结构190

6.1.2设计一个简单的索引库192

6.2创建和维护索引库193

6.2.1创建索引库193

6.2.2向索引库中添加索引文档194

6.2.3删除索引库中的索引文档196

6.2.4更新索引库中的索引文档197

6.2.5索引的合并197

6.2.6索引的定时更新197

6.2.7索引的备份和恢复198

6.2.8修复索引199

6.3读写并发控制200

6.4优化使用Lucene200

6.4.1索引优化201

6.4.2查询优化202

6.4.3实现时间加权排序206

6.4.4实现字词混合索引207

6.4.5定制Similarity214

6.4.6定制Tokenizer215

6.5查询大容量索引217

6.6本章小结218

第7章用户界面设计与实现219

7.1Lucene搜索接口(search代码)219

7.2搜索页面设计221

7.2.1用于显示搜索结果的taglib221

7.2.2用于搜索结果分页的taglib223

7.2.3设计一个简单的搜索页面225

7.3实现搜索接口227

7.3.1布尔搜索227

7.3.2指定范围搜索228

7.3.3搜索结果排序233

7.3.4搜索页面的索引缓存与更新234

7.4实现关键词高亮显示236

7.5实现分类统计视图239

7.6实现相似文档搜索244

7.7实现AJAX自动完成246

7.7.1总体结构247

7.7.2服务器端处理247

7.7.3浏览器端处理249

7.7.4服务器端改进250

7.7.5部署总结261

7.8jQuery实现的自动完成262

7.9集成其他功能267

7.9.1拼写检查267

7.9.2分类统计267

7.9.3相关搜索271

7.9.4再次查找274

7.9.5搜索日志275

7.10搜索日志分析276

7.11本章小结280

第8章其他高级主题281

8.1使用Solr实现分布式搜索281

8.1.1Solr服务器端的配置与中文支持282

8.1.2把数据放进Solr287

8.1.3删除数据289

8.1.4客户端搜索界面290

8.1.5Solr索引库的查找292

8.1.6索引分发294

8.1.7Solr搜索优化298

8.1.8Solr中字词混合索引302

8.1.9相关检索304

8.1.10搜索结果去重307

8.1.11分布式搜索311

8.1.12SolrJ查询分析器315

8.1.13扩展SolrJ325

8.1.14扩展Solr327

8.1.15Solr的.NET客户端333

8.1.16Solr的PHP客户端334

8.2图像的OCR识别336

8.3竞价排名343

8.4Web图分析344

8.5使用并行程序分析数据350

8.6RSS搜索351

8.7本章小结353

参考资料354

内容摘要:

  本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书选用Lucene来全方位展现一个商用级别的搜索解决方案,重点介绍了中文分词的相关理论和代码实现,以及在搜索引擎中实用中文分词等细节。本书用简单的例子介绍了搜索引擎完整的实现过程,同时也没有忽略一些经典的算法实现。  该书适合需要具体实现搜索引擎的程序员使用,对于自然语言处理等相关研究人员也有一定参考价值,同时猎兔搜索团队也已经开发出以本书为基础的专门培训课程。  本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。  爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。  自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。  其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。  在实现搜索方面,本书用简单的例子介绍了完整的搜索实现过程,覆盖了从索引库的设计和索引库与数据库的同步到搜索用户界面设计与实现。搜索用户界面包括实现布尔逻辑查询、按区间范围查询、搜索结果按日期排序等。本书还进一步介绍了搜索排序的优化方法。  最后以基于Lucene的搜索服务器Solr为例,展示了Lucene的最新应用方法。【作者简介】  罗刚,猎兔搜索(http://www.lietu.com)创始人,当前猎兔搜索在北京和上海均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。

书籍规格:

书籍详细信息
书名自己动手写搜索引擎站内查询相似图书
9787121096402
如需购买下载《自己动手写搜索引擎》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位电子工业出版社
版次1版印次1
定价(元)40.0语种简体中文
尺寸26 × 0装帧平装
页数印数 5000

书籍信息归属:

自己动手写搜索引擎是电子工业出版社于2009.9出版的中图分类号为 G354.4 的主题关于 互联网络-情报检索 的书籍。