大数据搜索与挖掘
大数据搜索与挖掘封面图

大数据搜索与挖掘

张华平, 高凯, 黄河燕, 赵燕平, 著

出版社:科学出版社

年代:2014

定价:75.0

书籍简介:

本书主要以作者十余年在工业控制网搜索与挖掘领域所作的研究与应用工作为内容,全面介绍我们在工业控制网信息预处理、挖掘(包括:工业控制网络分析、新特征抽取、分类等)、搜索等方面的研究成果,并介绍在工业网,包括中国邮政、中国证监会、四维图新等单位的实际应用案例。专著突出自己的研究成果为主,理论与实践并重,强调技术工程实现与实际应用。

作者介绍:

张华平,1978年出生。工学博士,北京理工大学副教授。毕业于中国科学院计算技术研究所。汉语词法分析系统ICTCLAS创始人,ICTCLAS在国家973评测和第1届国际汉语分词大赛中综合得分均获得第1名。   主要从事大数据搜索与挖掘、自然语言处理、信息检索等方面的研究工作,主持或参与国家自然科学基金、863、973、242等十余项课题。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中国科学院院长优秀奖、中国科学院计算技术研究所所长特别奖,是中国科学院计算技术研究所“百星计划”首批入选者。

书籍目录:

《信息科学技术学术著作丛书》序

前言

第1章绪论1

1.1大数据4

1.2云计算及HAdoop简介5

1.3Web搜索、全文索引与Lucene简介6

1.3.1Web搜索7

1.3.2全文索引

9

1.3.3Lucene简介11

1.4大数据挖掘13

1.5本书主要内容及其知识点14

1.6本章小结16

参考文献

17

第2章大数据搜索挖掘综述

18

2.1常用的信息检索模型18

2.1.1传统布尔检索与扩展布尔检索模型

18

2.1.2向量空间模型19

2.1.3概率检索模型23

2.1.4语言模型24

2.2自然语言理解与处理概述26

2.3中文词法分析中的分词处理28

2.3.1基于词典和规则的汉字分词30

2.3.2基于大规模语料库的统计学习的分词方法30

2.3.3规则和统计方法相结合的汉字分词方法

32

2.4未登录词及其识别32

2.4.1命名实体及其识别33

2.4.2未登录词与新词识别

34

2.5有意义串及其识别36

2.6词典组织与管理37

2.6.1基于Trie索引树的词典管理37

2.6.2基于哈希表的词典管理38

2.7文本分类39

2.8文本聚类41

2.8.1文本表示41

2.8.2相似度度量42

2.8.3聚类算法体系43

2.9话题识别与跟踪46

2.10句子及其检索48

2.10.1传统的文档检索方法48

2.10.2信息过滤方法48

2.10.3分类方法49

2.10.4语义比较方法49

2.10.5隐马尔可夫模型方法50

2.10.6自动文摘方法51

2.11句子级新信息检测52

2.11.1词重叠度52

2.11.2最大区间相关度52

2.11.3余弦冗余度52

2.11.4命名实体触发方法53

2.11.5统计机器翻译模型53

2.11.6LexRAnk方法54

2.12本章小结55

参考文献56

第3章大数据检索与分词62

3.1概述62

3.2分词对中文信息检索的影响63

3.3分词精度与检索性能的关系66

3.4大数据应用环境下中文信息检索的分词算法及其特点70

3.4.1分词算法的时间性能要求高70

3.4.2分词正确率的提高并不一定带来检索性能的提高70

3.4.3分词切分粒度需在查询扩展层面进行相关处理70

3.4.4未登录词识别的准确率要比召回率更重要71

3.5基于双数组Trie树优化算法的词典72

3.5.1双数组Trie树算法介绍及其优化72

3.5.2利用优化的双数组Trie树算法组织词典74

3.5.3实验结果与分析76

3.6本章小结77

参考文献78

第4章基于层次隐马尔可夫模型的浅层词法分析80

4.1概述80

4.2英文浅层分析的实现81

4.2.1英文断句与词汇切分81

4.2.2词性标注82

4.2.3词干抽取与词形还原83

4.3停用词处理与特征词选择84

4.3.1停用词处理84

4.3.2特征词选择85

4.4基于层次隐马尔可夫模型的汉语浅层分析及其应用86

4.4.1层次隐马尔可夫模型87

4.4.2基于类的隐马尔可夫分词算法89

4.4.3N最短路径的切分排歧策略90

4.4.4未登录词的隐马尔可夫识别方法91

4.5汉语词法分析系统ICTCLAS性能实验与分析93

4.5.1词法分析与层次隐马尔可夫模型94

4.5.2ICTCLAS在973评测中的测试结果95

4.5.3第一届国际分词大赛的评测结果95

4.6基于单字位置成词概率识别未登录词的算法96

4.6.1字的位置成词概率96

4.6.2局部二元串频统计98

4.6.3有关未登录词识别的实验结果99

4.7本章小结100

参考文献102

第5章大数据语言新特征发现104

5.1概述104

5.2基于上下文邻接分析和语言模型的有意义串提取106

5.2.1上下文邻接分析107

5.2.2语言模型分析109

5.2.3重复串发现及处理流程111

5.2.4实验设计及结果分析115

5.3基于局部性原理的低频有意义串提取120

5.3.1有意义串的局部性121

5.3.2局部性度量122

5.3.3算法流程123

5.3.4实验结果与分析124

5.4基于伪相关反馈模型的有意义串提取127

5.4.1算法的基本思想128

5.4.2相关度的定义129

5.4.3位置成词概率PWP的更新129

5.4.4算法流程129

5.4.5实验结果及分析130

5.5本章小结133

参考文献135

第6章大数据聚类与分类138

6.1概述138

6.2基于关键词提取的搜索结果聚类139

6.2.1相关术语简介139

6.2.2关键词提取139

6.2.3基于关键词的检索结果聚类方法141

6.2.4实验结果及分析142

6.3基于KmeAns算法的有意义串主题聚类算法144

6.4基于邻接串种类的有意义串语境聚类146

6.5有意义串对分类的改进149

6.6本章小结153

参考文献154

第7章大数据文本自动摘要156

7.1概述156

7.2相关工作综述156

7.2.1基于抽取的自动文摘158

7.2.2基于理解的自动文摘160

7.3基于关键词提取的自动摘要160

7.3.1文本预处理160

7.3.2停用词处理161

7.3.3双数组Trie树162

7.3.4关键词提取164

7.3.5句子切分166

7.3.6句子相似度计算166

7.4面向主题的自动摘要167

7.4.1改进的最大边缘相关度方法167

7.4.2面向主题的词特征统计168

7.4.3领域主题词表169

7.4.4句子间的包含关系170

7.5实验与分析171

7.5.1稳定性测试171

7.5.2时间性能171

7.5.3文摘质量174

7.6自动摘要应用场景分析及大数据搜索与挖掘软件应用示例174

7.7本章小结176

参考文献176

第8章犑犣犛犲犪狉犮犺大数据精准搜索引擎178

8.1概述178

8.2JZSeArch大数据搜索引擎系统架构178

8.3JZSeArch索引关键技术180

8.3.1索引字段类型180

8.3.2索引词项的设计181

8.3.3索引压缩技术181

8.3.4内存交换184

8.3.5增量索引184

8.3.6数据库检索185

8.4JZSeArch搜索技术187

8.4.1JZSeArch排序算法187

8.4.2JZSeArch结果格式188

8.4.3JZSeArch检索语法说明188

8.5JZSeArch搜索引擎管理193

8.5.1搜索引擎可视化管理客户端193

8.5.2客户端管理命令语法194

8.6JZSeArch大数据搜索应用案例194

8.6.1中国邮政集团名址信息中心首页的邮址垂直搜索194

8.6.2河北省标准化研究院的标准搜索195

8.6.3中国对外承包工程商会的知识搜索门户196

8.6.4富基融通的商品比价搜索196

8.6.5微博人物搜索196

8.6.6维吾尔语搜索196

8.7本章小结198

参考文献199

第9章面向大数据的旬子检索与新颖性监测200

9.1概述200

9.2句子检索的查询扩展方法201

9.2.1语义扩展201

9.2.2伪相关反馈扩展203

9.2.3局部共现扩展204

9.3语言模型检索206

9.3.1概述206

9.3.2句子级语言模型及其改进207

9.4句子检索实验与分析207

9.4.1浅层语言分析的贡献度207

9.4.2三种句子检索模型的基准实验209

9.4.3查询扩展实验211

9.5新信息检测212

9.5.1词重叠度及其扩展213

9.5.2相似度比较方法214

9.5.3信息增强评价方法215

9.5.4其其方法215

9.5.5新信息检测实验与分析217

9.6监督学习条件下的句子检索与新信息检测219

9.6.1监督学习环境下的参数调整与阅值设置219

9.6.2基于分类的句子检索与新信息检测方法221

9.6.3实验与分析222

9.7本章小结224

参考文献225

第10章人物追踪中的数据预处理与属性抽取227

10.1概述227

10.1.1研究背景227

10.1.2人物追踪及其处理流程228

10.2数据预处理228

10.2.1数据预处理的主要流程229

10.2.2网页正文提取与噪声过滤229

10.2.3人名识别232

10.2.4人名指代处理232

10.2.5人物对应语段的确定233

10.2.6时间和时序标签的确定234

10.3人物属性抽取234

10.3.1人物属性抽取的总体框架235

10.3.2标注人物属性抽取语料235

10.3.3分类器模型237

10.4本章小结243

参考文献245

第11章人物模型组织与基于事件的信息处理246

11.1概述246

11.2人物模型的特征表示247

11.2.1属性特征的表示247

11.2.2数值特征的表示247

11.2.3各项特征的分布规律249

11.3人物模型的相似度计算方法249

11.3.1基本属性的相似度计算249

11.3.2介绍性属性的相似度计算249

11.3.3词场的相似度计算251

11.3.4人物模型相似度计算251

11.4人物模型的同一性判别与合并252

11.5实验结果与分析253

11.5.1数据集与评测方法253

11.5.2实验结果254

11.6基于宏观粒度的事件组织258

11.6.1宏观粒度事件的特征258

11.6.2针对事件特点的话题识别方法259

11.6.3基于多层聚类的话题层次化组织方法261

11.6.4实验结果与分析265

11.7本章小结270

参考文献272

附录犃犐犆犜犆犔犃犛/犖犔犘犐犚2014汉语分词系统介绍274

附录犅犖犔犘犐犚大数据搜索与挖掘共享开发平台281

内容摘要:

《大数据搜索与挖掘》以作者团队十余年在大数据搜索与挖掘领域所作的研究与应用工 作为内容,介绍大数据搜索与挖掘的研发成果,内容涵盖大数据处理概论、 中文自然语言处理、网络信息预处理、网络情报挖掘(包括网络语言分析、新 特征语言抽取、汉语词法分析、文本自动分类、自动聚类、自动摘要、关键词 抽取)、网络精准搜索(信息检索模型、句子搜索)、人物搜索等方面的研究成 果。从大数据这座金矿中挖掘有价值的信息,是《大数据搜索与挖掘》的目的所在。全书体 系完整,内容新颖,条理清晰,组织合理,理论与实践并重,突出原创的研究 成果与实际应用。

书籍规格:

书籍详细信息
书名大数据搜索与挖掘站内查询相似图书
丛书名信息科学技术学术著作丛书
9787030403186
如需购买下载《大数据搜索与挖掘》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位科学出版社
版次1版印次1
定价(元)75.0语种简体中文
尺寸24 × 17装帧平装
页数 300 印数

书籍信息归属:

大数据搜索与挖掘是科学出版社于2014.4出版的中图分类号为 TP274 ,G354 的主题关于 数据采集-研究 ,情报检索-研究 的书籍。