出版社:科学出版社
年代:2010
定价:37.5
在信息时代存储大量数据是容易的,通过Web、企业内部网、电传新闻获得的文本数量在急剧增加,因而导致了信息过载。然而,数据量虽然增加了,但可用的信息在减少。文本挖掘是一个新的令人振奋的研究领域,它试图通过综合数据挖掘、机器学习、自然语言处理、信息检索和知识管理等技术来解决信息过载问题。文本挖掘包括文本集合的预处理(文本分类、信息抽取),中间结果存储,中间结果分析技术(分布分析,聚类,趋势分析,关联规则抽取)和最终结果的可视化。它与关联分析类似,为人们提供了分析海量文本数据的新工具,并且通过学习模式来指导抽取、发现和实体关系。本书首先讨论了文本挖掘的总体结构,文本挖掘预处理算法。其次,比较深入地研究了文本挖掘核心操作,最后,探讨真实世界中文本挖掘的主要应用和DIAL语言,弥补了理论和实践的脱节。
前言
第1章文本挖掘概述
1.1文本挖掘的产生背景
1.2文本
1.2.1文本格式
1.2.2动态文本集
1.3文本挖掘的概念
1.4文本挖掘的任务
1.4.1文本挖掘预处理
1.4.2文本模式挖掘
1.4.3挖掘结果可视化
1.5文本挖掘系统的通用体系结构
第2章文本表示
第3章文本挖掘预处理文本分类
第4章文本挖掘预处理文本聚类
第5章文本挖掘核心操作信息抽取
第6章文本挖掘核心操作关系抽取
第7章文本挖掘核心操作关联分析
第8章文本挖掘结果的可视化
第9章文本挖掘的应用
第10章专门用于文本挖掘的信息抽取语言DIAL
参考文献
大量文档集内容的预处理包括特征抽取、文本分类、文本聚类等。文本分类和文本聚类研究的成果比较多,本书只作简单介绍;而对特征生成、特征选择和特征抽取,本书进行深入地讨论。 信息抽取是文本挖掘的核心操作,目前的主要研究方向是命名实体识别、实体关系抽取和事件抽取。实体关系抽取是文本挖掘的关键任务,所以本书用大量篇幅讨论了实体关系发现技术。 由于文本挖掘强调用户交互到知识发现过程的集成性,因此,本书最后讨论了文本挖掘结果可视化方法,并介绍了一种文本挖掘语言DIAL。 在信息时代,存储大量数据比较容易。通过Web、企业内部网、电传新。闻获得的文本数量在急剧增加,这导致信息过载。然而,数据量虽然增加了,但可用的信息却在减少。文本挖掘是一个新的令人振奋的研究领域,其试图通过综合数据挖掘、机器学习、自然语言处理、信息检索和知识管理等技术来解决信息过载问题。 文本挖掘包括文本集合的预处理(文本分类、信息抽取)、中间结果存储、中间结果分析技术(分布分析、聚类、趋势分析、关联规则抽取)和最终结果的可视化。它与关联分析类似,为人们提供了分析海量文本数据的新工具,并且通过学习模式来指导抽取实体关系。 本书首先讨论了文本挖掘的总体结构以及文本挖掘预处理算法,然后深入地研究了文本挖掘核心操作,最后探讨真实世界中文本挖掘的主要应用和DIAL,弥补了理论和实践的脱节。 本书主要可供对文本挖掘感兴趣的本科高年级学生、研究生、研究人员和专业开发人员参考,对从事文本挖掘开发和使用文本挖掘系统的人也会有很大帮助。
(美) 迈克尔·W.贝瑞 (Michael W. Berry) , (美) 雅克布·柯岗 (Jacob Kogan) , 编
(以) 费尔德曼 (Feldman,R.) , (美) 桑格 (Sanger,J.) , 著
姜维, 著
宗成庆, 夏春, 张家俊, 著
(美) 韦斯 (Weiss,S.) , 张潼, (澳) 因杜尔亚 (Indurkhya,N.) , 著
谢邦昌, 朱建平, 李毅, 著
王海涛, 著
何慧, 陈博, 张莹, 编著
王鑫罡, 著