出版社:清华大学出版社
年代:2015
定价:40.0
本书重点论述的是机器学习领域发展最快的部分,也是对传统机器学习算法提出最重大挑战的部分,即机器学习算法在文本分析这一数据挖掘实践中的新应用新发展。随着人类活动的不断发展,各个领域产生了不断增加的大量文本数据。由于许多数据的数据量很大,而且数据的结构日趋复杂,传统的数据挖掘方法无法满足分析这些数据的需要,这就产生了大量的机器学习新型算法。本书分别论述了这些算法各自的优势和适用的领域。
随着数据获取技术的不断发展和电子商务的广泛应用,各种信息正以前所未有的速度日益积累,高效率地分析信息海洋中的大量数据已经成为商业领域、工程领域和科学领域的共同需要。文本挖掘是数据挖掘领域的一个分支,与数据挖掘假设数据源是结构化数据集相比,文本挖掘的对象是非结构化或是半结构化的文本集合,需要从以文件形式存储的文本中提取和分析特征。不完整数据处理是现实世界中分类知识挖掘必须认真考虑和对待的重要问题。本书探讨了不完整数据分类算法的改进及其在文体风格识别中的应用,并基于缺失补偿策略最大熵模型对文本分类算法改进进行了探索性的研究。本书既可以作为数据挖掘或文本分析领域的研究人员及相关专业的研究生开展文本分析与处理研究的教科书,也可以作为政府相关部门产品研发人员的参考书。
本书既可以作为数据挖掘或文本分析领域的研究人员及相关专业的研究生开展文本分析与处理研究的教科书,也可以作为政府相关部门产品研发人员的参考书。