出版社:清华大学出版社
年代:2012
定价:39.0
本书详细介绍了10种在实际中用途最广、影响最大的数据挖掘算法:1 C4.5;2 K-Means;3 SVM: Support Vector Machines;4 Apriori;5 EM;6 PageRank;7 AdaBoost;8 kNN: k-Nearest Neighbors;9 Naive Bayes;10 CART: Classification and Regression Trees。
第1章 C4.5
1.1 引言
1.2 算法描述
1.3 算法特性
1.3.1 决策树剪枝
1.3.2 连续型属性
1.3.3 缺失值处理
1.3.4 规则集诱导
1.4 软件实现
1.5 示例
1.5.1 Golf数据集
1.5.2 Soybean数据集
1.6 高级主题
1.6.1 二级存储
1.6.2 斜决策树
1.6.3 特征选择
1.6.4 集成方法
1.6.5 分类规则
1.6.6 模型重述
1.7 习题
参考文献
第2章 k-means
2.1 引言
2.2 算法描述
2.3 可用软件
2.4 示例
2.5 高级主题
2.6 小结
2.7 习题
参考文献
第3章 SVM:支持向量机
3.1 支持向量分类器
3.2 支持向量分类器的软间隔优化
3.3 核技巧
3.4 理论基础
3.5 支持向量回归器
3.6 软件实现
3.7 当前和未来的研究
3.7.1 计算效率
3.7.2 核的选择
3.7.3 泛化分析
3.7.4 结构化支持向量机的学习
3.8 习题
参考文献
第4章 Apriori
4.1 引言
4.2 算法描述
4.2.1 挖掘频繁模式和关联规则
4.2.2 挖掘序列模式
4.2.3 讨论
4.3 软件实现
4.4 示例
4.4.1 可行示例
4.4.2 性能评估
4.5 高级主题
4.5.1 改进Apriori类型的频繁模式挖掘
4.5.2 无候选的频繁模式挖掘
4.5.3 增量式方法
4.5.4 稠密表示:闭合模式和最大模式
4.5.5 量化的关联规则
4.5.6 其他的重要性/兴趣度度量方法
4.5.7 类别关联规则
4.5.8 使用更丰富的形式:序列、树和图
4.6 小结
4.7 习题
参考文献
第5章 EM
5.1 引言
5.2 算法描述
……
第6章 PageRank
第7章 AdaBoost
第8章 kNN!k-最近邻
第9章 Naive Bayes
第10章 CART:分类和回归树
数据挖掘这一学科近年来发展十分迅速,不仅产生了大量不同类型的挖掘算法,而且也表现出与机器学习等学科深度融合的态势。无论是从事研究的专家学者还是从事应用的开发人员都十分希望能一窥其大略,从而比较准确地把握数据挖掘领域当前的主干技术,并比较全面地了解当前的发展趋势。 当前,在市场上流通的数据挖掘方面的著作已经不算少了,主要是两大类: 一类是具有完整体系的教材类图书,一类是面向特定领域的应用型图书。前者主要是服务教学,所以侧重原理、逻辑严谨,但是通常对数据挖掘的前沿介绍比较欠缺。后者往往集中于介绍某一领域的问题和方法,或者是关于某些典型工具的使用方法,其优点在于直观有效,但相对于整个数据挖掘领域其覆盖面偏小。 为此,很有必要对整个数据挖掘领域的近期发展和前沿成果进行梳理,而这一类信息往往散见于相关的大量学术期刊和会议文集中,限于视野和精力,任何个人都难以完成这一任务。在此基础上,还需要对当前庞大的数据挖掘知识体系进行恰当的取舍和凝练,这一工作必须依靠该领域的高水平学者。所以,国际数据挖掘社区合众人之力,在2006年推出了The Top Ten Algorithms in Data Mining这一继往开来之作。该书列举了评选出来的十个最具影响力的数据挖掘算法: C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes和CART。我们认为该书有其鲜明特色: 第一,立意承前启后,推出的时机恰当。该书的内容涵盖了分类、聚类、统计学习、关联分析和链接分析等重要主题在近年来的发展,这不但对数据挖掘的研究和发展十分重要,也将数据挖掘推动到更大范围的真实应用中,激励更多数据挖掘领域的学者对这些算法的作用和新问题进行深入探索。第二,汇集群体智慧,具有很高权威性。参评人员囊括了历届ACM KDD创新奖和IEEE ICDM研究贡献奖得主这些顶尖学者,以及SIGKDD、ICDM和SDM这三大数据挖掘学术会议的程序委员会的全体委员。此外,还组织了专题会邀请了一百多位领域专家进行开放研讨。第三,执行过程严谨,确保内容高品质。第一阶段是由顶尖学者推荐算法并提供算法名称、简要理由和代表文献这些必要信息,第二阶段用google scholar对每个提名算法进行客观地引用验证和排序,第三个阶段由数据挖掘社区的专家和相关领域的专家进行投票,获得完全一致的结果。最后,邀请资深学者撰写上榜算法的介绍并集结成书。
详细介绍了在实际中用途最广、影响大的十种数据挖掘算法,这十种算法是数据挖掘领域的专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。