出版社:清华大学出版社
年代:2014
定价:38.0
本书重点介绍了包括使用混淆矩阵计算分类正确度、使用Lift、rms进行模型对比等评估技术。数据仓库作为数据挖掘的重要数据源,其建立过程和OLAP应用在本书中也有详细介绍。知识发现的过程将从数据准备到模型应用的数据挖掘完整过程进行了阐述。本书包含大量实例和实验,实验采用Weka开源数据挖掘工具和Excel 2010,作为教学软件,具有很好的通用性。本书最后附有关键术语,包括了数据挖掘的最基本词汇。
第1章 认识数据挖掘 1
1.1 数据挖掘的定义 1
1.2 机器学习 2
1.2.1 概念学习 2
1.2.2 归纳学习 3
1.2.3 有指导的学习 4
1.2.4 无指导的聚类 7
1.3 数据查询 8
1.4 专家系统 8
1.5 数据挖掘的过程 9
1.5.1 准备数据 10
1.5.2 挖掘数据 10
1.5.3 解释和评估数据 10
1.5.4 模型应用 11
1.6 数据挖掘的作用 11
1.6.1 分类 11
1.6.2 估计 12
1.6.3 预测 12
1.6.4 无指导聚类 12
1.6.5 关联关系分析 13
1.7 数据挖掘技术 13
1.7.1 神经网络 14
1.7.2 回归分析 14
1.7.3 关联分析 15
1.7.4 聚类技术 16
1.8 数据挖掘的应用 16
1.8.1 应用领域 16
1.8.2 成功案例 18
1.9 Weka数据挖掘软件 19
1.9.1 Weka简介 19
1.9.2 使用Weka建立决策树模型 22
1.9.3 使用Weka进行聚类 25
1.9.4 使用Weka进行关联分析 26
本章小结 27
习题 28
第2章 基本数据挖掘技术 30
2.1 决策树 30
2.1.1 决策树算法的一般过程 31
2.1.2 决策树算法的关键技术 32
2.1.3 决策树规则 40
2.1.4 其他决策树算法 41
2.1.5 决策树小结 41
2.2 关联规则 42
2.2.1 关联规则概述 42
2.2.2 关联分析 43
2.2.3 关联规则小结 46
2.3 聚类分析技术 47
2.3.1 K-means算法 48
2.3.2 K-means算法小结 51
2.4 数据挖掘技术的选择 51
本章小结 52
习题 53
第3章 数据库中的知识发现 55
3.1 知识发现的基本过程 55
3.1.1 KDD过程模型 55
3.1.2 知识发现软件 57
3.1.3 KDD过程的参与者 58
3.2 KDD过程模型的应用 58
3.2.1 步骤1:商业理解 58
3.2.2 步骤2:数据理解 59
3.2.3 步骤3:数据准备 60
3.2.4 步骤4:建模 65
3.2.5 评估 66
3.2.6 部署和采取行动 66
3.3 实验:KDD案例 66
本章小结 72
习题 73
第4章 数据仓库 74
4.1 数据库与数据仓库 74
4.1.1 数据(库)模型 75
4.1.2 规范化与反向规范化 77
4.2 设计数据仓库 79
4.2.1 数据抽取、清洗、变换和加载 79
4.2.2 数据仓库模型 82
4.2.3 数据集市 85
4.2.4 决策支持系统 86
4.3 联机分析处理 87
4.3.1 概述 87
4.3.2 实验:使用OLAP辅助驾驶员行为分析 90
4.4 使用Excel数据透视表和数据透视图分析数据 93
4.4.1 创建简单数据透视表和透视图 93
4.4.2 创建多维透视表和透视图 97
本章小结 100
习题 100
第5章 评估技术 102
5.1 数据挖掘评估概述 102
5.1.1 评估内容 102
5.1.2 评估工具 103
5.2 评估有指导学习模型 108
5.2.1 评估分类类型输出模型 108
5.2.2 评估数值型输出模型 109
5.2.3 计算检验集置信区间 111
5.2.4 无指导聚类技术的评估作用 112
5.3 比较有指导学习模型 112
5.3.1 使用Lift比较模型 112
5.3.2 通过假设检验比较模型 114
5.4 属性评估 115
5.4.1 数值型属性的冗余检查 115
5.4.2 数值属性显著性的假设检验 117
5.5 评估无指导聚类模型 118
本章小结 118
习题 119
第6章 神经网络技术 120
6.1 神经网络概述 120
6.1.1 神经网络模型 120
6.1.2 神经网络的输入和输出数据格式 121
6.1.3 激励函数 123
6.2 神经网络训练 124
6.2.1 反向传播学习 124
6.2.2 自组织映射的无指导聚类 127
6.2.3 实验:应用BP算法建立前馈神经网络 130
6.3 神经网络模型的优势和缺点 138
本章小结 138
习题 139
第7章 统计技术 141
7.1 回归分析 141
7.1.1 线性回归分析 142
7.1.2 非线性回归 149
7.1.3 树回归 151
7.2 贝叶斯分析 152
7.3 聚类技术 156
7.3.1 分层聚类 156
7.3.2 基于模型的聚类 163
7.4 数据挖掘中的统计技术与机器学习技术 165
本章小结 165
习题 167
第8章 时间序列和基于Web的数据挖掘 169
8.1 时间序列分析 169
8.1.1 概述 169
8.1.2 线性回归分析解决时间序列问题 173
8.1.3 神经网络技术解决时间序列问题 175
8.2 基于Web的数据挖掘 176
8.2.1 概述 176
8.2.2 Web文本挖掘 178
8.2.3 Web使用挖掘 179
8.3 多模型分类技术 185
8.3.1 装袋技术 185
8.3.2 推进技术 185
本章小结 186
习题 187
附录A 词汇表 188
附录B 数据挖掘数据集 201
参考文献
本书为数据挖掘入门级教材,共分8章,主要内容分为三个专题:技术、数据和评估。技术专题包括决策树技术、K-means算法、关联分析技术、神经网络技术、回归分析技术、贝叶斯分析、凝聚聚类、概念分层聚类、混合模型聚类技术的EM算法、时间序列分析和基于Web的数据挖掘等常用的机器学习方法和统计技术。数据专题包括数据库中的知识发现处理模型和数据仓库及OLAP技术。评估专题包括利用检验集分类正确率和混淆矩阵,并结合检验集置信区间评估有指导学习模型,使用无指导聚类技术评估有指导模型,利用Lift和假设检验比较两个有指导学习模型,使用MS Excel 2010和经典的假设检验模型评估属性,使用簇质量度量方法和有指导学习技术评估无指导聚类模型。
本书秉承教材风格,强调广度讲解。注重成熟模型和开源工具的使用,以提高学习者的应用能力为目标;注重结合实例和实验,加强基本概念和原理的理解和运用;注重实例的趣味性和生活性,提高学习者学习的积极性。使用章后练习、计算和实验作业巩固和检验所学内容;使用词汇表附录,解释和规范数据挖掘学科专业术语;使用适合教学的简单易用开源的Weka和通用的MS Excel软件工具实施数据挖掘验证和体验数据挖掘的精妙。
本书可作为普通高等院校计算机科学、信息科学、数学和统计学专业的入门教材,也可作为如经济学、管理学、档案学等对数据管理、数据分析与数据挖掘有教学需求的其他相关专业的基础教材。同时,对数据挖掘技术和方法感兴趣,致力于相关方面的研究和应用的其他读者,也可以从本书中获取基本的指导和体验。
本书配有教学幻灯片、大部分章后习题和实验的参考答案以及课程大纲。
书籍详细信息 | |||
书名 | 数据挖掘导论站内查询相似图书 | ||
9787302381044 如需购买下载《数据挖掘导论》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN | |||
出版地 | 北京 | 出版单位 | 清华大学出版社 |
版次 | 1版 | 印次 | 1 |
定价(元) | 38.0 | 语种 | 简体中文 |
尺寸 | 26 × 19 | 装帧 | 平装 |
页数 | 印数 |
数据挖掘导论是清华大学出版社于2014.出版的中图分类号为 TP274 的主题关于 数据采集-高等学校-教材 的书籍。