数据挖掘

数据挖掘

(美) 坎塔尔季奇 (Kantardzic,M.) , 著

出版社:清华大学出版社

年代:2012

定价:69.0

书籍简介:

本书讨论了数据挖掘的原理,然后介绍了源于不同学科,如统计、机器学习、神经网络、模糊逻辑、进化计算等,典型的最先进的方法和算法。通过提供必要的解释和说明例子,以及每章末尾的问题和实践练习,详细地介绍了各个算法。

作者介绍:

Mehmed Kantardzic,美国路易维尔大学工学院计算机工程与科学系的教授,任该系的研究生院院长和数据挖掘实验室主任。Mehmed是IEEE、ISCA和SPIE的成员,曾受邀参加多个重要的学术会议;他已出版多本书籍,在许多期刊上发表过论文,其中有多篇论文获奖。      王晓海,曾任总参某部应用研发中心副主任、信息服务中心主任,高级工程师,长期从事数据库应用系统的科研开发工作,负责主持多个大型数据库系统的开发和维护,荣获多项军队科技进步奖,享受军队优秀人才岗位津贴,出版多部论(译)著,在数据库挖掘、数据库应用开发、数据安全保护、数据恢复与数据去密等领域具有丰富的实践经验。   已出版的论著和译著   《Oracle Streams llg数据复制》,2012年,清华大学出版社   《SQL Server 2000管理、开发及应用实例详解》,2006年,人民邮电出版社   《空时编码技术》,2004年,机械工业出版社   《远程通信网络基础》,1996年,电子工业出版社      吴志刚,工学博士,北京邮电大学副教授,长期从事网络与信息安全技术、数据库技术等领域的学术与科研工作,作为负责人主持过上述领域多项国家863计划、发改委产业化示范项目和国家级重大工程项目,获得技术专利2项,已在国内外学术期刊和国际会议上发表20余篇学术论文。

书籍目录:

第1章 数据挖掘的概念

1.1 概述

1.2 数据挖掘的起源

1.3 数据挖掘过程

1.4 大型数据集

1.5 数据仓库

1.6 数据挖掘的商业方面:为什么数据挖掘项目会失败

1.7 本书结构安排

1.8 复习题

1.9 参考书目

第2章 数据准备

2.1 原始数据的表述

2.2 原始数据的特性

2.3 原始数据的转换

2.3.1 标准化

2.3.2 数据平整

2.3.3 差值和比率

2.4 丢失数据

2.5 时间相关数据

2.6 异常点分析

2.7 复习题

2.8 参考书目

第3章 数据归约

3.1 大型数据集的维度

3.2 特征归约

3.2.1 特征选择

3 .2.2 特征提取

3.3 Relief算法

3.4 特征排列的熵度量

3.5 主成分分析

3.6 值归约

3.7 特征离散化ChiMerge技术

3.8 案例归约

3.9 复习题

3.10 参考书目

第4章 从数据中学习

4.1 学习机器

4.2 统计学习原理

4.3 学习方法的类型

4.4 常见的学习任务

4.5 支持向量机

4.6 kNN:最近邻分类器

4.7 模型选择与泛化

4.8 模型的评估

4.9 90%准确的情形

4.9.1 保险欺诈检测

4.9.2 改进心脏护理

4.10 复习题

4.11 参考书目

第5章 统计方法

5.1 统计推断

5.2 评测数据集的差异

5.3 贝叶斯定理

5.4 预测回归

5.5 方差分析

5.6 对数回归

5.7 对数-线性模型

5.8 线性判别分析

5.9 复习题

5.10 参考书目

第6章 决策树和决策规则

6.1 决策树

6.2 C4.5算法:生成决策树

6.3 未知属性值

6.4 修剪决策树

6.5 C4.5算法:生成决策规则

6.6 CART算法和Gini指标

6.7 决策树和决策规则的局限性

6.8 复习题

6.9 参考书目

第7章 人工神经网络

7.1 人工神经元的模型

7.2 人工神经网络的结构

7.3 学习过程

7.4 使用ANN完成的学习任务

7.4.1 模式联想

7.4.2 模式识别

7.5 多层感知机

7.6 竞争网络和竞争学习

7.7 SoM

7.8 复习题

7.9 参考书目

第8章 集成学习

8.1 集成学习方法论

8.2 多学习器组合方案

8.3 bagging和boosting

8.4 AdaBoost算法

8.5 复习题

8.6 参考书目

第9章 聚类分析

9.1 聚类的概念

9.2 相似度的度量

9.3 凝聚层次聚类

9.4 分区聚类

9.5 增量聚类

9.6 DBSCAN箅法

9.7 BIRCH算法

9.8 聚类验证

9.9 复习题

9.10 参考书目

第10章 关联规则

10.1 购物篮分析

10.2 Apriori算法

10.3 从频繁项集中得到关联规则

10.4 提高Apriori算法的效率

10.5 FP增长方法

10.6 关联分类方法

10.7 多维关联规则挖掘

10.8 复习题

10.9 参考书目

第11章 Web挖掘和文本挖掘

11.1Web挖掘

11.2 Web内容、结构与使用挖掘

11.3 HITS和LOGSOM算法

11.4 挖掘路径遍历模式

11.5 PageRank算法

11.6 文本挖掘

11.7 潜在语义分析

11.8 复习题

11.9 参考书目

第12章 数据挖掘高级技术

12.1 图挖掘

……

第13章 遗传算法

第14章 模糊集和模糊逻辑

第15章 可视化方法

附录A 数据挖掘工具

附录B 数据挖掘应用

内容摘要:

随着数据集规模和复杂度的持续上升,分析员必须利用更高级的软件工具来执行间接的、自动的智能化数据分析。、数据挖掘:概念、模型、方法和算法(第2版)介绍了通过分析高维数据空间中的海量原始数据来提取用于决策的新信息的尖端技术和方法。   《国外计算机科学经典教材·数据挖掘:概念、模型、方法和算法(第2版)》开篇阐述数据挖掘原理,此后在示例的引导下详细讲解起源于统计学、机器学习、神经网络、模糊逻辑和演化计算等学科的具有代表性的、最前沿的挖掘方法和算法。本书还着重描述如何恰当地选择方法和数据分析软件并合理地调整参数。每章末尾附有复习题。   《国外计算机科学经典教材·数据挖掘:概念、模型、方法和算法(第2版)》主要用作计算机科学、计算机工程和计算机信息系统专业的研究生数据挖掘教材,高年级本科生或具备同等教育背景的读者也完全可以理解本书的所有主题。

编辑推荐:

《国外计算机科学经典教材·数据挖掘:概念、模型、方法和算法(第2版)》特色:
  介绍支持向量机(SVM)和Kohonen映射
  讲解DBSCAN、BIRCH和分布式DBSCAN聚类算法
  介绍贝叶斯网络,讨论图形中的Betweeness和Centrality参数测量算法
  分析在建立决策树时使用的CART算法和基尼指数
  介绍Bagging&Boosting集成学习方法,并详述AdaBoost算法
  讨论Relief以及PageRank算法
  讨论文本挖掘的潜在语义分析(LSA),并分析如何测定文本文档之间的语义相似性
  讲解时态、空间、Web、文本、并行和分布式数据挖掘等新主题
  更详细地讲解数据挖掘技术商业、隐私、安全和法律方面的内容

书籍规格:

书籍详细信息
书名数据挖掘站内查询相似图书
9787302307143
如需购买下载《数据挖掘》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位清华大学出版社
版次1版印次1
定价(元)69.0语种简体中文
尺寸26 × 19装帧平装
页数印数 4000

书籍信息归属:

数据挖掘是清华大学出版社于2013.出版的中图分类号为 TP274 的主题关于 数据采集-教材 的书籍。