出版社:电子工业出版社
年代:2003
定价:39.0
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语表达。本书介绍这些领域的一些重要。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩色图形。本书内容广泛,从有指导的学习(预测),到无指导的学习应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书中介绍得最全面的。
第1章 绪论
第2章 有指导学习概述
2.1 引言
2.2 变量类型和术语
2.3 两种简单预测方法:最小二乘方和最近邻法
2.4 统计判决理论
2.5 高维空间的局部方法
2.6 统计模型、有指导学习和函数逼近
2.7 结构化回归模型
2.8 受限的估计方法类
2.9 模型选择和偏倚-方差权衡
文献注释
习题
第3章 回归的线性方法
3.1 引言
3.2 线性回归模型和最小二乘方
3.3 从简单的一元回归到多元回归
3.4 子集选择和系数收缩
3.5 计算考虑
文献注释
习题
第4章 分类的线性方法
4.1 引言
4.2 指示矩阵的线性回归
4.3 线性判别分析
4.4 逻辑斯缔回归
4.5 分离超平面
文献注释
习题
第5章 基展开与正则化
5.1 引言
5.2 分段多项式和样条
5.3 过滤和特征提取
5.4 光滑样条
5.5 光滑参数的自动选择
5.6 无参逻辑斯缔回归
5.7 多维样条函数
5.8 正则化和再生核希尔伯特空间
5.9 小波光滑
文献注释
习题
第6章 核方法
6.1 一维核光滑方法
6.2 选择核的宽度
6.3 IRp上的局部回归
6.4 IRp上结构化局部回归模型
6.5 局部似然和其他模型
6.6 核密度估计和分类
6.7 径向基函数和核
6.8 密度估计和分类的混合模型
6.9 计算考虑
文献注释
习题
第7章 模型评估与选择
7.1 引言
7.2 偏倚、方差和模型复杂性
7.3 偏倚-方差分解
7.4 训练误差率的乐观性
7.5 样本内预测误差的估计
7.6 有效的参数个数
7.7 贝叶斯方法和BIC
7.8 最小描述长度
7.9 Vapnik-Chernovenkis维
7.10 交叉验证
7.11 自助法
文献注释
习题
第8章 模型推理和平均
8.1 引言
8.2 自助法和极大似然法
8.3 贝叶斯方法
8.4 自助法和贝叶斯推理之间的联系
8.5 EM算法
8.6 从后验中抽样的MCMC
8.7 装袋
8.8 模型平均和堆栈
8.9 随机搜索:冲击
文献注释
习题
第9章 加法模型、树和相关方法
9.1 广义加法模型
9.2 基于树的方法
9.3 PRIM——凸点搜索
9.4 MARS:多元自适应回归样条
9.5 分层专家混合
9.6 遗漏数据
9.7 计算考虑
文献注释
习题
第10章 提升和加法树
10.1 提升方法
10.2 提升拟合加法模型
10.3 前向分步加法建模
10.4 指数损失函数和AdaBoost
10.5 为什么使用指数损失
10.6 损失函数和健壮性
10.7 数据挖掘的“现货”过程
10.8 例:垃圾邮件数据
10.9 提升树
10.10 数值优化
10.11 提升适当大小的树
10.12 正则化
10.13 可解释性
10.14 实例
文献注释
习题
第11章 神经网络
11.1 引言
11.2 投影寻踪回归
11.3 神经网络
11.4 拟合神经网络
11.5 训练神经网络的一些问题
11.6 例:模拟数据
11.7 例:ZIP编码数据
11.8 讨论
11.9 计算考虑
文献注释
习题
第12章 支持向量机和柔性判别
12.1 引言
12.2 支持向量分类器
12.3 支持向量机
12.4 线性判别分析的推广
12.5 柔性判别分析
12.6 罚判别分析
12.7 混合判别分析
12.8 计算考虑
文献注释
习题
第13章 原型方法和最近邻
13.1 引言
13.2 原型方法
13.3 K-最近邻分类器
13.4 自适应的最近邻方法
13.5 计算考虑
文献注释
习题
第14章 无指导学习
14.1 引言
14.2 关联规则
14.3 聚类分析
14.4 自组织映射
14.5 主成分、曲线和曲面
14.6 独立成分分析和探测性投影寻踪
14.7 多维定标
文献注释
习题
术语表
参考文献
孀偶扑慊?托畔⑹贝?牡嚼矗?臣莆侍獾墓婺:透丛有远加辛思本缭黾印J?荽娲ⅰ⒆橹?图焖髁煊虻奶粽降贾乱桓鲂铝煊颉笆?萃诰颉钡牟??J?萃诰蚴且桓龆嘌Э平徊媪煊颍?婕笆?菘饧际酢⒒?餮?啊⑼臣蒲А⑸窬??纭⒛J绞侗稹⒅?犊狻⑿畔⑻崛 ⒏咝阅芗扑愕戎疃嗔煊颍?⒃诠ひ怠⑸涛瘛⒉凭?⑼ㄐ拧⒁搅莆郎?⑸?锕こ獭⒖蒲У戎诙嘈幸档玫搅斯惴旱挠τ谩计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。【作者简介】Trevor Hastie,Robert Tibshirani和Jerome Friedman都是斯坦福大学统计学教授,并在这个领域做出了杰出的贡献。Hastie和Tibshirani提出了广义和加法模型,并出版专著“Generalized Additive Models”。Hastie的主要研究领域为:非参数回归和分类、统计计算以及生物信息学、医