R语言实战

R语言实战

李倩星, 编著

出版社:电子工业出版社

年代:2016

定价:75.0

书籍简介:

本书是一本优秀的R语言入门读物,旨在帮助读者迅速构建起与数据分析相关的知识体系,并学习如何使用R软件实现数据分析方法。无论有无编程基础或数学基础,本书都能帮助读者成长为一名合格的数据分析师。本书全面介绍了来自统计分析、机器学习、人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理、优缺点与适用背景。本书按照由易到难的原则组织章节主题,读者将获得最好的阅读体验。通过阅读本书,读者将对R语言在数据分析领域的应用有一个全面的认识。这种认识不被特定行业所局限,任何行业的读者都能利用本书介绍的数据分析方法解决本行业的数据分析问题。

作者介绍:

李倩星,毕业于西南大学统计学专业,对数据挖掘、机器学习以及人工智能领域有深刻的研究。主持翻译了《传播学中的大数据:发展与不足》、《大数据、一个新兴领域的误区和方法与概念》、《数据挖掘揭示了差评导致的负反馈怪圈》等数十篇前沿科技文章,并发表于PPV课社区。

书籍目录:

第 1章R的基本介绍 …………………………………………………………1

1.1 强大的 R ………………………………………………………………………… 1

1.2 R的安装与启动 ………………………………………………………………… 2

1.2.1 安装并启动 R …………………………………………………………… 3

1.2.2 安装并启动一个 IDE …………………………………………………… 5

1.3 R的向量、矩阵和数组 ………………………………………………………… 6

1.3.1 向量的操作方法和固有属性 …………………………………………… 6

1.3.2 矩阵的操作和运算 ……………………………………………………… 9

1.3.3 数组中的维度函数 ……………………………………………………… 12

1.4 R的列表和数据框 ……………………………………………………………… 14

1.4.1 列表的特性和编辑方法 ………………………………………………… 14

1.4.2 数据框的创建和基本操作 ……………………………………………… 18

1.5 R数据文件的载入和载出 ……………………………………………………… 20

1.5.1 结构化纯文本文件的读取和输出 ……………………………………… 21

1.5.2 其他文件的读取和输出 ………………………………………………… 23

1.6 向 R中安装包 …………………………………………………………………… 25

第 2章原始数据的探索与预处理 ………………………………………… 29

2.1 度量数据集的集中程度 ………………………………………………………… 29

2.2 度量数据集的分散程度 ………………………………………………………… 31

2.2.1 极值、方差和标准差 …………………………………………………… 31

2.2.2 标准误和偏度系数、峰度系数 ………………………………………… 33

2.3 创建一个数值摘要表 …………………………………………………………… 35

2.4 异常值的观测与说明 …………………………………………………………… 37

2.4.1 利用箱线图观测异常值并处理 ………………………………………… 38

2.4.2 异常值检测的其他情况和说明 ………………………………………… 40

2.5 缺失值的填补与处理 …………………………………………………………… 42

2.5.1 删除缺失值或对其进行简单填补 ……………………………………… 42

2.5.2 按照相关性对空缺值进行填补 ………………………………………… 45

第 3章R的数据可视化 …………………………………………………… 47

3.1 plot()函数和常用的图形参数 ………………………………………………… 47

3.1.1 设置 plot()函数中的参数 ……………………………………………… 47

3.1.2 修改散点图的坐标并加入标注 ………………………………………… 51

3.2 经典的基础图形及用途 ………………………………………………………… 54

3.2.1 线图 ……………………………………………………………………… 54

3.2.2 直方图 …………………………………………………………………… 59

3.2.3 箱线图和茎叶图 ………………………………………………………… 63

3.3 将图形组合起来 ………………………………………………………………… 66

3.4 更多的高水平作图函数 ………………………………………………………… 69

3.5 更多的常用作图命令 …………………………………………………………… 72

第 4章R中参数的估计和检验 …………………………………………… 75

4.1 使用 R进行点估计和区间估计 ………………………………………………… 75

4.1.1 简单的点估计和区间估计 ……………………………………………… 75

4.1.2 估计单侧置信区间 ……………………………………………………… 79

4.2 与正态总体有关的参数检验 …………………………………………………… 83

4.3 列联表与独立性检验 …………………………………………………………… 87

4.4 几种检验数据分布的函数 ……………………………………………………… 89

4.5 对非正态总体的区间估计和检验 ……………………………………………… 92

4.5.1 非正态总体的区间估计 ………………………………………………… 92

4.5.2 非参数检验中的符号检验 ……………………………………………… 94

4.5.3 非参数检验中的秩检验 ………………………………………………… 96

第 5章R中的方差分析 …………………………………………………… 99

5.1 方差分析模型的建立 …………………………………………………………… 99

5.2 单因素方差分析 ……………………………………………………………… 100

5.2.1 单因素方差分析的数学思想与模型 ………………………………… 101

5.2.2 检验样本是否满足方差分析的假设条件 …………………………… 102

5.2.3 构建单因素方差分析模型 …………………………………………… 105

5.3 多因素方差分析 ……………………………………………………………… 108

5.3.1 多因素方差分析的数学思想与模型 ………………………………… 108

5.3.2 不考虑交互作用的双因素方差分析 ………………………………… 110

5.3.3 考虑交互作用的双因素方差分析 …………………………………… 112

5.4 秩检验和协方差分析 ………………………………………………………… 114

5.4.1 对控制变量应用秩检验方法 ………………………………………… 114

5.4.2 协方差分析的假设与应用 …………………………………………… 116

第 6章R中的相关分析和回归分析 ………………………………………118

6.1 多种相关系数的度量和分析 ………………………………………………… 118

6.1.1 简单相关系数的计算和检验 ………………………………………… 118

6.1.2 散布矩阵图和偏相关系数 …………………………………………… 121

6.1.3 典型相关分析 ………………………………………………………… 123

6.2 线性回归分析及其常规参数 ………………………………………………… 125

6.2.1 对数据进行预处理 …………………………………………………… 126

6.2.2 构建第一个回归模型 ………………………………………………… 127

6.2.3 修正方程并检验残差 ………………………………………………… 129

6.3 使用逐步回归筛选自变量 …………………………………………………… 132

6.3.1 逐步回归的思想与分类 ……………………………………………… 132

6.3.2 构建逐步回归模型 …………………………………………………… 133

6.4 哑变量和逻辑回归 …………………………………………………………… 135

6.4.1 哑变量和逻辑回归的思想 …………………………………………… 135

6.4.2 向线性回归模型中纳入哑变量 ……………………………………… 137

第 7章更高级的数据可视化 ………………………………………………140

7.1 基础图形的拓展与延伸 ……………………………………………………… 140

7.1.1 绘制分类散点图并添加图标 ………………………………………… 140

7.1.2 绘制含多种类别的密度分布图 ……………………………………… 143

7.1.3 复合条形图和堆栈条形图 …………………………………………… 146

7.2 有关多元分布函数的特殊图形 ……………………………………………… 149

7.2.1 星图和脸谱图 ………………………………………………………… 150

7.2.2 轮廓图 ………………………………………………………………… 153

7.2.3 调和曲线图 …………………………………………………………… 155

7.3 建立最简单的 3D图形 ……………………………………………………… 157

7.4 如何让图形更美观 …………………………………………………………… 160

7.5 更多的绘图包和系统 ………………………………………………………… 162

第 8章R中的聚类分析和判别分析 ………………………………………164

8.1 几种聚类分析的异同 ………………………………………………………… 164

8.2 使用 R实现 KNN聚类 ……………………………………………………… 165

8.2.1 KNN算法的思想和模型 …………………………………………… 165

8.2.2 使用 R实现 KNN聚类 ……………………………………………… 167

8.3 使用 R实现系统聚类 ………………………………………………………… 170

8.3.1 系统聚类的思想和模型 ……………………………………………… 170

8.3.2 使用 R实现系统聚类 ……………………………………………… 171

8.4 使用 R实现快速聚类 ………………………………………………………… 174

8.4.1 快速聚类的思想和模型 ……………………………………………… 174

8.4.2 使用 R实现快速聚类 ……………………………………………… 176

8.5 几种判别分析模型综述 ……………………………………………………… 178

8.5.1 距离判别模型 ………………………………………………………… 179

8.5.2 Fisher判别模型 ……………………………………………………… 182

第 9章R中的主成分分析和因子分析 ……………………………………186

9.1 主成分分析的实现与应用 …………………………………………………… 186

9.1.1 主成分分析的模型假设和数据处理 ………………………………… 186

9.1.2 构造一个主成分分析模型 …………………………………………… 189

9.1.3 计算主成分的综合得分 ……………………………………………… 191

9.2 因子分析的初次构建与完善 ………………………………………………… 193

9.2.1 构造一个简单的因子分析模型 ……………………………………… 194

9.2.2 计算因子得分并分析 ………………………………………………… 196

9.3 对因子分析模型进行修正 …………………………………………………… 198

9.3.1 修改因子分析模型中的因子个数 …………………………………… 198

9.3.2 基于主成分法和主轴因子法进行因子分析 ………………………… 200

9.4 在降维分析的基础上进行回归分析和聚类分析 …………………………… 202

9.4.1 在降维分析的基础上进行回归分析 ………………………………… 202

9.4.2 在降维分析的基础上进行聚类分析 ………………………………… 206

第 10章R中的广义线性回归模型…………………………………………209

10.1 一般的广义线性回归模型 ………………………………………………… 209

10.1.1 使用二次函数拟合线性回归模型 ………………………………… 209

10.1.2 拟合更多的广义线性模型 ………………………………………… 212

10.1.3 比较线性模型的优劣 ……………………………………………… 214

10.2 Logistic线性回归模型 ……………………………………………………… 217

10.2.1 Logistic模型的原理与构建方法…………………………………… 217

10.2.2 Logistic模型的显著性检验和优势比……………………………… 220

10.2.3 修正被警告的 Logistic模型 ……………………………………… 221

10.3 泊松回归分析模型 ………………………………………………………… 224

10.3.1 拟合第一个泊松回归模型 ………………………………………… 224

10.3.2 泊松回归模型的过散布检验 ……………………………………… 228

10.4 广义线性模型的交叉验证 ………………………………………………… 230

第 11章R中的时间序列模型 ………………………………………………233

11.1 将数据转换为时间序列格式 ……………………………………………… 233

11.1.1 使用 ts()函数转换数据格式并绘制时间序列曲线 ……………… 233

11.1.2 使用 zoo()函数转换数据格式并绘制时间序列曲线……………… 236

11.2 分解时间序列并检验时间序列的自相关性 ……………………………… 239

11.2.1 使用经典方法分解时间序列 ……………………………………… 239

11.2.2 使用 STL方法分解时间序列 ……………………………………… 241

11.3 探究时间序列的自相关性 ………………………………………………… 243

11.3.1 使用月图和季度图探究自相关性 ………………………………… 243

11.3.2 使用散点图探究自相关性 ………………………………………… 245

11.4 构建时间序列并预测 ……………………………………………………… 248

11.4.1 均值预测、单纯预测和漂移 ……………………………………… 248

11.4.2 不考虑长期趋势和季节波动的简单指数平滑 …………………… 251

11.4.3 在指数平滑中加入长期趋势和季节波动 ………………………… 253

11.4.4 自回归移动平均模型 ……………………………………………… 256

第 12章R中的最优化问题…………………………………………………259

12.1 最优化问题简述 …………………………………………………………… 259

12.2 黄金分割法 ………………………………………………………………… 260

12.2.1 黄金分割法和局部最优解 ………………………………………… 261

12.2.2 使用 R实现黄金分割法 …………………………………………… 263

12.3 牛顿最优化方法 …………………………………………………………… 265

12.3.1 牛顿方法的算法原理 ……………………………………………… 265

12.3.2 在一维情形下实现牛顿迭代法 …………………………………… 267

12.3.3 在多维情形下实现牛顿迭代法 …………………………………… 270

12.4 最快上升法 ………………………………………………………………… 272

12.4.1 利用梯度求解上升最快的相邻点 ………………………………… 272

12.4.2 构建最快上升法函数并检验 ……………………………………… 274

12.5 R中的最优化函数…………………………………………………………… 276

第 13章使用 R绘制地理信息图形 ………………………………………279

13.1 绘制世界、国家、省市地图 ……………………………………………… 279

13.1.1 使用 map()函数绘制地图 ………………………………………… 279

13.1.2 另一种绘制地图的方法 …………………………………………… 281

13.1.3 分省市绘制地图 …………………………………………………… 284

13.2 向地图中添加颜色 ………………………………………………………… 288

13.2.1 向地图中添加颜色前的准备工作 ………………………………… 288

13.2.2 在地图上添加颜色 ………………………………………………… 290

13.3 向地图中添加标签和线条 ………………………………………………… 292

13.3.1 向地图中添加标签前的准备工作 ………………………………… 293

13.3.2 在地图上添加标签 ………………………………………………… 295

13.3.3 在地图上添加线条 ………………………………………………… 298

13.4 使用其他格式的文件优化地图 …………………………………………… 300

第 14章使用 R构建支持向量机 …………………………………………305

14.1 构建一个简单的支持向量机 ……………………………………………… 305

14.1.1 支持向量机的算法原理 …………………………………………… 305

14.1.2 构建一个简单的支持向量机 ……………………………………… 308

14.1.3 使用其他核函数构建支持向量机 ………………………………… 311

14.2 优化支持向量机的参数 …………………………………………………… 315

14.2.1 优化参数 degree …………………………………………………… 315

14.2.2 优化参数 cost ……………………………………………………… 318

14.2.3 优化参数 gamma …………………………………………………… 321

14.3 比较支持向量机与 Logistic回归的优劣 …………………………………… 325

14.4 比较支持向量机和 KNN聚类算法的优劣 ………………………………… 329

第 15章实现更高效的流程控制和高级循环 ……………………………332

15.1 R中的流程控制……………………………………………………………… 332

15.1.1 if语句的多种实现方法 …………………………………………… 332

15.1.2 ifelse语句与花括号的结合 ………………………………………… 334

15.1.3 适合多分支情况的 switch语句 …………………………………… 336

15.2 R中的 for循环、while循环和 repeat循环 ……………………………… 339

15.2.1 R中的 for循环和 while循环 ……………………………………… 339

15.2.2 R中的 repeat循环 ………………………………………………… 341

15.3 apply家族中的循环函数 …………………………………………………… 344

15.3.1 R中的 apply()函数 ………………………………………………… 344

15.3.2 R中的 lapply()函数和 sapply()函数 ……………………………… 348

15.3.3 R中的 tapply()函数………………………………………………… 351

15.3.4 R中的 mapply()函数 ……………………………………………… 354

15.4 更多的高级循环函数 ……………………………………………………… 357

15.4.1 R中的 replicate()函数和 sweep()函数 …………………………… 357

15.4.2 R中的 aggregate()函数 …………………………………………… 360

第 16章R代码的调试与优化………………………………………………364

16.1 R代码的常见信息与警告…………………………………………………… 364

16.1.1 R代码的正常信息与警告 ………………………………………… 364

16.1.2 R代码中的警告处理方法 ………………………………………… 366

16.2 R代码中的错误与错误处理方法…………………………………………… 369

16.2.1 使用 try()函数处理错误信息 ……………………………………… 369

16.2.2 将 try()函数与循环相结合 ………………………………………… 371

16.3 调试 R代码 ………………………………………………………………… 373

16.3.1 查看调用栈或暂停代码 …………………………………………… 373

16.3.2 修改 error选项 ……………………………………………………… 375

16.4 向量化编程方法 …………………………………………………………… 377

16.4.1 向量化编程思想 …………………………………………………… 377

16.4.2 比较循环和向量的运行速度 ……………………………………… 378

第 17章构建电影评分预测模型 …………………………………………381

17.1 获取数据并探索 …………………………………………………………… 381

17.2 利用 recommenderlab包处理数据 ………………………………………… 384

17.3 建立模型并评估 …………………………………………………………… 387

17.3.1 模型的选择与建立 ………………………………………………… 387

17.3.2 模型之间的比较和评估 …………………………………………… 389

第 18章贝叶斯垃圾邮件过滤器模型 ……………………………………393

18.1 贝叶斯模型中的条件概率 ………………………………………………… 393

18.2 复杂的数据预处理过程 …………………………………………………… 395

18.2.1 利用 for循环读入多封邮件正文 ………………………………… 395

18.2.2 利用 tm包进一步转换数据格式…………………………………… 397

18.2.3 将 TDM转换成真正有用的数据框 ……………………………… 399

18.3 利用 occurrece值构造分类器 ……………………………………………… 402

18.3.1 完成理论准备并处理测试邮件和普通邮件 ……………………… 402

18.3.2 创建一个函数用于比较概率 ……………………………………… 405

内容摘要:

本书是一本优秀的R语言入门读物,旨在帮助读者迅速构建起与数据分析相关的知识体系,并学习如何使用R软件实现数据分析方法。无论有无编程基础或数学基础,本书都能帮助读者成长为一名合格的数据分析师。本书全面介绍了来自统计分析、机器学习、人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理、优缺点与适用背景。本书按照由易到难的原则组织章节主题,读者将获得*好的阅读体验。通过阅读本书,读者将对R语言在数据分析领域的应用有一个全面的认识。这种认识不被特定行业所局限,任何行业的读者都能利用本书介绍的数据分析方法解决本行业的数据分析问题。

编辑推荐:

适读人群 :希望提升自身的数据挖掘从业人员;统计专业、计算机科学与信息相关专业的学生;对R有兴趣、希望全面了解R的人;没有编程经验或没有统计基础,但想要尽快入门的数据分析师等。

  全面介绍了来自统计分析、机器学习、人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理、优缺点与适用背景。本书按照由易到难的原则组织章节主题,读者将获得*好的阅读体验。

书籍规格:

书籍详细信息
书名R语言实战站内查询相似图书
9787121281150
如需购买下载《R语言实战》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位电子工业出版社
版次1版印次1
定价(元)75.0语种简体中文
尺寸26 × 19装帧平装
页数印数

书籍信息归属:

R语言实战是电子工业出版社于2016.2出版的中图分类号为 TP312 的主题关于 程序语言-程序设计 的书籍。