Apache Spark源码剖析

Apache Spark源码剖析

许鹏, 著

出版社:电子工业出版社

年代:2015

定价:59.0

书籍简介:

本书从源码级别深度剖析当下大数据领域最为红火的Apache Spark,分析紧密围绕两大维度展开:一是从Hadoop生态圈的角度来看Spark为什么能取得当前这么大的关注,它主要解决了哪些关切问题,可以说是从需求及市场的角度来看问题;二是从Spark自身实现的角度,深刻剖析其实现的机理及Spark提供的各种类型Application支持实现的特点。

书籍目录:

第一部分Spark概述1第1章初识Spark 31.1 大数据和Spark 31.1.1 大数据的由来41.1.2 大数据的分析41.1.3 Hadoop 51.1.4 Spark简介61.2 与Spark的第一次亲密接触71.2.1 环境准备71.2.2 下载安装Spark 81.2.3 Spark下的WordCount 8第二部分Spark核心概念13第2章Spark整体框架 152.1 编程模型152.1.1 RDD 172.1.2 Operation 172.2 运行框架182.2.1 作业提交182.2.2 集群的节点构成182.2.3 容错处理192.2.4 为什么是Scala 192.3 源码阅读环境准备192.3.1 源码下载及编译192.3.2 源码目录结构212.3.3 源码阅读工具212.3.4 本章小结22第3章SparkContext初始化 233.1 spark-shell 233.2 SparkContext的初始化综述273.3 Spark Repl综述303.3.1 Scala Repl执行过程313.3.2 Spark Repl 32第4章Spark作业提交 334.1 作业提交334.2 作业执行384.2.1 依赖性分析及Stage划分394.2.2 Actor Model和Akka 464.2.3 任务的创建和分发474.2.4 任务执行534.2.5 Checkpoint和Cache 624.2.6 WebUI和Metrics 624.3 存储机制714.3.1 Shuffle结果的写入和读取714.3.2 Memory Store 804.3.3 存储子模块启动过程分析814.3.4 数据写入过程分析824.3.5 数据读取过程分析844.3.6 TachyonStore 88第5章部署方式分析 915.1 部署模型915.2 单机模式local 925.3 伪集群部署local-cluster 935.4 原生集群Standalone Cluster 955.4.1 启动Master 965.4.2 启动Worker 975.4.3 运行spark-shell 1025.4.4 容错性分析1065.5 Spark On YARN 1125.5.1 YARN的编程模型1125.5.2 YARN中的作业提交1125.5.3 Spark On YARN实现详解1135.5.4 SparkPi on YARN 122第三部分Spark Lib 129第6章Spark Streaming 1316.1 Spark Streaming整体架构1316.1.1 DStream 1326.1.2 编程接口1336.1.3 Streaming WordCount 1346.2 Spark Streaming执行过程1356.2.1 StreamingContext初始化过程1366.2.2 数据接收1416.2.3 数据处理1466.2.4 BlockRDD 1556.3 窗口操作1586.4 容错性分析1596.5 Spark Streaming vs. Storm 1656.5.1 Storm简介1656.5.2 Storm和Spark Streaming对比1686.6 应用举例1686.6.1 搭建Kafka Cluster 1686.6.2 KafkaWordCount 169第7章SQL 1737.1 SQL语句的通用执行过程分析1757.2 SQL On Spark的实现分析1787.2.1 SqlParser 1787.2.2 Analyzer 1847.2.3 Optimizer 1917.2.4 SparkPlan 1927.3 Parquet 文件和JSON数据集1967.4 Hive简介1977.4.1 Hive 架构1977.4.2 HiveQL On MapReduce执行过程分析1997.5 HiveQL On Spark详解2007.5.1 Hive On Spark环境搭建2067.5.2 编译支持Hadoop 2.x的Spark 2117.5.3 运行Hive On Spark测试用例213第8章GraphX 2158.1 GraphX简介2158.1.1 主要特点2168.1.2 版本演化2168.1.3 应用场景2178.2 分布式图计算处理技术介绍2188.2.1 属性图2188.2.2 图数据的存储与分割2198.3 Pregel计算模型2208.3.1 BSP 2208.3.2 像顶点一样思考2208.4 GraphX图计算框架实现分析2238.4.1 基本概念2238.4.2 图的加载与构建2268.4.3 图数据存储与分割2278.4.4 操作接口2288.4.5 Pregel在GraphX中的源码实现2308.5 PageRank 2358.5.1 什么是PageRank 2358.5.2 PageRank核心思想235第9章MLLib 2399.1 线性回归2399.1.1 数据和估计2409.1.2 线性回归参数求解方法2409.1.3 正则化2459.2 线性回归的代码实现2469.2.1 简单示例2469.2.2 入口函数train 2479.2.3 最优化算法optimizer 2499.2.4 权重更新update 2569.2.5 结果预测predict 2579.3 分类算法2579.3.1 逻辑回归2589.3.2 支持向量机2609.4 拟牛顿法2619.4.1 数学原理2619.4.2 代码实现2659.5 MLLib与其他应用模块间的整合268第四部分附录271附录A Spark源码调试 273附录B 源码阅读技巧 283

内容摘要:

适读人群 :本书对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。  Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐  1.《Apache Spark源码剖析》全面、系统地介绍了Spark源码,深入浅出,细致入微  2.提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序  3.始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧  4.一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然  《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。【作者简介】许鹏,花名@徽沪一郎,2000年毕业于南京邮电学院,现就业于爱立信上海,在UDM部门从事相关产品研发,个人关注于Linux内核及实时计算框架如Storm、Spark等。

书籍规格:

书籍详细信息
书名Apache Spark源码剖析站内查询相似图书
9787121254208
如需购买下载《Apache Spark源码剖析》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位电子工业出版社
版次1版印次1
定价(元)59.0语种简体中文
尺寸24 × 19装帧平装
页数印数

书籍信息归属:

Apache Spark源码剖析是电子工业出版社于2015.3出版的中图分类号为 TP274 ,TP368.5 的主题关于 数据处理软件 ,互联网络-网络服务器 的书籍。