Spark快速数据处理

Spark快速数据处理

(美) 凯洛 (Karau,H.) , 著

出版社:机械工业出版社

年代:2014

定价:30.0

书籍简介:

Spark是一个通用的并行分布式计算框架,由UCBerkeley的AMP实验室开发。Spark使得程序员更容易地编写分布式应用,并且能够根据自己的喜好使用Scala、Java或者Python作为开发语言。本书系统讲解了Spark的应用方法,包括如下内容:第1章介绍如何在多种机器上安装Spark,以及如何配置一个Spark集群。第2章介绍如何在交互模式下运行第一个Spark作业。第3章介绍如何在Spark集群上构建一个生产级的脱机\独立作业。第4章介绍如何与Spark集群建立连接,以及SparkContext的使用。第5章介绍如何创建和保存RDD(弹性分布式数据集)。第6章介绍如何用Spark分布式处理你的数据。第7章介绍如何设置Shark,将Hive查询集成到你的Spark作业中来。第8章介绍如何测试Spark作业。第九章介绍如何提升Spark任务的性能。

作者介绍:

Holden Karau,资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。   译者简介   余璜,阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。   张磊,Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。

书籍目录:

译者序

作者简介

前言

第1章 安装Spark以及构建Spark集群 / 1

1.1 单机运行Spark / 4

1.2 在EC2上运行Spark / 5

1.3 在ElasticMapReduce上部署Spark / 11

1.4 用Chef(opscode)部署Spark / 12

1.5 在Mesos上部署Spark / 14

1.6 在Yarn上部署Spark / 15

1.7 通过SSH部署集群 / 16

1.8 链接和参考 / 21

1.9 小结 / 21

第2章 Spark shell的使用 / 23

2.1 加载一个简单的text文件 / 24

2.2 用Spark shell运行逻辑回归 / 26

2.3 交互式地从S3加载数据 / 28

2.4 小结 / 30

第3章 构建并运行Spark应用 / 31

3.1 用sbt构建Spark作业 / 32

3.2 用Maven构建Spark作业 / 36

3.3 用其他工具构建Spark作业 / 39

3.4 小结 / 39

第4章 创建SparkContext / 41

4.1 Scala / 43

4.2 Java / 43

4.3 Java和Scala共享的API / 44

4.4 Python / 45

4.5 链接和参考 / 45

4.6 小结 / 46

第5章 加载与保存数据 / 47

5.1 RDD / 48

5.2 加载数据到RDD中 / 49

5.3 保存数据 / 54

5.4 连接和参考 / 55

5.5 小结 / 55

第6章 操作RDD / 57

6.1 用Scala和Java操作RDD / 58

6.2 用Python操作RDD / 79

6.3 链接和参考 / 83

6.4 小结 / 84

第7章 Shark-Hive和Spark的综合运用 / 85

7.1 为什么用Hive/Shark / 86

7.2 安装Shark / 86

7.3 运行Shark / 88

7.4 加载数据 / 88

7.5 在Spark程序中运行HiveQL查询 / 89

7.6 链接和参考 / 92

7.7 小结 / 93

第8章 测试 / 95

8.1 用Java和Scala测试 / 96

8.2 用Python测试 / 103

8.3 链接和参考 / 104

8.4 小结 / 105

第9章 技巧和窍门 / 107

9.1 日志位置 / 108

9.2 并发限制 / 108

9.3 内存使用与垃圾回收 / 109

9.4 序列化 / 110

9.5 IDE集成环境 / 111

9.6 Spark与其他语言 / 112

9.7 安全提示 / 113

9.8 邮件列表 / 113

9.9 链接和参考 / 113

9.10 小结 / 114

内容摘要:

Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
  《Spark快速数据处理》系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。

编辑推荐:

从实用角度系统讲解Spark的数据处理工具及使用方法
  手把手教你充分利用Spark提供的各种功能,快速编写高效分布式程序
  
海报

书籍规格:

书籍详细信息
书名Spark快速数据处理站内查询相似图书
丛书名大数据技术丛书
9787111463115
如需购买下载《Spark快速数据处理》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位机械工业出版社
版次1版印次1
定价(元)30.0语种简体中文
尺寸19 × 24装帧平装
页数 100 印数 3500

书籍信息归属:

Spark快速数据处理是机械工业出版社于2014.7出版的中图分类号为 TP274 的主题关于 数据处理软件-程序设计 的书籍。