Spark快速数据处理详细介绍_PDF电子图书下载_(美) 凯洛 (Karau,H.) , 著-302edu教育资源网

Spark快速数据处理

(美) 凯洛 (Karau,H.) , 著

出版社：机械工业出版社

年代：2014

定价：30.0

书籍简介:

Spark是一个通用的并行分布式计算框架，由UCBerkeley的AMP实验室开发。Spark使得程序员更容易地编写分布式应用，并且能够根据自己的喜好使用Scala、Java或者Python作为开发语言。本书系统讲解了Spark的应用方法，包括如下内容：第1章介绍如何在多种机器上安装Spark，以及如何配置一个Spark集群。第2章介绍如何在交互模式下运行第一个Spark作业。第3章介绍如何在Spark集群上构建一个生产级的脱机\独立作业。第4章介绍如何与Spark集群建立连接，以及SparkContext的使用。第5章介绍如何创建和保存RDD（弹性分布式数据集）。第6章介绍如何用Spark分布式处理你的数据。第7章介绍如何设置Shark，将Hive查询集成到你的Spark作业中来。第8章介绍如何测试Spark作业。第九章介绍如何提升Spark任务的性能。

作者介绍:

Holden Karau，资深软件开发工程师，现就职于Databricks公司，之前曾就职于谷歌、微软和Foursquare等著名公司。他对开源情有独钟，参与了许多开源项目，如Linux内核无线驱动、Android程序监控、搜索引擎等，对存储系统、推荐系统、搜索分类等都有深入研究。　　译者简介　　余璜，阿里巴巴核心系统研发工程师，OceanBase核心开发人员，对分布式系统理论和工程实践有深刻理解，专注于分布式系统设计、大规模数据处理，乐于分享，在CSDN上分享了大量技术文章。　　张磊，Spark爱好者，曾参与分布式OLAP数据库系统核心开发，热衷于大数据处理、分布式计算。

书籍目录:

译者序

作者简介

前言

第1章　安装Spark以及构建Spark集群 / 1

1.1　单机运行Spark / 4

1.2　在EC2上运行Spark / 5

1.3　在ElasticMapReduce上部署Spark / 11

1.4　用Chef(opscode)部署Spark / 12

1.5　在Mesos上部署Spark / 14

1.6　在Yarn上部署Spark / 15

1.7　通过SSH部署集群 / 16

1.8　链接和参考 / 21

1.9　小结 / 21

第2章　Spark shell的使用 / 23

2.1　加载一个简单的text文件 / 24

2.2　用Spark shell运行逻辑回归 / 26

2.3　交互式地从S3加载数据 / 28

2.4　小结 / 30

第3章　构建并运行Spark应用 / 31

3.1　用sbt构建Spark作业 / 32

3.2　用Maven构建Spark作业 / 36

3.3　用其他工具构建Spark作业 / 39

3.4　小结 / 39

第4章　创建SparkContext / 41

4.1　Scala / 43

4.2　Java / 43

4.3　Java和Scala共享的API / 44

4.4　Python / 45

4.5　链接和参考 / 45

4.6　小结 / 46

第5章　加载与保存数据 / 47

5.1　RDD / 48

5.2　加载数据到RDD中 / 49

5.3　保存数据 / 54

5.4　连接和参考 / 55

5.5　小结 / 55

第6章　操作RDD / 57

6.1　用Scala和Java操作RDD / 58

6.2　用Python操作RDD / 79

6.3　链接和参考 / 83

6.4　小结 / 84

第7章　Shark-Hive和Spark的综合运用 / 85

7.1　为什么用Hive/Shark / 86

7.2　安装Shark / 86

7.3　运行Shark / 88

7.4　加载数据 / 88

7.5　在Spark程序中运行HiveQL查询 / 89

7.6　链接和参考 / 92

7.7　小结 / 93

第8章　测试 / 95

8.1　用Java和Scala测试 / 96

8.2　用Python测试 / 103

8.3　链接和参考 / 104

8.4　小结 / 105

第9章　技巧和窍门 / 107

9.1　日志位置 / 108

9.2　并发限制 / 108

9.3　内存使用与垃圾回收 / 109

9.4　序列化 / 110

9.5　IDE集成环境 / 111

9.6　Spark与其他语言 / 112

9.7　安全提示 / 113

9.8　邮件列表 / 113

9.9　链接和参考 / 113

9.10　小结 / 114

内容摘要:

Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性，现已逐渐获得很多企业的支持，如阿里巴巴、百度、网易、英特尔等公司。
　　《Spark快速数据处理》系统讲解Spark的使用方法，包括如何在多种机器上安装Spark，如何配置一个Spark集群，如何在交互模式下运行第一个Spark作业，如何在Spark集群上构建一个生产级的脱机/独立作业，如何与Spark集群建立连接和使用SparkContext，如何创建和保存RDD（弹性分布式数据集），如何用Spark分布式处理数据，如何设置Shark，将Hive查询集成到你的Spark作业中来，如何测试Spark作业，以及如何提升Spark任务的性能。

编辑推荐:

从实用角度系统讲解Spark的数据处理工具及使用方法
　　手把手教你充分利用Spark提供的各种功能，快速编写高效分布式程序
　　
海报

书籍规格:

书籍详细信息
书名	Spark快速数据处理站内查询相似图书
丛书名	大数据技术丛书
	9787111463115 如需购买下载《Spark快速数据处理》pdf扫描版电子书或查询更多相关信息，请直接复制isbn,搜索即可全网搜索该ISBN
出版地	北京	出版单位	机械工业出版社
版次	1版	印次	1
定价(元)	30.0	语种	简体中文
尺寸	19 × 24	装帧	平装
页数	100	印数	3500

书籍信息归属:

Spark快速数据处理是机械工业出版社于2014.7出版的中图分类号为 TP274 的主题关于数据处理软件－程序设计的书籍。

图书代寻

微信扫码添加好友,代寻成功率高达80%。

添加好友请备注(图书代寻_9787111463115)