大数据技术基础

大数据技术基础

中科普开, 编著

出版社:清华大学出版社

年代:2016

定价:39.0

书籍简介:

本书内容包括大数据概论、Hadoop、HDFS详解以及MapReduce技术概括。大数据概论介绍了大数据的时代背景、相关概念、大数据系统以及与企业的发展;Hadoop简介介绍了Hadoop相关概念以及应用案例;HDFS介绍了设计思想、运行机制以及相关接口;MapReduce这一模块介绍了其编程模型与开发、工作机制与YARN平台以及MapReduce高级开发,最后通过MapReduce实战项目,加深读者对本书内容的掌握。本书可以作为大数据技术教学用书。

作者介绍:

中科普开(北京)科技有限公司成立于2010年,是国内致力于IT新技术传播、普及的领航者,专注于云计算、大数据、物联网、移动互联网技术的培训及咨询服务。

书籍目录:

第1章大数据概论001

1.1大数据时代背景001

1.1.1大数据的数据源001

1.1.2大数据的价值和影响002

1.1.3大数据技术应用场景003

1.1.4大数据技术的发展前景004

1.2大数据基本概念005

1.2.1大数据定义005

1.2.2大数据结构类型007

1.2.3大数据核心特征007

1.2.4大数据技术008

1.2.5行业应用大数据实例010

1.3大数据系统011

1.3.1设计目标和原则011

1.3.2当前大数据系统012

1.4大数据与企业016

1.4.1大数据对企业的挑战性016

1.4.2企业大数据的发展方向019

1.4.3企业大数据观020

本章小结020

习题021

第2章初识Hadoop022

2.1Hadoop简介022

2.1.1Hadoop概况022

2.1.2Hadoop的功能和作用023

2.1.3Hadoop的优势023

2.1.4Hadoop的发展史024

2.1.5Hadoop的应用前景025

2.2深入了解Hadoop025

2.2.1Hadoop的体系结构025

2.2.2Hadoop与分布式开发027

2.2.3Hadoop生态系统029

2.3Hadoop与其他系统030

2.3.1Hadoop与关系型数据库管理系统030

2.3.2Hadoop与云计算032

2.4Hadoop应用案例032

2.4.1Hadoop在百度的应用032

2.4.2Hadoop在Yahoo!的应用033

2.4.3Hadoop在eBay的应用035

本章小结037

习题037

大数据

技术基础

目录

第3章认识HDFS039

3.1HDFS简介039

3.2HDFS的特性和设计目标040

3.2.1HDFS的特性040

3.2.2HDFS的设计目标041

3.3HDFS的核心设计042

3.3.1数据块042

3.3.2数据复制042

3.3.3数据副本的存放策略043

3.3.4机架感知045

3.3.5安全模式046

3.3.6负载均衡047

3.3.7心跳机制048

3.4HDFS的体系结构049

3.4.1Master/Slave架构049

3.4.2NameNode、SecondaryNameNode、DataNode050

本章小结055

习题055

第4章HDFS的运行机制056

4.1HDFS中数据流的读写056

4.1.1RPC实现流程056

4.1.2RPC实现模型057

4.1.3文件的读取059

4.1.4文件的写入060

4.1.5文件的一致模型061

4.2HDFS的HA机制062

4.2.1为什么有HA机制062

4.2.2HA集群和架构063

4.3HDFS的Federation机制064

4.3.1为什么引入Federation机制064

4.3.2Federation架构066

4.3.3多命名空间管理067

本章小结067

习题068

第5章访问HDFS069

5.1命令行常用接口069

5.1.1HDFS操作体验069

5.1.2HDFS常用命令071

5.2Java接口073

5.2.1从Hadoop URL中读取数据074

5.2.2通过FileSystem API读取数据075

5.2.3写入数据076

5.2.4创建目录078

5.2.5查询文件系统078

5.2.6删除数据081

5.3其他常用接口081

5.3.1Thrift081

5.3.2C语言082

5.3.3HTTP082

本章小结082

习题083

第6章Hadoop I/O详解084

6.1数据完整性084

6.1.1HDFS的数据完整性084

6.1.2验证数据完整性085

6.2文件压缩086

6.2.1Hadoop支持的压缩格式086

6.2.2压缩解压缩算法codec087

6.2.3压缩和输入分片091

6.3文件序列化092

6.3.1Writable接口093

6.3.2WritableComparable接口094

6.3.3Writable实现类095

6.3.4自定义Writable接口100

6.3.5序列化框架104

6.4Hadoop文件的数据结构104

6.4.1SequenceFile存储104

6.4.2MapFile存储108

本章小结111

习题111第7章识识MapReduce编程模型113

7.1MapReduce编程模型简介113

7.1.1什么是MapReduce113

7.1.2MapReduce程序的设计方法114

7.1.3新旧MapReduce简介115

7.1.4Hadoop MapReduce架构116

7.1.5MapReduce的优缺点117

7.2WordCount编程实例118

7.2.1WordCount的设计思路118

7.2.2编写WordCount代码118

7.2.3运行程序119

7.2.4代码讲解120

7.3MapReduce的编程122

7.3.1配置开发环境122

7.3.2编写Mapper类124

7.3.3编写Reducer类125

7.3.4编写main函数125

7.4MapReduce在集群上的运作127

7.4.1作业的打包和启动127

7.4.2MapReduce的Web界面128

7.4.3获取结果130

本章小结131

习题131

第8章MapReduce应用编程开发132

8.1MapReduce类型与格式132

8.1.1MapReduce的类型132

8.1.2输入格式137

8.1.3输出格式148

8.2Java API解析150

8.2.1作业配置与提交151

8.2.2InputFormat接口的设计与实现152

8.2.3OutputFormat接口的设计与实现157

8.2.4Mapper与Reducer解析159

本章小结163

习题163

第9MapReduce的工作机制与YARN平台165

9.1YARN平台简介165

9.1.1YARN的诞生165

9.1.2YARN的作用166

9.2YARN的架构166

9.2.1ResourceManager167

9.2.2ApplicationMaster168

9.2.3NodeManager168

9.2.4资源模型169

9.2.5ResourceRequest和Container169

9.2.6Container规范170

9.3剖析MapReduce作业运行机制170

9.4基于YARN的运行机制剖析171

9.5Shuffle和排序175

9.5.1map端175

9.5.2reduce端176

9.6任务的执行178

9.6.1任务执行环境178

9.6.2推测执行179

9.6.3关于OutputCommitters180

9.6.4任务JVM重用181

9.6.5跳过坏记录182

9.7作业的调度182

9.7.1公平调度器183

9.7.2容量调度器183

9.8在YARN上运行MapReduce实例184

9.8.1运行Pi实例184

9.8.2使用Web GUI监控实例185

本章小结189

习题190

第10章MapReduce高级开发191

10.1计数器191

10.1.1内置计数器191

10.1.2自定义的Java计数器193

10.2数据去重194

10.2.1实例描述194

10.2.2设计思路194

10.2.3程序代码194

10.3排序195

10.3.1实例描述196

10.3.2设计思路196

10.3.3程序代码196

10.4二次排序197

10.4.1二次排序原理197

10.4.2二次排序的算法流程198

10.4.3代码实现199

10.5平均值202

10.5.1实例描述202

10.5.2设计思路202

10.5.3程序代码203

10.6Join联接204

10.6.1Map端Join204

10.6.2Reduce端Join205

10.6.3Join实现表关联205

10.7倒排索引209

10.7.1倒排索引的分析和设计209

10.7.2倒排索引完整源码213

10.7.3运行代码结果214

本章小结215

习题215

第11章MapReduce实例216

11.1搜索引擎日志处理216

11.1.1背景介绍216

11.1.2数据收集216

11.1.3数据结构216

11.1.4需求分析217

11.1.5MapReduce编码实现217

11.2汽车销售数据分析223

11.2.1背景介绍224

11.2.2数据收集224

11.2.3数据结构 224

11.2.4需求分析224

11.2.5MapReduce编码实现225

11.3农产品价格分析234

11.3.1背景介绍234

11.3.2数据收集235

11.3.3数据结构235

11.3.4需求分析236

11.3.5MapReduce编码实现236

参考文献248

内容摘要:

本书的知识架构是在培训了多届学员的基础上总结整理得来的,已经经过了实践的考验,证实了其科学性;本书当中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,帮助学生在进入企业后可以很快融入大数据工作岗位。本书包括大数据概论、初识Hadoop、认识HDFS、HDFS的运行机制、访问HDFS、Hadoop I/O 详解、认识MapReduce编程模型、MapReduce应用编程开发、MapReduce的工作机制与YARN平台、MapReduce高级开发、MapReduce实例共11章内容。本书既可作为高等院校学习大数据技术的教材,亦可作为广大大数据技术学习者的入门用书。

编辑推荐:

本书针对初学者的知识体系,适当简化大数据学习的难度,使得学习更加容易上手;知识架构是在培训了多届学员的基础上总结整理得来的,已经经历了实践的考验,证实了其的科学性;本书凝聚了10余位技术大牛的研发和授课经验,教学资料完整;书中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,使得学习者在进入企业后可以快速融入大数据技术相关工作岗位。

书籍规格:

书籍详细信息
书名大数据技术基础站内查询相似图书
9787302437574
如需购买下载《大数据技术基础》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位清华大学出版社
版次1版印次1
定价(元)39.0语种简体中文
尺寸26 × 19装帧平装
页数印数 2000

书籍信息归属:

大数据技术基础是清华大学出版社于2016.出版的中图分类号为 TP274 的主题关于 数据处理 的书籍。