出版社:清华大学出版社
年代:2016
定价:39.0
本书内容包括大数据概论、Hadoop、HDFS详解以及MapReduce技术概括。大数据概论介绍了大数据的时代背景、相关概念、大数据系统以及与企业的发展;Hadoop简介介绍了Hadoop相关概念以及应用案例;HDFS介绍了设计思想、运行机制以及相关接口;MapReduce这一模块介绍了其编程模型与开发、工作机制与YARN平台以及MapReduce高级开发,最后通过MapReduce实战项目,加深读者对本书内容的掌握。本书可以作为大数据技术教学用书。
第1章大数据概论001
1.1大数据时代背景001
1.1.1大数据的数据源001
1.1.2大数据的价值和影响002
1.1.3大数据技术应用场景003
1.1.4大数据技术的发展前景004
1.2大数据基本概念005
1.2.1大数据定义005
1.2.2大数据结构类型007
1.2.3大数据核心特征007
1.2.4大数据技术008
1.2.5行业应用大数据实例010
1.3大数据系统011
1.3.1设计目标和原则011
1.3.2当前大数据系统012
1.4大数据与企业016
1.4.1大数据对企业的挑战性016
1.4.2企业大数据的发展方向019
1.4.3企业大数据观020
本章小结020
习题021
第2章初识Hadoop022
2.1Hadoop简介022
2.1.1Hadoop概况022
2.1.2Hadoop的功能和作用023
2.1.3Hadoop的优势023
2.1.4Hadoop的发展史024
2.1.5Hadoop的应用前景025
2.2深入了解Hadoop025
2.2.1Hadoop的体系结构025
2.2.2Hadoop与分布式开发027
2.2.3Hadoop生态系统029
2.3Hadoop与其他系统030
2.3.1Hadoop与关系型数据库管理系统030
2.3.2Hadoop与云计算032
2.4Hadoop应用案例032
2.4.1Hadoop在百度的应用032
2.4.2Hadoop在Yahoo!的应用033
2.4.3Hadoop在eBay的应用035
本章小结037
习题037
大数据
技术基础
目录
第3章认识HDFS039
3.1HDFS简介039
3.2HDFS的特性和设计目标040
3.2.1HDFS的特性040
3.2.2HDFS的设计目标041
3.3HDFS的核心设计042
3.3.1数据块042
3.3.2数据复制042
3.3.3数据副本的存放策略043
3.3.4机架感知045
3.3.5安全模式046
3.3.6负载均衡047
3.3.7心跳机制048
3.4HDFS的体系结构049
3.4.1Master/Slave架构049
3.4.2NameNode、SecondaryNameNode、DataNode050
本章小结055
习题055
第4章HDFS的运行机制056
4.1HDFS中数据流的读写056
4.1.1RPC实现流程056
4.1.2RPC实现模型057
4.1.3文件的读取059
4.1.4文件的写入060
4.1.5文件的一致模型061
4.2HDFS的HA机制062
4.2.1为什么有HA机制062
4.2.2HA集群和架构063
4.3HDFS的Federation机制064
4.3.1为什么引入Federation机制064
4.3.2Federation架构066
4.3.3多命名空间管理067
本章小结067
习题068
第5章访问HDFS069
5.1命令行常用接口069
5.1.1HDFS操作体验069
5.1.2HDFS常用命令071
5.2Java接口073
5.2.1从Hadoop URL中读取数据074
5.2.2通过FileSystem API读取数据075
5.2.3写入数据076
5.2.4创建目录078
5.2.5查询文件系统078
5.2.6删除数据081
5.3其他常用接口081
5.3.1Thrift081
5.3.2C语言082
5.3.3HTTP082
本章小结082
习题083
第6章Hadoop I/O详解084
6.1数据完整性084
6.1.1HDFS的数据完整性084
6.1.2验证数据完整性085
6.2文件压缩086
6.2.1Hadoop支持的压缩格式086
6.2.2压缩解压缩算法codec087
6.2.3压缩和输入分片091
6.3文件序列化092
6.3.1Writable接口093
6.3.2WritableComparable接口094
6.3.3Writable实现类095
6.3.4自定义Writable接口100
6.3.5序列化框架104
6.4Hadoop文件的数据结构104
6.4.1SequenceFile存储104
6.4.2MapFile存储108
本章小结111
习题111第7章识识MapReduce编程模型113
7.1MapReduce编程模型简介113
7.1.1什么是MapReduce113
7.1.2MapReduce程序的设计方法114
7.1.3新旧MapReduce简介115
7.1.4Hadoop MapReduce架构116
7.1.5MapReduce的优缺点117
7.2WordCount编程实例118
7.2.1WordCount的设计思路118
7.2.2编写WordCount代码118
7.2.3运行程序119
7.2.4代码讲解120
7.3MapReduce的编程122
7.3.1配置开发环境122
7.3.2编写Mapper类124
7.3.3编写Reducer类125
7.3.4编写main函数125
7.4MapReduce在集群上的运作127
7.4.1作业的打包和启动127
7.4.2MapReduce的Web界面128
7.4.3获取结果130
本章小结131
习题131
第8章MapReduce应用编程开发132
8.1MapReduce类型与格式132
8.1.1MapReduce的类型132
8.1.2输入格式137
8.1.3输出格式148
8.2Java API解析150
8.2.1作业配置与提交151
8.2.2InputFormat接口的设计与实现152
8.2.3OutputFormat接口的设计与实现157
8.2.4Mapper与Reducer解析159
本章小结163
习题163
第9MapReduce的工作机制与YARN平台165
9.1YARN平台简介165
9.1.1YARN的诞生165
9.1.2YARN的作用166
9.2YARN的架构166
9.2.1ResourceManager167
9.2.2ApplicationMaster168
9.2.3NodeManager168
9.2.4资源模型169
9.2.5ResourceRequest和Container169
9.2.6Container规范170
9.3剖析MapReduce作业运行机制170
9.4基于YARN的运行机制剖析171
9.5Shuffle和排序175
9.5.1map端175
9.5.2reduce端176
9.6任务的执行178
9.6.1任务执行环境178
9.6.2推测执行179
9.6.3关于OutputCommitters180
9.6.4任务JVM重用181
9.6.5跳过坏记录182
9.7作业的调度182
9.7.1公平调度器183
9.7.2容量调度器183
9.8在YARN上运行MapReduce实例184
9.8.1运行Pi实例184
9.8.2使用Web GUI监控实例185
本章小结189
习题190
第10章MapReduce高级开发191
10.1计数器191
10.1.1内置计数器191
10.1.2自定义的Java计数器193
10.2数据去重194
10.2.1实例描述194
10.2.2设计思路194
10.2.3程序代码194
10.3排序195
10.3.1实例描述196
10.3.2设计思路196
10.3.3程序代码196
10.4二次排序197
10.4.1二次排序原理197
10.4.2二次排序的算法流程198
10.4.3代码实现199
10.5平均值202
10.5.1实例描述202
10.5.2设计思路202
10.5.3程序代码203
10.6Join联接204
10.6.1Map端Join204
10.6.2Reduce端Join205
10.6.3Join实现表关联205
10.7倒排索引209
10.7.1倒排索引的分析和设计209
10.7.2倒排索引完整源码213
10.7.3运行代码结果214
本章小结215
习题215
第11章MapReduce实例216
11.1搜索引擎日志处理216
11.1.1背景介绍216
11.1.2数据收集216
11.1.3数据结构216
11.1.4需求分析217
11.1.5MapReduce编码实现217
11.2汽车销售数据分析223
11.2.1背景介绍224
11.2.2数据收集224
11.2.3数据结构 224
11.2.4需求分析224
11.2.5MapReduce编码实现225
11.3农产品价格分析234
11.3.1背景介绍234
11.3.2数据收集235
11.3.3数据结构235
11.3.4需求分析236
11.3.5MapReduce编码实现236
参考文献248
本书的知识架构是在培训了多届学员的基础上总结整理得来的,已经经过了实践的考验,证实了其科学性;本书当中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,帮助学生在进入企业后可以很快融入大数据工作岗位。本书包括大数据概论、初识Hadoop、认识HDFS、HDFS的运行机制、访问HDFS、Hadoop I/O 详解、认识MapReduce编程模型、MapReduce应用编程开发、MapReduce的工作机制与YARN平台、MapReduce高级开发、MapReduce实例共11章内容。本书既可作为高等院校学习大数据技术的教材,亦可作为广大大数据技术学习者的入门用书。
本书针对初学者的知识体系,适当简化大数据学习的难度,使得学习更加容易上手;知识架构是在培训了多届学员的基础上总结整理得来的,已经经历了实践的考验,证实了其的科学性;本书凝聚了10余位技术大牛的研发和授课经验,教学资料完整;书中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,使得学习者在进入企业后可以快速融入大数据技术相关工作岗位。
书籍详细信息 | |||
书名 | 大数据技术基础站内查询相似图书 | ||
9787302437574 如需购买下载《大数据技术基础》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN | |||
出版地 | 北京 | 出版单位 | 清华大学出版社 |
版次 | 1版 | 印次 | 1 |
定价(元) | 39.0 | 语种 | 简体中文 |
尺寸 | 26 × 19 | 装帧 | 平装 |
页数 | 印数 | 2000 |