实战Hadoop大数据处理
实战Hadoop大数据处理封面图

实战Hadoop大数据处理

曾刚, 编著

出版社:清华大学出版社

年代:2015

定价:35.0

书籍简介:

本书共分为9章,介绍了大数据的基本理论、Hadoop生态系统、Hadoop的三种安装方式、Hadoop2.2的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据整合工具,最后结合实际介绍了大数据在智能交通和情报分析中的应用。

书籍目录:

第1章 大数据概述

1.1 大数据简介

1.1.1 大数据的概念与特点

1.1.2 大数据研究的背景

1.1.3 大数据的应用示例

1.1.4 大数据研究的意义

1.2 大数据处理技术简介

1.2.1 大数据的关键技术

1.2.2 大数据处理模式及其系统

1.3 大数据带来的挑战

1.4 大数据的研究与发展方向

第2章 Hadoop简介

2.1 Hadoop项目起源

2.2 Hadoop的由来

2.3 Hadoop核心组件及相关项目简介

2.4 Hadoop的版本衍化

2.5 Hadoop的发展趋势

第3章 Hadoop的安装

3.1 安装Ubuntu Server

3.1.1 VMware网络适配器的连接模式

3.1.2 “仅主机模式”网络的设置

3.1.3 安装Ubuntu Server

3.1.4 远程管理Ubuntu Server

3.1.5 安装JDK

3.1.6 克隆其他虚拟机

3.1.7 配置hosts文件

3.2 配置SSH公钥认证

3.2.1 为什么要公钥认证

3.2.2 公钥认证的工作原理

3.2.3 SSH客户端的安装

3.2.4 SSH配置

3.2.5 配置SecureCRT公钥登录Linux服务器

3.3 安装配置Hadoop

3.3.1 单机安装

3.3.2 伪分布模式的安装

3.3.3 分布式安装

3.3.4 Hadoop管理员常用命令

3.4 双NameNode分布式安装Hadoop 2.2.0

3.4.1 安装配置Zookeeper集群

3.4.2 安装Hadoop 2.2.0

第4章 HDFS文件系统

4.1 互联网时代对存储系统的新要求

4.2 HDFS系统的特点

4.3 HDFS文件系统

4.3.1 HDFS系统组成

4.3.2 HDFS文件数据的存储组织

4.3.3 元数据及其备份机制

4.3.4 数据块备份

4.3.5 数据的读取过程

4.3.6 数据的写入过程

4.4 HDFS Shell命令

4.5 API访问

4.5.1 编译Hadoop的Eclipse插件

4.5.2 在Eclipse中安装Hadoop插件

4.5.3 Hadoop URL读取数据

4.5.4 FileSystem类

4.5.5 取得HDFS的元信息

4.6 HDFS的高可用性

4.6.1 元数据的备份

4.6.2 使用SecondaryName进行备份

4.6.3 BackupNode备份

4.6.4 Hadoop 2.X中HDFS的高可用性实现原理

4.6.5 Federation机制

4.7 HDFS中小文件存储问题

4.7.1 文件归档技术

4.7.2 SequenceFile格式

4.7.3 CombineFileInputFormat

第5章 MapReduce原理及开发

5.1 初识MapReduce

5.1.1 试用WordCount

5.1.2 自己编写WordCount

5.1.3 WordCount处理过程

5.2 MapReduce工作原理

5.2.1 MapReduce数据处理过程

5.2.2 MapReduce框架组成

5.2.3 MapReduce运行原理

5.3 Shuffle和Sort

5.3.1 Map端的Shuffle

5.3.2 Reduce端Shuffle

5.3.3 Shuffle过程优化

5.4 任务的执行

5.4.1 推测执行

5.4.2 任务JVM重用

5.4.3 跳过坏的记录

5.4.4 任务执行的信息

5.5 故障处理

5.5.1 任务失败

5.5.2 TaskTracker失败

5.5.3 JobTracker失败

5.5.4 任务失败重试的处理方法

5.6 作业调度

5.6.1 先进先出(FIFO)调度器

5.6.2 能力调度器

5.6.3 公平调度器

5.7 MapReduce编程接口

5.7.1 InputFormat——输入格式类

5.7.2 FileInputFormat——文件输入格式类

5.7.3 InputSplit——数据分块类

5.7.4 RecordReader——记录读取类

5.7.5 Mapper类

5.7.6 Reducer类

5.7.7 OutputFormat——输出格式类

5.7.8 FileOutputFormat类——文件输出格式类

5.7.9 RecordWriter类——记录输出类

5.8 MapReduce应用开发

5.8.1 计数类应用

5.8.2 去重计数类应用

5.8.3 简单排序类应用

5.8.4 倒排索引类应用

5.8.5 二次排序类应用

第6章 HBase数据库

6.1 HBase介绍

6.1.1 互联网时代对数据库的要求

6.1.2 HBase的特点

6.2 HBase架构与原理

6.2.1 系统的架构及组成

6.2.2 HBase逻辑视图

6.2.3 HBase的物理模型

6.2.4 元数据表

6.3 安装HBase

6.3.1 单机模式安装

6.3.2 伪分布模式安装

6.3.3 分布式安装

6.4 HBase Shell操作

6.4.1 基本Shell命令

6.4.2 DDL操作

6.4.3 DML操作

6.4.4 HBase Shell脚本

6.5 基于API使用HBase

6.5.1 API简介

6.5.2 表操作示例

6.5.3 数据操作示例

6.5.4 Filter的应用与示例

6.6 MapReduce操作HBase数据

6.6.1 HBase MapReduce汇总到文件

6.6.2 HBase MapReduce汇总到HBase

6.7 HBase优化

6.7.1 JVM GC优化

6.7.2 HBase参数调优

6.7.3 表设计优化

6.7.4 读优化

6.7.5 写优化

第7章 Hive数据仓库

7.1 Hive简介

7.1.1 数据分析工具应具有的特征

7.1.2 Pig与Hive的比较

7.1.3 Hive架构

7.1.4 Hive的元数据存储

7.1.5 Hive文件存储格式

7.1.6 Hive支持的数据类型

7.2 Hive的安装

7.2.1 安装MySQL

7.2.2 安装Hive

7.2.3 Hive的用户接口

7.3 Hive QL讲解

7.3.1 DDL命令

7.3.2 DML操作

7.3.3 SELECT查询

7.4 Hive复杂类型

7.4.1 Array(数组)

7.4.2 Map类型

7.4.3 Struct类型

7.5 Hive函数

7.5.1 Hive内置函数

7.5.2 Hive用户自定义函数

第8章 数据整合

8.1 大数据整合问题

8.2 Sqoop 1.4X整合工具

8.3 Sqoop2整合工具

第9章 典型应用案例介绍

9.1 大数据在智能交通中的应用

9.1.1 交通运输业面临的挑战

9.1.2 智能交通大数据平台的架构

9.1.3 数据分析层的数据基础分析

9.2 大数据在情报分析中的应用

9.2.1 公安情报分析的现状

9.2.2 大数据情报分析系统架构

9.2.3 数据的整合

9.2.4 情报分析的方法

9.2.5 基于文本的串并案件聚类分析

参考文献

内容摘要:

《实战Hadoop大数据处理》以“大数据”为起点,较详细地介绍了Hadoop的相关知识。全书共分为9章,介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具,最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop;力求深入浅出,把复杂的理论与实际案例相结合,用平实的语言把深奥的原理简单化;力求图文并茂,通过适当的图表把零乱的知识点有序地展现在读者面前;力求紧跟时代步伐,尽量结合较新版本的软件阐述大数据处理的相关知识。本书适合作为Hadoop技术的初学者、工程技术人员、大专院校研究生或高年级本科生的学习用书或参考书。

编辑推荐:

本书共分为9章,介绍了大数据的基本理论、Hadoop生态系统、Hadoop的三种安装方式、Hadoop2.2的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据整合工具,最后结合实际介绍了大数据在智能交通和情报分析中的应用。

书籍规格:

书籍详细信息
书名实战Hadoop大数据处理站内查询相似图书
9787302411444
如需购买下载《实战Hadoop大数据处理》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位清华大学出版社
版次1版印次1
定价(元)35.0语种简体中文
尺寸26 × 19装帧平装
页数印数 2500

书籍信息归属:

实战Hadoop大数据处理是清华大学出版社于2015.出版的中图分类号为 TP274 的主题关于 数据处理软件 的书籍。