深入浅出大数据
深入浅出大数据封面图

深入浅出大数据

宋智军, 著

出版社:清华大学出版社

年代:2015

定价:30.0

书籍简介:

该教程可以大致分为四个部分:1. 了解大数据的基本概念,了解大数据与传统数据的区别,以及大数据关键技术等;2. 学习大数据生态体系,大数据架构,以及大数据技术解决的关键问题等;3. 掌握大数据处理平台的搭建技术,进行大数据处理平台实践;4. 大数据实例分享,大数据在电商企业、互联网企业遇到的问题及解决方案等;

书籍目录:

第1章大数据概述

1.1大数据发展历程

1.2大数据的定义及特征

1.2.1大数据定义

1.2.2大数据的关键特征

1.3大数据与传统数据的区别

1.3.1数据思维

1.3.2数据处理

1.3.3数据分析

1.4大数据的核心价值

1.5大数据安全与隐私保护

1.5.1基础设施安全

1.5.2数据隐私

1.5.3数据治理

1.5.4被动安全机制

第2章大数据关键技术

2.1大数据采集与预处理技术

2.1.1Flume

2.1.2Scribe

2.1.3Kafka

2.1.4Time Tunnel

2.1.5Chukwa

2.2大数据存储与管理技术

2.2.1分布式文件系统

2.2.2分布式数据库

2.3大数据分析与挖掘技术

2.3.1传统数据分析与挖掘方法

2.3.2大数据分析与挖掘方法

2.3.3大数据分析与挖掘框架

2.4大数据应用与展现技术

2.4.1大数据应用

2.4.2大数据可视化

第3章基于Hadoop的大数据生态系统

3.1Hadoop概述

3.1.1Hadoop发展历程

3.1.2Hadoop特点

3.1.3Hadoop核心思想

3.2Hadoop家族成员

3.3Hadoop生态系统

3.3.1Hadoop 1.0生态系统

3.3.2Hadoop 2.0生态系统

3.4Hadoop集群架构

3.4.1Hadoop 1.0生态系统的集群架构

3.4.2Hadoop 2.0生态系统的集群架构

3.5Hadoop运行环境

3.5.1硬件环境

3.5.2软件环境

3.5.3网络环境

3.6Hadoop集群的安装与配置

3.6.1准备工作

3.6.2Hadoop部署

第4章分布式文件系统HDFS

4.1HDFS概述

4.2HDFS基本组成

4.2.1数据块

4.2.2元数据节点

4.2.3辅助元数据节点

4.2.4数据节点

4.3HDFS体系架构

4.3.1Hadoop 1.0生态系统中HDFS体系架构

4.3.2Hadoop 2.0生态系统中HDFS体系架构

4.4HDFS核心功能

4.5HDFs通信机制

4.5.1RPC Interface

4.5.2KPC Client

4.5.3RPC Server

4.5.4RPC通信实现

4.6HDFS安全机制

4.6.1授权机制

4.6.2认证机制

4.7HDFS容错机制

4.7.1副本策略

4.7.2心跳检测

4.7.3HDFS HA

4.7.4HDFS Federation

4.8HDFS快照机制

4.8.1快照原理

4.8.2适用场景

4.8.3基本操作

4.9HDFS读写机制

4.9.1HDFS读机制

4.9.2HDFS写机制

4.10HDFS常用操作

4.10.1dfs命令

4.10.2dfsadmin命令

4.10.3Web接口

4.10.4HDFS APT

第5章分布式计算框架MapReduce

5.1MapReduce概述

5.2MapReduce原理

5.3MapReduce框架

5.3.1Hadoop 1.0生态系统中MapReduce框架

5.3.2Hadoop 2.0生态系统中MapReduce框架

5.4MapReduce开发环境

5.4.1搭建MapReduce开发环境

5.4.2开发MapReduce应用程序

5.5MapReduce编程过程

5.5.1InputFormat

5.5.2Map

5.5.3Cornbine/Partition

5.5.4Reduce

5.5.5OutputFormat

5.6MapReduce开发实例

5.6.1MapReduce编程

5.6.2实例解析

第6章资源管理框架YARN

6.1YARN概述

6.2YARN体系架构

6.2.1ResourceManager

6.2.2NodeManager

6.2.3ApplleationMaster

6.2.4Container

6.3YARN工作流程

6.4YARN通信机制

6.5YARN安全机制

6.5.1认证机制

6.5.2授权机制

6.6YARN容错机制

6.7YARN资源调度机制

6.7.1FIFO Scheduler

6.7.2Fair ScheduIer

6.7.3Capacity Scheduler

6.8可在YARN上运行的框架

6.9YARN编程实例

6.9.1编程过程

6.9.2DistributedShell实例

第7章分布式列存储数据库HBase

7.1HBase概述

7.2HBase特点

7.3HBase体系架构

7.4HBase安装配置

7.4.1准备工作

7.4.2安装HBase

7.4.3配置HBase

7.4.4启停HBase

7.5HBase数据模型

7.5.1逻辑视图

7.5.2物理视图

7.6HBase关键技术

7.6.1HRegion定位

7.6.2HRegion分裂

7.6.3HBase读写机制

7.7HBase交互接口

7.7.1Native Java API

7.7.2HBase Shell

7.8HBase快照机制

第8章数据仓库Hive

8.1Hive概述

8.2Hive特点

8.3Hive体系架构

8.4Hive安装配置

8.4.1准备工作

8.4.2安装模式

8.4.3安装Hive

8.4.4配置Hive

8.4.5启动Hive

8.5Hive数据模型

8.6Hive数据类型

8.6.1基本数据类型

8.6.2复杂数据类型

8.6.3数据类型转换

8.7Hive基本操作

8.7.1DDL操作

8.7.2DML操作

8.8Hive内置运算符

8.8.1关系运算符

8.8.2算术运算符

8.8.3逻辑运算符

8.8.4复杂运算符

8.9Hive内置函数

8.9.1数值计算函数

8.9.2日期函数

8.9.3条件函数

8.9.4字符串函数

8.9.5集合统计函数

8.10Hive实例

第9章数据分析与挖掘Mahout

9.1Mahout概述

9.2Mahout安装配置

9.2.1Mahout安装

9.2.2Mahout配置

9.2.3Mahout测试

9.3Mahout算法集

9.4分类算法

9.4.1逻辑回归

9.4.2贝叶斯

9.4.3随机森林

9.5聚类算法

9.5.1Canopy聚类

9.5.2K—means聚类

9.6模式挖掘算法

9.7协同过滤算法

9.7.1收集用户偏好

9.7.2相似度计算

9.7.3推荐计算

第10章大数据应用

10.1大数据应用现状及发展趋势

10.1.1产业现状

10.1.2应用现状

10.1.3发展趋势

10.2互联网大数据应用

10.3金融行业大数据应用

10.4电信行业大数据应用

10.5医疗行业大数据应用

10.6智慧交通大数据应用

10.7大数据应用案例

10.7.1互联网大数据应用案例

10.7.2智慧交通大数据应用案例

附表

参考文献

内容摘要:

本书坚持以大数据基础和应用为主导的编写原则,理论联系实际,并通过大量实例循序渐进地为读者介绍了进行大数据实践所涉及的各类知识。为了更好地帮助读者在短时间内掌握大数据基础理论知识和实践能力,全书的基础知识介绍清晰,理论联系实际,具有很强的操作性,并提供了大量通过测试可运行的完整实例,这些实例都给出了设计步骤、代码详解及程序运行结果,对于容易出现问题的地方,则以“注”的方式介绍常用的技巧和注意事项。另外本书的配套资料可从清华大学出版社网站(www.tup.com.cn)上下载。本书可作为计算机专业的本科生和研究生的大数据基础教材,也可作为大数据技术培训、Hadoop应用开发和运行维护人员的必备参考书。

编辑推荐:

《深入浅出系列规划教材:深入浅出大数据》编辑推荐:由浅入深。在内容的组织上遵循循序渐进的原则,说明和解释力求浅显易懂,而不失深度和严谨性,适合不同背景、不同层次读者深入理解大数据。内容丰富。全书以丰富的实例为基础,对大数据实践的基本原理、开发方法和具体应用展开阐述,不仅可以帮助读者提高实战能力,而且可以加深对大数据的理解。拓展思路。结合大数据项目经验,精心编写了大量真实的应用实例,围绕大数据实践中的思路、方法、技巧与应用,帮助读者深刻领会和掌握大数据,能够融会贯通。实用性强。提供了大量通过测试运行的完整实例,这些实例都有详细的设计步骤、代码详解、运行结果,并以“注”的方式介绍常用的技巧和注意事项。

书籍规格:

书籍详细信息
书名深入浅出大数据站内查询相似图书
9787302421818
如需购买下载《深入浅出大数据》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位清华大学出版社
版次1版印次1
定价(元)30.0语种简体中文
尺寸26 × 19装帧平装
页数印数

书籍信息归属:

深入浅出大数据是清华大学出版社于2015.出版的中图分类号为 TP274 的主题关于 数据处理-教材 的书籍。