颠覆大数据分析
暂无封面,等待上传

颠覆大数据分析

(美) 阿涅斯瓦兰 (Agneeswaran,V.) , 著

出版社:电子工业出版社

年代:2014

定价:59.0

书籍简介:

提起大数据分析,大多数专业人士都会想到Hadoop,但是有一些尖端的应用是不适合用Hadoop的,尤其是实时分析和需要迭代机器学习算法的场景。幸运的是,针对这些场景的一些强大的新技术已经被开发出来。本书就是指导你超越Hadoop的第一本书。作者详细讲解了具有突破性的伯克利数据分析堆栈(BDAS)技术,并针对下一代内存技术Spark给出了实际示例和代码样例,作者还对所有能遇见到的新技术进行了总结。

作者介绍:

Vijay Srinivas Agneeswaran 博士,1998 年于SVCE 的马德拉斯分校获得计算机科学与工程专业的学士学位,2001 年获取了印度理工学院马德拉斯分校的硕士学位(研究性质),2008年又获取了该校的博士学位。他曾在瑞士洛桑的联邦理工学院的分布式信息系统实验室(LSIR)担任过一年的博士后研究员。之前7 年先后就职于Oracle、Cognizant 及Impetus,对大数据及云领域的工程研发贡献颇多。目前担任Impetus 的大数据实验室的执行总监。他的研发团队在专利、论文、受邀的会议发言以及下一代产品创新方面都处于领导地位。他主要研究的领域包括大数据管理、批处理及实时分析,以及大数据的机器学习算法的实现范式。最近8 年来,他一直是计算机协会(ACM)以及电气和电子工程师协会(IEEE)的专家成员,并于2012年12 月被推选为IEEE 的资深成员。他在美国、欧洲以及印度的专利局都申请过专利(并持有美国的两项专利)。他在前沿的期刊及会议,包括IEEE transaction 上都发表过论文。他还是国内外多个会议的特邀发言人,譬如O’Reilly 的Strata 大数据系列会议。最近一次公开发表论文是在Liebertpub 的大数据期刊上。他与妻子及儿女一起居住在班加罗尔,对印度、埃及、巴比伦以及希腊古代的文化与哲学的研究非常感兴趣。

书籍目录:

前言

致谢

关于作者

1引言:为什么要超越 Hadoop Map-Reduce

Hadoop的适用范围

大数据分析之机器学习实现的革命 10

第一代机器学习工具 /范式

第二代机器学习工具 /范式

第三代机器学习工具 /范式

小结

参考文献

2何为伯克利数据分析栈(BDAS)

实现 BDAS的动机

Spark:动机

Shark:动机

Mesos:动机

BDAS的设计及架构

Spark:高效的集群数据处理的范式

Spark的弹性分布式数据集

Spark的实现

Spark VS 分布式共享内存系统

RDD的表达性

类似 Spark的系统

Shark:分布式系统上的 SQL接口 46

Spark为 Shark提供的扩展

列内存存储 49

分布式数据加载

完全分区智能连接

分区修剪

机器学习的支持

Mesos:集群调度及管理系统

Mesos组件 52

资源分配

隔离

容错性

小结

参考文献

使用 Spark实现机器学习算法

机器学习基础知识

机器学习:随机森林示例

逻辑回归:概述 72

二元形式的逻辑回归

逻辑回归估计

多元逻辑回归

Spark中的逻辑回归算法

支持向量机

复杂决策面 81

支持向量机背后的数学原理

Spark中的支持向量机

Spark对 PMML的支持

PMML结构

PMML的生产者及消费者

Spark对朴素贝叶斯的 PMML支持

Spark对线性回归的 PMML支持

在 Spark中使用 MLbase进行机器学习

参考文献

实现实时的机器学习算法

Storm简介

数据流

拓扑

Storm集群

简单的实时计算例子

数据流组

Storm的消息处理担保

基于 Storm的设计模式

分布式远程过程调用

Trident:基于 Storm的实时聚合

实现基于 Storm的逻辑回归算法

实现基于 Storm的支持向量机算法

Storm对朴素贝叶斯 PMML的支持

实时分析的应用

工业日志分类

互联网流量过滤器

Storm的替代品

Spark流

D-Streams的动机

参考文献

图处理范式 138

Pregel:基于 BSP的图处理框架

类似的做法

开源的 Pregel实现

Giraph

GoldenORB

Phoebus

Apache Hama

Stanford GPS

GraphLab

GraphLab:多核版本

分布式的 GraphLab

PowerGraph

通过 GraphLab实现网页排名算法

顶点程序

基于 GraphLab实现随机梯度下降算法

参考文献

结论:超越Hadoop Map-Reduce的大数据分析

Hadoop YARN概览

Hadoop YARN的动机

作为资源调度器的 YARN

YARN上的其他框架

大数据分析的未来是怎样的

参考文献

附录 A代码笔记

内容摘要:

《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》每章一个主题,介绍了各种大数据分析技术与机器学习算法。本书能够让读者掌握大数据分析和机器学习的相关技术的大致脉络,为之后的进阶学习提供参考与指导。《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》适合大数据技术入门者、希望对大数据技术有所了解,以及想要学习大数据技术但是不知道应该从何处入手的读者阅读。

编辑推荐:

适读人群 :本书适合大数据技术入门者、希望对大数据技术有所了解,以及想要学习大数据技术但是不知道应该从何处入手的读者阅读。


  《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》中,VijayAgneeswaran博士介绍了这些技术,以及它们的应用案例,并从架构到代码的不同层面对应用它们做了演示。

书籍规格:

书籍详细信息
书名颠覆大数据分析站内查询相似图书
9787121252242
如需购买下载《颠覆大数据分析》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位电子工业出版社
版次1版印次1
定价(元)59.0语种简体中文
尺寸22 × 16装帧平装
页数印数

书籍信息归属:

颠覆大数据分析是电子工业出版社于2015.4出版的中图分类号为 TP274 的主题关于 数据处理软件 的书籍。