出版社:机械工业出版社
年代:2014
定价:45.0
本书由Apache Storm 项目的Committer亲力打造,提供了丰富的Storm实战经验。系统介绍使用Storm进行分布式流式计算的核心概念及应用,从最简单的topology出发,首先介绍Storm基础,然后通过更复杂的示例,逐步引入Storm的高级概念、更细致的部署方案以及运营中的关键点。虽然本书内容重点在Storm 相关的Java开发上,系统运维工程师、架构师和开发者也都可以参考使用。对于Hadoop爱好者也是一本很好的Storm入门书籍,提供了将批处理运算迁移到实时分析的一种高效途径。
译者序前言作者简介第1章 分布式单词计数 11.1 Storm topology的组成部分——stream、spout和bolt 11.1.1 stream 21.1.2 spout 21.1.3 bolt 21.2 单词计数topology的数据流 31.2.1 语句生成spout 31.2.2 语句分割bolt 31.2.3 单词计数bolt 41.2.4 上报bolt 41.3 实现单词计数topology 41.3.1 配置开发环境 41.3.2 实现SentenceSpout 51.3.3 实现语句分割bolt 61.3.4 实现单词计数bolt 71.3.5 实现上报bolt 81.3.6 实现单词计数topology 101.4 Storm的并发机制 121.4.1 WordCountTopology的并发机制 131.4.2 给topology增加worker 141.4.3 配置executor和task 141.5 理解数据流分组 171.6 有保障机制的数据处理 201.6.1 spout的可靠性 201.6.2 bolt的可靠性 211.6.3 可靠的单词计数 22总结 23第2章 配置Storm集群 242.1 Storm集群的框架 242.1.1 理解nimbus守护进程 252.1.2 supervisor守护进程的工作方式 262.1.3 Apache ZooKeeper简介 262.1.4 Storm的DRPC服务工作机制 272.1.5 Storm UI 272.2 Storm技术栈简介 282.2.1 Java和Clojure 282.2.2 Python 292.3 在Linux上安装Storm 292.3.1 安装基础操作系统 302.3.2 安装Java 302.3.3 安装ZooKeeper 302.3.4 安装Storm 302.3.5 运行Storm守护进程 312.3.6 配置Storm 332.3.7 必需的配置项 342.3.8 可选配置项 352.3.9 Storm可执行程序 362.3.10 在工作站上安装Storm可执行程序 362.3.11 守护进程命令 372.3.12 管理命令 372.3.13 本地调试/开发命令 392.4 把toplogy提交到集群中 402.5 自动化集群配置 422.6 Puppet的快速入门 432.6.1 Puppet manifest文件 432.6.2 Puppet类和模块 442.6.3 Puppet模板 452.6.4 使用Puppet Hiera来管理环境 462.6.5 介绍Hiera 46总结 48第3章 Trident和传感器数据 493.1 使用场景 503.2 Trident topology 503.3 Trident spout 523.4 Trident运算 573.4.1 Trident filter 583.4.2 Trident function 593.5 Trident聚合器 633.5.1 CombinerAggregator 633.5.2 ReducerAggregator 633.5.3 Aggregator 643.6 Trident状态 653.6.1 重复事务型状态 693.6.2 不透明型状态 703.7 执行topology 72总结 73第4章 实时趋势分析 744.1 应用场景 754.2 体系结构 754.2.1 数据源应用程序 754.2.2 logback Kafka appender 764.2.3 Apache Kafka 764.2.4 Kafka spout 764.2.5 XMPP服务器 764.3 安装需要的软件 774.3.1 安装Kafka 774.3.2 安装OpenFire 784.4 示例程序 784.5 日志分析topology 844.5.1 Kafka spout 844.5.2 JSON project function 854.5.3 计算移动平均值 864.5.4 添加一个滑动窗口 874.5.5 实现滑动平均function 914.5.6 按照阈值进行过滤 924.5.7 通过XMPP发送通知 944.6 最终的topology 964.7 运行日志分析topology 98总结 99第5章 实时图形分析 1005.1 使用场景 1015.2 体系结构 1025.2.1 Twitter客户端 1025.2.2 Kafka spout 1025.2.3 Titan分布式图形数据库 1035.3 图形数据库简介 1035.3.1 访问图——TinkerPop栈 1045.3.2 使用Blueprints API操作图形 1055.3.3 通过Gremlin shell操作图形 1065.4 软件安装 1075.5 使用Cassandra存储后端设置Titan 1095.5.1 安装Cassandra 1095.5.2 使用Cassandra后端启动Titan 1095.6 图数据模型 1105.7 连接Twitter数据流 1115.7.1 安装Twitter4J客户端 1125.7.2 OAuth配置 1125.7.3 TwitterStreamConsumer类 1125.7.4 TwitterStatusListener类 1135.8 Twitter graph topology 1155.9 实现GraphState 1165.9.1 GraphFactory 1175.9.2 GraphTupleProcessor 1175.9.3 GraphStateFactory 1175.9.4 GraphState 1185.9.5 GraphUpdater 1195.10 实现GraphFactory 1195.11 实现GraphTupleProcessor 1205.12 组合成TwitterGraphTopology类 1215.13 使用Gremlin查询图 122总结 123第6章 人工智能 1246.1 为应用场景进行设计 1256.2 确立体系结构 1286.2.1 审视设计中的挑战 1286.2.2 实现递归 1286.2.3 解决这些挑战 1326.3 实现体系结构 1336.3.1 数据模型 1336.3.2 检视Recursive Topology 1366.3.3 队列交互 1386.3.4 function和filter 1406.3.5 研究Scoring Topology 1416.3.6 分布式远程命令调用(DRPC) 146总结 152第7章 整合Druid进行金融分析 1537.1 使用场景 1547.2 集成一个非事务系统 1557.3 topology 1587.3.1 spout 1597.3.2 filter 1617.3.3 状态设计 1627.4 实现体系结构 1657.4.1 DruidState 1667.4.2 实现StormFirehose对象 1697.4.3 在ZooKeeper中实现分片状态 1747.5 执行实现的程序 1757.6 检视分析过程 176总结 179第8章 自然语言处理 1808.1 Motivating Lambda结构 1818.2 研究使用场景 1838.3 实现Lambda architecture 1848.4 为应用场景设计topology 1858.5 设计的实现 1868.5.1 TwitterSpout/TweetEmitter 1878.5.2 function 1888.6 检视分析逻辑 1918.7 Hadoop 1968.7.1 MapReduce概览 1968.7.2 Druid安装 197总结 204第9章 在Hadoop上部署Storm进行广告分析 2059.1 应用场景 2059.2 确定体系结构 2069.2.1 HDFS简介 2089.2.2 YARN简介 2089.3 配置基础设施 2119.3.1 Hadoop基础设施 2119.3.2 配置HDFS 2129.4 部署分析程序 2179.4.1 以Pig为基础执行批处理分析 2179.4.2 在Storm-YARN基础上执行实时分析 2189.5 执行分析 2239.5.1 执行批处理分析 2239.5.2 执行实时分析 2249.6 部署topology 2299.7 执行toplogy 229总结 230第10章 云环境下的Storm 23110.1 Amazon Elastic Compute Cloud简介 23210.1.1 建立AWS帐号 23210.1.2 AWS管理终端 23210.1.3 手工启动一个EC2实例 23410.2 Apache Whirr简介 23610.3 使用Whirr配置Storm集群 23710.4 Whirr Storm简介 23910.5 Vagrant简介 24310.5.1 安装Vagrant 24310.5.2 创建第一个虚拟机 24410.6 生成Storm安装准备脚本 24710.6.1 ZooKeeper 24710.6.2 Storm 24810.6.3 Supervisord 249总结 252
点击查看:《Storm分布式实时计算模式》Apache Storm 项目核心贡献者亲笔撰写,涵盖多种分布式计算相关主题,是深入理解Storm分布式实时计算的翔实指南。《Storm分布式实时计算模式》通过大量的示例,全面而系统地讲解Storm分布式实时计算的核心概念及应用,并针对不同的应用场景,给出多种基于Storm的设计模式,而且提供示例源码,便于读者参考设计并实现自己的Storm应用。《Storm分布式实时计算模式》全书分为10章:第1章介绍使用Storm建立一个分布式流式计算应用所涉及的核心概念,包括Storm的数据结构、开发环境的搭建,以及Storm程序的开发和调试技术等;第2章详细讲解Storm集群环境的安装和搭建,以及如何将topology部署到分布式环境中;第3章通过传感器数据实例详细介绍Trident topology;T第4章讲解如何使用Storm和Trident进行实时趋势分析;第5章介绍如何使用Storm进行图形分析,将数据持久化存储在图形数据库中,并且查询数据来发现其中潜在的联系;;第6章讲解如何在Storm上使用递归实现一个典型的人工智能算法;第7章演示集成Storm和非事务型系统的复杂性,通过集成Strom和开源探索性分析架构Druid,实现一个可配置的实时系统来分析金融事件。第8章探讨Lambda体系结构的实现方法,讲解如何将批处理机制和实时处理引擎结合起来构建一个可纠错的分析系统;第9章 讲解如何将Pig脚本转化为topology并且使用Storm-YARN部署topology,将批处理系统转化为实时系统;第10章 介绍如何在云服务提供商提供的主机环境下部署和运行Storm。【作者简介】P. Taylor Goetz是Apache Storm项目核心贡献者以及发布经理,自2011年10月Storm项目首次开源至今都参与其中,具有长期的Storm使用和开发经验。作为Storm用户社区中的活跃贡献者,Taylor领导了一系列开源项目,旨在使企业能够将Storm集成到不同的基础设施上。Brian O'Neill 现就职于Health Market Science(HMS)公司,任首席技术官,重点进行数据管理和医疗领域数据分析。他已经担任技术主管超过15年,被公认为大数据领域的权威。作为系统架构师,他有着应对各种不同场景的经验,从初创公司到财富500强公司。他信奉开源精神,对多个项目做出了贡献。他领导的项目,扩展了Cassandra数据库,并且将索引引擎、分布式处理框架、分析引擎集成到了该数据库中。他荣获了2013年InfoWorld技术领导力奖项。译者简介 董昭 腾讯安全平台部应用运维安全工程师,负责腾讯Web业务的漏洞防护等相关工作,研究兴趣为Web安全、网络安全、Linux后台开发、大数据等。
书籍详细信息 | |||
书名 | Storm分布式实时计算模式站内查询相似图书 | ||
丛书名 | 大数据技术丛书 | ||
9787111484387 如需购买下载《Storm分布式实时计算模式》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN | |||
出版地 | 北京 | 出版单位 | 机械工业出版社 |
版次 | 1版 | 印次 | 1 |
定价(元) | 45.0 | 语种 | 简体中文 |
尺寸 | 19 × 24 | 装帧 | 平装 |
页数 | 316 | 印数 | 3500 |
王成光, 著
(澳) 安德森 (Anderson,Q.) , 著
丁维龙, 赵卓峰, 韩燕波, 编著
(美) 大卫·格林伯格 (David Greenberg) , 著
吴章勇, 编著
李明, 王晓鹏, 编著
吴斌, 主编
(美) 肖恩 T.艾伦 (Sean T. Allen) , 等著
冯兴东, 编著