出版社:机械工业出版社
年代:2014
定价:55.0
本书是指导大数据分析项目的实践指南,这些项目涉及机器数据、社会化媒体以及挖掘现有的数据仓库。作者通过真实的项目详细地介绍如何收集数据、如何将数据导入Splunk、如何处理和分析数据,以及如何形成可以让目标受众更容易理解的可视化结果的方法。本书分为四个部分,第一部分(第1~7章)介绍Splunk的基本操作,涉及基础数据的收集、处理、分析及结果的可视化。通过机器数据来介绍Splunk处理语言的基础命令。第二部分(第8~11章)介绍航空公司准点率项目,涉及如何从CSV格式文件中和直接从关系数据库中采集数据。第三部分(第12~14章)专门介绍社会化媒体,详细介绍如何收集、处理、分析推文(tweet)和Foursquare的签到信息,并用一个完整的章来讲情感分析。这些章节将提供处理任何涉及社会化媒体流的大数据项目的必要知识。第四部分(第15~16章)详细介绍Splunk的架构和拓扑结构:如何按需求扩展Splunk,以及分布式处理和高可用性的基本概念。
目 录译者序致谢第1章 大数据和Splunk / 11.1 什么是大数据 / 11.2 非传统的数据处理技术 / 51.3 Splunk是什么 / 61.4 关于本书 / 7第2章 将数据导入Splunk / 92.1 数据的多样性 / 92.2 Splunk如何处理多样化的数据 / 102.2.1 文件和目录 / 112.2.2 数据生成器 / 162.2.3 生成样本数据 / 172.2.4 网络资源 / 212.2.5 Windows数据 / 212.2.6 其他资源 / 212.3 应用程序和附加组件 / 212.4 转发器 / 262.5 小结 / 27第3章 处理和分析数据 / 283.1 了解组合访问日志数据 / 283.2 搜索和分析索引数据 / 293.3 报表 / 353.3.1 使用最多的浏览器 / 353.3.2 排名前五的IP地址 / 373.3.3 浏览量来源最多的网站 / 383.3.4 有多少404事件 / 403.3.5 有多少事件包含购买行为 / 423.3.6 列出购买的商品 / 423.4 排序 / 443.5 过滤 / 453.6 添加和评估字段 / 473.7 聚合 / 483.8 小结 / 54第4章 结果的可视化 / 554.1 数据可视化 / 554.2 Splunk是怎样处理可视化的 / 554.3 chart / 604.3.1 制作每一个主机的GET和POST事件数量的图表 / 614.3.2 制作每一个产品类别的购买数和浏览数的图表 / 624.3.3 哪个产品种类受HTTP 404错误的影响 / 634.3.4 MyGizmoStore.com的购买趋势 / 644.3.5 事务持续时间 / 664.4 timechart / 674.4.1 最高购买数量的产品 / 674.4.2 页面浏览率和购买量 / 684.5 使用Google Maps应用程序来可视化 / 694.6 Globe / 714.7 仪表盘 / 724.8 小结 / 80第5章 定义警报 / 815.1 什么是警报 / 815.2 Splunk如何提供警报 / 815.2.1 基于商品销售量的警报 / 825.2.2 登录失败的警报 / 845.2.3 日志文件中关键性错误的警报 / 875.3 小结 / 88第6章 网站监测 / 906.1 监测网站 / 906.2 IT运作 / 916.2.1 主机访问量 / 916.2.2 无内部访问的主机访问量 / 916.2.3 HTTP请求成功的流量 / 936.2.4 HTTP请求未成功的流量 / 936.2.5 返回HTTP错误状态码最多的页面 / 946.3 业务 / 966.3.1 区域用户统计 / 966.3.2 跳出率 / 976.3.3 独立访问者数量 / 986.4 小结 / 103第7章 使用日志文件创建高级分析 / 1047.1 传统的分析方法 / 1047.2 范式变更 / 1057.3 语义日志 / 1067.4 日志最佳实践 / 1137.5 小结 / 115第8章 航班准点率项目 / 116小结 / 118第9章 将航班数据导入Splunk / 1199.1 处理CSV文件 / 1199.1.1 航班数据 / 1199.1.2 下载数据 / 1209.1.3 了解航班数据 / 1219.1.4 关于时间戳 / 1239.1.5 将字段映射成一个时间戳 / 1249.1.6 对所有航班数据建立索引 / 1319.2 从关系数据库中索引数据 / 1329.2.1 定义一个新的数据库连接 / 1329.2.2 数据库监测 / 1339.3 小结 / 136第10章 分析航空公司、机场、航班和延迟 / 13710.1 分析航空公司 / 13710.1.1 计算航空公司的总数 / 13810.1.2 可视化结果 / 13910.2 分析机场 / 14310.3 分析航班 / 14610.4 分析延迟 / 15110.4.1 各航空公司航班延迟情况 / 15110.4.2 各机场航班延迟的原因 / 15210.4.3 冬天与夏天的航班延迟情况 / 15510.5 创建和使用宏命令 / 15710.6 报告加速 / 15810.7 加速统计 / 16110.8 小结 / 166第11章 分析一个特定航班的历年数据 / 16711.1 航空公司名称 / 16711.1.1 字段查找自动化 / 17211.1.2 从搜索中创建查找表 / 17311.2 United flight 871航班 / 17411.3 小结 / 178第12章 分析推文 / 17912.1 开发样本流 / 18012.2 将推文加载到Splunk中 / 18312.3 Twitter / 18512.4 最流行的单词 / 18812.5 实时的Twitter趋势 / 19112.6 小结 / 196第13章 分析Foursquare签到信息 / 19713.1 签到信息格式 / 19813.2 时区注意事项 / 20213.3 装载签到数据 / 20313.4 分析签到信息 / 20513.4.1 星期日早午餐搜索 / 20513.4.2 Google地图和热门地点 / 20913.4.3 地点的签到模式 / 21113.4.4 地点的签到数量 / 21213.4.5 分析性别活动 / 21413.5 小结 / 217第14章 情感分析 / 21814.1 意见、观点、信仰、信念 / 21814.2 商业用途 / 21914.3 情感分析的技术性工作 / 22014.4 情感分析应用程序 / 22214.4.1 全局性的命令 / 22314.4.2 挖掘情感 / 22414.4.3 语言的处理 / 22614.4.4 训练数据和测试数据 / 22714.5 世界情绪指数项目 / 23114.5.1 收集RSS摘要 / 23214.5.2 将新闻标题索引到Splunk中 / 23414.5.3 定义情感语料库 / 23714.5.4 对结果进行可视化 / 24014.6 小结 / 242第15章 远程数据收集 / 24315.1 转发器 / 24315.1.1 流行的拓扑结构 / 24415.1.2 安装转发器 / 24615.2 部署服务器 / 24815.2.1 配置部署服务器 / 25015.2.2 配置转发器 / 25115.3 部署监控 / 25215.4 小结 / 253第16章 可扩展性和高可用性 / 25416.1 扩展Splunk / 25416.2 聚类 / 25916.3 小结 / 264附录A Splunk的性能 / 265附录B 有用的Splunk应用程序 / 281
(1)内容全面而深入,既展示Splunk的强大功能,又全方位地讲解利用Splunk进行大数据分析的各种技术细节、方法和最佳实践(2)实战性强,包含大量典型大数据分析案例,为快速掌握并灵活运用Splunk从海量数据中挖掘潜在商业价值提供最佳指导全书共16章,分为四个部分:第一部分(第1~7章)介绍Splunk的基本操作,包括利用Splunk进行数据收集、处理、分析及结果可视化等的基本操作和命令,以及使用日志文件创建高级数据分析报表的方法;第二部分(第8~11章)使用“航空公司准点性能数据”介绍一个典型的数据分析案例,详细讲解如何运用Splunk深度挖掘现有数据仓库,并介绍一些新的Splunk命令和实用技巧;第三部分(第12~14章)详细介绍如何收集、处理、分析推文和Foursquare的签到信息等,涵盖分析社会化媒体流数据所需的知识;第四部分(第15~16章)详细介绍如何按需求扩展Splunk,以及分布式处理和高可用性的基本概念。此外,还包括两个附录,展示Splunk的性能以及各种可用的应用程序。【作者简介】Peter Zadrozny 资深软件技术专家,Opallios公司创始人兼首席技术官,专注于利用大数据和云技术为客户提供有价值产品。Peter还是圣荷西州立大学大数据相关课程的讲师。他曾先后在多家大中型公司担任行政和技术职务,并主导在欧洲开启WebLogic和在墨西哥启动Sun微操作系统。他在J2EE和性能工程领域有多部非常成功的著作,并且是流行开源项目Grinder的初始贡献者。Raghu Kodali Solix公司产品管理和产品策略副总裁,负责产品愿景、产品管理、产品策略、用户设计和交互。在进入Solix之前,他在Oracle工作了12年,担任产品管理和产品策略高级经理。此外,Raghu是OracleSOA的传道者,著有《Beginning EJB 3 Application Development From Novice to Profession》和《Oracle Information Integration, Migration and Consolidation》,同时发表多篇关于企业技术的文章。
深圳国泰安教育技术股份有限公司, 中科院深圳先进技术研究院-国泰安金融大数据研究中心, 编著
(美) 大卫·洛辛 (David Loshin) , 著
(美) 阿涅斯瓦兰 (Agneeswaran,V.) , 著
(美) 穆罕默德·古勒 (Mohammed Guller) , 著
(美) 萨米特·古普塔, (美) 希尔皮·萨克塞纳, 著
刘景泽, 编著
(美) 卡劳 (Karau,H.) , (美) 肯维尼斯科 (Konwinski,A.) , (美) 温德尔 (Wendell,P.) , (加) 扎哈里亚 (Zaharia,M.) , 著
张伟洋, 著
高彦杰, 倪亚宇, 著