敏捷数据科学
敏捷数据科学封面图

敏捷数据科学

(美) 朱尔尼 (Jurney,R.) , 著

出版社:电子工业出版社

年代:2014

定价:49.0

书籍简介:

本书面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据价值金字塔进阶模式中,你将学到:一整套实用工具及其他法论,可快速实现在Hadoop上构建数据分析应用;用Python、Apache Pig及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。

作者介绍:

Russsel Jurney,在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。   朱洪波,阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。

书籍目录:

前言xi

第1部分起步

第1章理论

敏捷大数据

BigWords定义

敏捷大数据团队

认识机遇和问题

敏捷大数据流程

代码检查和结对编程

敏捷的场所:开发的效率

协作空间

私人空间

个人空间

用大幅打印件明确表达想法

第2章数据

电子邮件

处理原始数据

原始的电子邮件

viii|目录

结构化与半结构化数据

SQL

NoSQL

序列化

从演变的模式中抽取和展示特征

数据流水线

数据透视

社交网络

时间序列

自然语言

概率

小结

第3章敏捷开发工具

可扩展性=简洁

敏捷大数据处理

设置运行Python的虚拟环境

使用Avro对事件进行序列化

在Python中使用Avro

收集数据

使用Pig处理数据

安装Pig

使用MongoDB发布数据

安装MongoDB

安装MongoDB的Java驱动程序

安装mongo-hadoop

用Pig向MongoDB推送数据

使用ElasticSearch搜索数据

安装

使用Wonderdog整合ElasticSearch和Pig

对工作流程的反思

轻量级的Web应用

Python和Flask

目录|ix

展示数据

安装Bootstrap

启用Bootstrap

使用d3js和nvd3js可视化数据

小结

第4章在云端

引言

GitHub

dotCloud

dotCloudEcho服务

Python工作者服务

AmazonWebServices

SimpleStorageService

ElasticMapReduce

MongoDB即服务

辅助工具(Instrumentation)

GoogleAnalytics

MortarData

第2部分登上金字塔

第5章收集和展示数据

整合软件栈

收集并序列化收件箱

处理和发布邮件数据

在浏览器中显示邮件

用Flask和pymongo处理邮件数据

使用Jinja2渲染HTML5页面

敏捷检查点

生成电子邮件清单

用MongoDB显示邮件

对数据展示的分析

x|目录

搜索邮件

使用Pig,ElasticSearch和Wonderdog构建索引

在网页中搜索邮件数据

结论

第6章使用图表可视化数据

优秀的图表

抽取实体:邮件地址

抽取邮件

对时间进行可视化

结论

第7章利用报表探索数据

为数据添加联系

用TF-IDF从邮件中提取关键字

小结

第8章预测

预测电子邮件的回复率

个性化

小结

第9章驱动行动

好邮件的属性

使用朴素贝叶斯方法进行更好的预测

P(Reply|From∩To)

P(Reply|Token)

实时预测

记录事件日志

小结

索引

内容摘要:

《敏捷数据科学:用Hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据- 价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在Hadoop 上构建数据分析应用;用Python、Apache Pig D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。

编辑推荐:

对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在Hadoop上构建数据分析应用。
  使用诸如Python、Apache Pig和D3.js等轻量级工具,你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序,挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法,使得你能根据数据中的信息快速切换,进行不同类型的数据分析。书中所有的代码样例都可以在 Heroku 中以 App 形式运行。
  ■ 用敏捷式大数据开发方法论创建分析应用
  ■ 用数据-价值栈,在一系列敏捷周期中创建价值
  ■ 用多种数据结构从单个数据集中提取特征,获取洞察
  ■ 用图表可视化数据,通过交互性报表从不同角度展示数据
  ■ 用历史数据进行预测,将预测转化为行动
  ■ 在每个迭代周期过后获取用户反馈,确保项目方向正确
  
海报:

书籍规格:

书籍详细信息
书名敏捷数据科学站内查询相似图书
9787121236198
如需购买下载《敏捷数据科学》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位电子工业出版社
版次1版印次1
定价(元)49.0语种简体中文
尺寸24 × 19装帧平装
页数印数

书籍信息归属:

敏捷数据科学是电子工业出版社于2014.7出版的中图分类号为 TP274 的主题关于 数据采集 的书籍。