出版社:电子工业出版社
年代:2014
定价:75.0
对于大数据的统计计算,更注重减少计算资源的使用,提高计算效率。本书提出了一套完整的关于大数据统计的计算理论,包括了常用的各种统计量和统计方法,该理论在作者带领团队开发的大数据统计函数库的实践应用中得到了验证。本书对大数据统计计算的思想、方法和具体步骤进行了详细的文字描述和举例说明;书中包含了数学推导和结果,揭示了各种统计概念和方法其中内在的关联;书中的示例程序代码可以帮助读者进一步了解实现细节,便于读者将书中方法用来进行实际计算。
第1章基本概念11.1 数据类型11.2 总体和样本21.3 参数和统计量21.4 分布式计算3第2章单变量基本统计量52.1 数量统计量52.1.1 样本方差为何除以n-172.1.2 数据分布与标准差的关系102.1.3 新的计算公式112.1.4 代码实现162.2 频数统计量182.3 次序统计量232.3.1 通过排序方法计算次序统计量252.3.2 不需排序就可计算的次序统计量292.3.3 基于频数信息计算次序统计量312.3.4 中位数、众数和均值的关系34第3章单变量数据的分布363.1 直方图363.1.1 直方图的计算393.1.2 算法实现423.1.3 已知数据频数的情况下求直方图493.1.4 日期类型直方图493.2 经验分布573.3 近似分位数和近似百分位数613.4 PP、QQ概率图653.5 单变量的基本统计信息69第4章多变量的数据特征774.1 协方差774.2 相关系数794.3 协方差和相关系数的计算实现804.4 数据表的基本统计结果84第5章数据探索885.1 扩展直方图885.1.1 计算方法905.1.2 代码实现915.2 交叉表110第6章极限定理1166.1 大数定理1166.2 中心极限定理117第7章常用的分布函数介绍1237.1 基本定义1237.2 标准正态分布(Z分布或U分布)1247.3 卡方分布(χ^2分布)1297.4 学生T分布1337.5 F分布139第8章常用分布函数计算1458.1 函数定义1458.2 函数性质及相互间的关系1478.3 分布函数关系图1648.4 分布函数的计算1668.4.1 计算Γ(x)1668.4.2 计算CDF_Γ1708.4.3 计算CDF_Β1738.4.4 计算IDF_Γ和CDF_Β1768.4.5 其他函数的计算1788.5 生成常用分布的随机数180第9章参数估计1879.1 点估计与区间估计1879.2 单个总体的参数估计1909.2.1 不同情况的参数估计表达式1909.2.2 单个总体参数估计的实现1919.3 两个总体的参数估计1969.3.1 不同情况的参数估计表达式1969.3.2 两个总体参数估计的实现199第10章假设检验20710.1 基本概念20710.2 参数检验20910.3 单个总体参数的检验21210.3.1 各种情况下的检验方法21210.3.2 单个总体参数检验方法的实现21410.3.3 不同检验方法的选择22310.4 两个总体参数的检验22710.4.1 各种情况下的检验方法22710.4.2 两个总体参数检验方法的实现23110.4.3 不同检验方法的选择237第11章非参数检验24411.1 Pearson拟合优度χ^2检验24511.2 两个变量的列联表检验24811.3 K-S检验25011.3.1 单样本K-S检验25111.3.2 双样本K-S检验25611.4 符号检验25811.5 秩统计量和秩检验方法26011.5.1 Wilcoxon秩和检验26011.5.2 Wilcoxon符号秩和检验26611.5.3 Kruskal-Wallis检验26811.5.4 Friedman检验273第12章方差分析27712.1 单因素方差分析27812.1.1 计算流程27812.1.2 代码实现28012.1.3 方差分析与T检验的关系28312.1.4 方差分析中的多重比较方法28512.2 双因素方差分析28912.2.1 无交互作用的双因素方差分析28912.2.2 有交互作用的双因素方差分析295第13章多元线性回归30213.1 数学模型30213.2 显著性检验30813.3 计算步骤30913.4 代码实现31313.5 多重共线性32013.5.1 度量指标32013.5.2 代码实现32313.5.3 应用示例32813.6 逐步回归330第14章主成分分析34014.1 计算步骤34214.2 代码实现34514.3 应用举例350第15章判别分析35915.1 距离判别35915.1.1 Mahalanobis距离36015.1.2 模型训练和预测36115.2 Fisher判别36415.3 Bayes判别36915.3.1 朴素Bayes判别36915.3.2 模型训练和预测37015.4 判别算法的综合模型37715.5 应用举例378第16章模型评估曲线38316.1 相关概念38316.2 定义38416.2.1 ROC曲线38416.2.2 上升图和反馈率―精确率线38616.3 计算实现386参考文献391
大型互联网公司一线大数据分析实践!《重构大数据统计》提出了一套适合于分布式计算的统计计算方法 ,梳理出一套对大数据分析有实用价值的统计理论,并形成参考代码,对于从事大数据分析的工程师而言,这些内容有相当的参考价值。《重构大数据统计》是作者在一线工作中的实践总结。在研发的过程中,作者遇到了资源优化(成本)以及计算时间优化(性能)的问题,通过反复的实践和论证,总结出一套行之有效的理论和方法。在此方法指导下开发的数据分析工具,已经被阿里巴巴集团内部所使用,并取得了显著的效果。开卷有益,《重构大数据统计》给您带来实用的解决思路,在此启发下,相信您也能摸索出适合自己实际情况的大数据分析之道,大大地提升数据分析效率。基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,取得显著效果。大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。【作者简介】杨旭,2004年获南开大学数学博士学位,之后在南开大学信息学院从事博士后研究工作。2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。
祁伟, 主编
周宝曜, 刘伟, 范承工, 主编
朱建平, 等著
李军, 编著
(美) 道恩·E.霍尔姆斯 (Dawn E.Holmes) , 著
谢朝阳, 编著
(美) 莱斯科夫 (Leskovec,J.) , (美) 拉贾拉曼 (Rajaraman,A.) , (美) 厄尔曼 (Ullman,J.D.) , 著
深圳国泰安教育技术股份有限公司大数据事业部群, 中科院深圳先进技术研究院——国泰安金融大数据研究中心, 编著
于福志, 编著