出版社:电子工业出版社
年代:2008
定价:46.0
本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。本书是Web开发者、架构师、应用工程师等的绝佳选择。
前言1
第1章集体智慧导言1
什么是集体智慧2
什么是机器学习3
机器学习的局限4
真实生活中的例子5
学习型算法的其他用途5
第2章提供推荐7
协作型过滤7
搜集偏好8
寻找相近的用户9
推荐物品15
匹配商品17
构建一个基于del.icio.us的链接推荐系统19
基于物品的过滤22
使用MovieLens数据集25
基于用户进行过滤还是基于物品进行过滤27
练习28
第3章发现群组29
监督学习和无监督学习29
单词向量30
分级聚类33
绘制树状图38
列聚类40
K-均值聚类42
针对偏好的聚类44
以二维形式展现数据49
有关聚类的其他事宜53
练习53
第4章搜索与排名54
搜索引擎的组成54
一个简单的爬虫程序56
建立索引58
查询63
基于内容的排名64
利用外部回指链接69
从点击行为中学习74
练习84
第5章优化86
组团旅游87
描述题解88
成本函数89
随机搜索91
爬山法92
模拟退火算法95
遗传算法97
真实的航班搜索101
涉及偏好的优化106
网络可视化110
其他可能的应用场合115
练习116
第6章文档过滤117
过滤垃圾信息117
文档和单词118
对分类器进行训练119
计算概率121
朴素分类器123
费舍尔方法127
将经过训练的分类器持久化132
过滤博客订阅源134
对特征检测的改进136
使用Akismet
替代方法139
练习140
第7章决策树建模142
预测注册用户142
引入决策树144
对树进行训练145
选择最合适的拆分方案147
以递归方式构造树149
决策树的显示151
对新的观测数据进行分类153
决策树的剪枝154
处理缺失数据156
处理数值型结果158
对住房价格进行建模158
对“热度”评价进行建模161
什么时候使用决策树164
练习165
第8章构建价格模型167
构造一个样本数据集167
k-最近邻算法169
为近邻分配权重172
交叉验证176
不同类型的变量178
对缩放结果进行优化181
不对称分布183
使用真实数据eBayAPI
何时使用k-最近邻算法195
练习196
第9章高阶分类:核方法与SVM
婚介数据集197
数据中的难点199
基本的线性分类202
分类特征205
对数据进行缩放处理209
理解核方法211
支持向量机215
使用LIBSVM
基于Facebook的匹配219
练习225
第10章寻找独立特征226
搜集一组新闻227
先前的方法231
非负矩阵因式分解232
结果呈现240
利用股票市场的数据243
练习248
第11章智能进化250
什么是遗传编程250
将程序以树形方式表示253
构造初始种群257
测试题解259
对程序进行变异260
交叉263
构筑环境265
一个简单的游戏268
更多可能性273
练习276
第12章算法总结277
贝叶斯分类器277
决策树分类器281
神经网络285
支持向量机289
k-最近邻293
聚类296
多维缩放300
非负矩阵因式分解302
优化304
附录A:第三方函数库309
附录B:数学公式316
索引323
想了解蕴藏在搜索排名、商品推荐、社会化书签以及在线婚介应用背后的巨大威力吗?本书的内容引人入胜,它将会告诉我们如何构造Web2.0应用,使其能够挖掘有大量用户参与的互联网应用所产生的海量数据。利用书中介绍的这些复杂算法,可以编写出智能程序、访问其他Web站点的数据集、从我们自己的应用程序中搜集用户数据,进而分析和理解这些数据。本书将引领我们进入机器学习与计算统计的世界,并解释如何得出有关用户体验、市场营销、个人品味以及我们和他人每天搜集的用户行为方面的结论。书中对每一个算法都进行了详细的描述,并附以简洁的代码,这些代码可以直接用于我们的Web站点、博客、维基,或者其他特定的应用。 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。 本书是Web开发者、架构师、应用工程师等的绝佳选择。【作者简介】 TobySegaran是Genstruct公司的软件开发主管,这家公司涉足计算生物领域,他本人的职责是设计算法,并利用数据挖掘技术来辅助了解药品机理。TobySegaran还为其他几家公司和数个开源项目服务,帮助它们从收集到的数据当中分析并发掘价值。除此以外,TobySegaran还建立了几个免费的网站应用,包括流行的tasktoy和Lazybase。他非常喜欢滑雪与品酒,其博客地址是bl09.kiwitobes.com,现居于旧金山。
书籍详细信息 | |||
书名 | 集体智慧编程站内查询相似图书 | ||
9787121075391 如需购买下载《集体智慧编程》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN | |||
出版地 | 北京 | 出版单位 | 电子工业出版社 |
版次 | 1版 | 印次 | 1 |
定价(元) | 46.0 | 语种 | 简体中文 |
尺寸 | 26 | 装帧 | 平装 |
页数 | 印数 | 5000 |
(美) 西格兰 (Segaran,T.) , 著
郭峰, 等编著
陈令刚, 李军, 主编
(美) 沃勒 (Waller,S.) 等, 著
(美) 薛白等, 著
(美) 威利斯 (Vlist,E.v.d) 等, 著
蒲鹏, 编著
(美) 摩尔 (Moore,D.) , (美) 布德 (Budd,R.) , (美) 本森 (Benson,E.) , 著
房大伟, 吕双, 刘云峰, 编著