出版社:科学出版社
年代:2015
定价:55.0
在过去的十年,集成方法被称为数据挖掘和机器学习领域最具影响的发展。它们集组合多个模型成一体而往往比单个最好的模型更精确。对于从投资时机把握到药物发现,从伪造检测到推荐系统等工业挑战(这些领域中,预测精度较之于模型可解释性更为重要),集成能给以重要的提升。本书首先讨论了决策树。继描述树及其长处不足之后,作者对正则化(当前被认为是现代集成算法高级性能的关键原因)作了概述。随后本书清晰地描述了两个近来的发展:重要性采样(IS)和规则集成(RE)。IS展现了经典集成方法--bagging,随机森林和boosting,它们是单个算法的特例,揭示如何改善其精度和速度。REs是源于规则树集成的线性规则模型。它们是集成的最可解释版本,对于诸如信誉评分和故障诊断等应用是本质性的。最后,作者解释了集成对于新数据在复杂性(显然复杂得多)和更大精度方面的悖论。