出版社:清华大学出版社
年代:2010
定价:65.0
在随机学习与优化的研究中,摄动分析、马尔可夫决策过程、强化学习、辨识和自适应控制长期以来被认为是几个分离的领域,曹希仁教授在本书中用统一的框架把它们巧妙地结合在一起。
1 引言
1.1 学习和优化概述
1.1.1 问题描述
1.1.2 最优策略
1.1.3 学习和优化的基本局限
1.1.4 学习和优化的基于灵敏度的观点
1.2 不同学科中问题的描述
1.2.1 摄动分析(PA)
1.2.2 马尔可夫决策过程
1.2.3 强化学习
1.2.4 辨识和自适应控制
1.2.5 基于事件的优化和性能势集结
1.3 学习和优化学科关系图
1.4 术语和符号
习题
第1部分 学习与优化的四门学科
2 摄动分析
2.1 马尔可夫链的摄动分析
2.1.1 构造摄动样本路径
2.1.2 摄动实现因子和性能势
2.1.3 性能导数公式
2.1.4 折扣报酬准则的梯度
2.1.5 高阶导数和麦克劳林级数
2.2 马尔可夫过程的性能灵敏度
2.3 半马尔可夫过程的性能灵敏度
2.3.1 半马尔可夫过程的基础知识
2.3.2 性能灵敏度公式
2.4 排队系统的摄动分析
2.4.1 构造摄动样本路径
2.4.2 摄动实现
2.4.3 性能导数
2.4.4 相关理论问题的评注
2.5 其他方法
习题
3 利用摄动分析的学习与优化
3.1 性能势
3.1.1 数值方法
3.1.2 从样本路径学习性能势
3.1.3 耦合
3.2 性能梯度
3.2.1 通过性能势估计
3.2.2 直接学习
3.3 利用摄动分析的优化
3.3.1 梯度方法和随机逼近
3.3.2 利用长样本路径的优化
3.3.3 应用
习题
4 马尔可夫决策过程
……
第2部分 基于事件的优化——一种新方法
第3部分 附录:数学基础
随机学习与优化在现代工程、社会、金融问题中具有广泛的应用。《随机学习与优化:基于灵敏度的方法》以一个统一的框架,涵盖了离散事件动态系统的摄动分析、马尔可大决策过程、强化学习、辨识和自适应控制等学习和优化的不同学科;并利用基于性能差分公式的简单方法介绍马尔可夫决策过程理论,通过该方法能求得以长期平均代价为准则的n阶偏差优化策略以及无折扣的Blackwell优化策略。《随机学习与优化:基于灵敏度的方法》还包含有最近发展出来的基于事件的优化方法,它为利用系统的特性来克服或减轻数灾的研究开辟了个新方向。《随机学习与优化:基于灵敏度的方法》强调以样本路径的构造为基础的物理解释,物理上的直观认识可以为完善已有的优化方法提供新思路。 为帮助读者理解掌握书中的内容,《随机学习与优化:基于灵敏度的方法》提供了大量的示例和丰富的习题。 《随机学习与优化:基于灵敏度的方法》适合作为相关专业的研究生教材,学生可从一门课程中学到原本属于多个不同学科的内容。《随机学习与优化:基于灵敏度的方法》有助于促进学习和优化领域中各学科之间的合作,对该领域的研究人员也大有裨益。