0去购物车结算
购物车中还没有商品,赶紧选购吧!
当前位置: 图书分类 > 信息技术 > 软件开发与程序设计 > 强化学习原理及其应用

浏览历史

强化学习原理及其应用


联系编辑
 
标题:
 
内容:
 
联系方式:
 
  
强化学习原理及其应用
  • 书号:9787030406408
    作者:王雪松,朱美强,程玉虎
  • 外文书名:
  • 装帧:平装
    开本:B5
  • 页数:272
    字数:320
    语种:
  • 出版社:科学出版社
    出版时间:2014/6/9
  • 所属分类:
  • 定价: ¥89.00元
    售价: ¥89.00元
  • 图书介质:
    按需印刷

  • 购买数量: 件  可供
  • 商品总价:

相同系列
全选

内容介绍

样章试读

用户评论

全部咨询

书围绕着克服维数灾难,分别从值函数逼近、直接策略搜索和基于谱方法的学习3个方面来阐述强化学习理论、方法及其应用,本书是著者近5年来在国家自然科学基金、教育部"新世纪优秀人才支持计划"、江苏省自然科学基金以及教育部博士学科点专项科研基金项目资助下取得的一系列关于强化学习方法研究成果的结晶。
样章试读
  • 暂时还没有任何用户评论
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页

全部咨询(共0条问答)

  • 暂时还没有任何用户咨询内容
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页
用户名: 匿名用户
E-mail:
咨询内容:

目录


  • 《智能科学技术著作丛书》序序前言第 1章强化学习概述 1

    1.1强化学习模型及其基本要素 2



    1.1.1强化学习模型 2



    1.1.2强化学习基本要素 3



    1.2强化学习的发展历史 5



    1.2.1试错学习 5



    1.2.2动态规划与最优控制 6



    1.2.3时间差分学习 7



    1.3强化学习研究概述 7



    1.3.1分层强化学习研究现状 8



    1.3.2近似强化学习研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

    1.3.3启发式回报函数设计研究现状 15



    1.3.4探索和利用平衡研究现状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16

    1.3.5基于谱图理论的强化学习研究现状 17



    1.4强化学习方法的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    1.4.1自适应优化控制中的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

    1.4.2调度管理中的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.4.3人工智能问题求解中的应用 22



    1.5本书主要内容及安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25第 2章强化学习基础理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    2.1马尔科夫决策过程概述 41



    2.1.1马尔科夫决策过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    2.1.2策略和值函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    2.2基于模型的动态规划方法 44



    2.2.1线性规划 45



    2.2.2策略迭代 45



    2.2.3值迭代 46



    2.2.4广义策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    2.3模型未知的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.1强化学习基础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.2蒙特卡罗法 49



    2.3.3时间差分 TD法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54

    2.3.4 Q学习与 SARSA学习 56



    2.3.5 Dyna学习框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .57

    2.3.6直接策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    2.3.7 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60

    2.4近似强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    2.4.1带值函数逼近的 TD学习 61



    2.4.2近似值迭代 63



    2.4.3近似策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    2.4.4最小二乘策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    2.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68第 3章基于支持向量机的强化学习 71

    3.1支持向量机原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71

    3.1.1机器学习 72



    3.1.2核学习 73



    3.1.3 SVM的思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    3.1.4 SVM的重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    3.2基于半参数支持向量机的强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75

    3.2.1基于半参数回归模型的 Q学习结构 76



    3.2.2半参数回归模型的学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78

    3.2.3仿真研究 79



    3.3基于概率型支持向量机的强化学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82

    3.3.1基于概率型支持向量机分类机的 Q学习 82



    3.3.2概率型支持向量分类机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .83

    3.3.3仿真研究 85



    3.4本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88第 4章基于状态 --动作图测地高斯基的策略迭代强化学习 90

    4.1强化学习中的基函数选择 90



    4.2基于状态–动作图测地高斯基的策略迭代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91

    4.2.1 MDP的状态 –动作空间图 92



    4.2.2状态 –动作图上测地高斯核 93



    4.2.3基于状态 –动作图测地高斯基的动作值函数逼近 . . . . . . . . . . . . . . . . . . . . . . . 94

    4.3算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    4.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    4.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104第 5章基于抽象状态的贝叶斯强化学习电梯群组调度 . . . . . . . . . . . . . . . . . . . . . . 106

    5.1电梯群组调度强化学习模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107

    5.2基于抽象状态的贝叶斯强化学习电梯群组调度 108



    5.2.1状态空间抽象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

    5.2.2强化学习系统的回报函数 110



    5.2.3贝叶斯网推断 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    5.2.4状态 –动作值函数的神经网络逼近 111



    5.2.5动作选择策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

    5.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .112

    5.4本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .115参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115第 6章基于增量最小二乘时间差分的 Actor-Critic学习 117

    6.1策略梯度理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

    6.2基于常规梯度的增量式 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    6.3基于 iLSTD(λ)的 Actor-Critic学习 121



    6.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123

    6.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .126参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126第 7章融合经验数据的 Actor-Critic强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

    7.1增量式 Actor-Critic学习算法的数据有效性改进 . . . . . . . . . . . . . . . . . . . . . 128

    7.1.1基于 RLSTD(λ)或 iLSTD(λ)的增量式 Actor-Critic学习 130



    7.1.2算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

    7.1.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

    7.2基于自适应重要采样的 Actor-Critic学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    7.2.1基于最小二乘时间差分的 Actor-Critic强化学习 141



    7.2.2基于重要采样的估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143

    7.2.3基于自适应重要采样的估计 145



    7.2.4算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

    7.2.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

    7.3本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151第 8章基于资格迹的折扣回报型增量自然 Actor-Critic学习 153

    8.1自然梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .154

    8.2自然策略梯度的估计方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

    8.2.1基于 Fisher信息矩阵的自然策略梯度 155



    8.2.2基于兼容函数逼近器的自然策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

    8.2.3自然策略梯度的仿真 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .157

    8.2.4自然策略梯度的特性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .158

    8.3基于资格迹的折扣回报型增量自然 Actor-Critic学习 158



    8.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161

    8.5本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .164参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165第 9章基于参数探索的 EM策略搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166

    9.1策略搜索强化学习方法分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166

    9.2期望最大化策略搜索强化学习 167



    9.3基于参数探索的 EM策略搜索学习 169



    9.4算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171

    9.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .172

    9.5.1小球平衡问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

    9.5.2倒立摆平衡问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

    9.6本章小结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .177参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178第 10章基于谱图理论的强化学习基础 180

    10.1谱图理论与谱图分割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180

    10.1.1谱图理论与谱方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180

    10.1.2谱图分割和谱聚类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .181

    10.2基于谱图理论的流形和距离度量学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

    10.2.1流形学习概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

    10.2.2基于流形学习的度量学习 183



    10.3基于拉普拉斯特征映射法的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

    10.3.1拉普拉斯特征映射法基础 185



    10.3.2基于拉普拉斯特征映射的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    10.4基于拉普拉斯特征映射的强化学习分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . .190 10.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .191参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

    第 11章基于拉普拉斯特征映射的启发式策略选择 194



    11.1探索和利用平衡问题概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

    11.2启发式策略选择原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195

    11.3基于拉普拉斯特征映射的启发式策略选择 196



    11.3.1基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

    11.3.2基于拉普拉斯特征映射的启发式 Q学习 197



    11.4算法步骤、计算复杂度和适用范围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

    11.4.1算法主要步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

    11.4.2计算复杂度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

    11.4.3适用范围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

    11.5仿真研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .203

    11.5.1 5房间格子世界 203



    11.5.2对称 4房间格子世界 205



    11.6本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .206参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206第 12章基于拉普拉斯特征映射的 Dyna规划 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .208

    12.1强化学习在移动机器人自主导航中的应用研究概述. . . . . . . . . . . . . . . . .208

    12.2强化学习在井下救援机器人导航中的应用研究 209



    12.3基于拉普拉斯特征映射的 Dyna Q算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .210

    12.3.1 Dyna Q的基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

    12.3.2基于谱图理论的优先级机制 211



    12.3.3算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

    12.3.4计算复杂度分析和适用范围 212



    12.4仿真结果及分析 212



    12.4.1 5房间格子地图 213



    12.4.2对称 4房间格子地图 213



    12.4.3 9房间格子地图 214



    12.5本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .215参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215第 13章基于谱方法的强化学习迁移研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

    13.1基于谱图理论的强化学习迁移 217



    13.1.1强化学习迁移概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .217

    13.1.2基于谱图理论的强化学习迁移分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

    13.2基于谱图理论的 Option自动生成研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .220

    13.2.1 Option原理 220



    13.2.2基于谱图分割的 Option自动生成算法概述 221



    13.2.3虚拟值函数法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

    13.3基于谱图理论的强化学习混合迁移方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . .226

    13.3.1基函数的线性插值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .226

    13.3.2迁移基函数的逼近能力 227



    13.3.3基函数与子任务策略的混合迁移 230



    13.4算法步骤和适用范围. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .231

    13.4.1算法步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

    13.4.2适用范围 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

    13.5仿真实验与分析 232



    13.5.1地图不变迁移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

    13.5.2地图比例放大迁移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .233

    13.5.3实验结果统计分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .235

    13.6本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .237参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237附录 240]]>
帮助中心
公司简介
联系我们
常见问题
新手上路
发票制度
积分说明
购物指南
配送方式
配送时间及费用
配送查询说明
配送范围
快递查询
售后服务
退换货说明
退换货流程
投诉或建议
版权声明
经营资质
营业执照
出版社经营许可证