0去购物车结算
购物车中还没有商品,赶紧选购吧!
当前位置: > 深度强化学习控制:前沿理论与方法

相同作者的商品

相同语种的商品

销售排行榜

浏览历史

深度强化学习控制:前沿理论与方法


联系编辑
 
标题:
 
内容:
 
联系方式:
 
  
深度强化学习控制:前沿理论与方法
  • 书号:9787030819345
    作者:孙长银,穆朝絮
  • 外文书名:
  • 装帧:圆脊精装
    开本:B5
  • 页数:307
    字数:401000
    语种:zh-Hans
  • 出版社:科学出版社
    出版时间:2025-06-01
  • 所属分类:
  • 定价: ¥180.00元
    售价: ¥142.20元
  • 图书介质:
    纸质书 按需印刷

  • 购买数量: 件  可供
  • 商品总价:

相同系列
全选

内容介绍

样章试读

用户评论

全部咨询

本书系统梳理了深度强化学习的核心理论、关键算法及其在智能控制、机器人技术和多智能体系统中的应用。全书涵盖强化学习的基本概念、深度强化学习的主要框架,以及多智能体强化学习的协同决策、任务分解与优化控制等前沿问题,并结合大量实验案例,深入探讨强化学习在飞行器控制、移动机器人导航与避障等领域的实践应用。
样章试读
  • 暂时还没有任何用户评论
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页

全部咨询(共0条问答)

  • 暂时还没有任何用户咨询内容
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页
用户名: 匿名用户
E-mail:
咨询内容:

目录

  • 目录
    前言
    第1章 绪论 1
    1.1 强化学习发展历程 1
    1.2 深度强化学习基础算法 2
    1.2.1 基于值函数的深度强化学习 2
    1.2.2 基于策略的深度强化学习 5
    1.2.3 深度强化学习的应用与挑战 8
    1.3 多智能体强化学习 11
    1.3.1 多智能体强化学习难点问题 11
    1.3.2 多智能体强化学习常用算法与结构 12
    1.3.3 多智能体强化学习应用与挑战 16
    1.4 本章小结 17
    参考文献 18
    第2章 强化学习基本概念与理论 25
    2.1 智能体–环境交互模型 25
    2.2 策略与值函数 26
    2.3 基于值函数的强化学习算法 28
    2.4 基于策略的强化学习算法 30
    2.5 本章小结 33
    参考文献 33
    第3章 面向输入受限系统的深度强化学习 34
    3.1 引言 34
    3.2 问题描述 36
    3.3 解算器–评价器结构与离轨策略学习算法 37
    3.3.1 基于平方和的策略评价器 37
    3.3.2 动作解算器 38
    3.3.3 离轨策略学习算法 39
    3.3.4 算法收敛性和策略最优性分析 41
    3.4 仿真实验 48
    3.4.1 一般线性系统的控制仿真 48
    3.4.2 非线性振荡器的控制仿真 51
    3.4.3 平衡车系统的控制仿真 54
    3.4.4 二自由度机械臂系统的控制仿真 55
    3.5 本章小结 59
    参考文献 59
    第4章 状态依赖输入约束的强化学习优化控制 62
    4.1 引言 62
    4.2 问题描述 63
    4.3 动作映射机制 65
    4.4 基于动作映射的强化学习框架 72
    4.4.1 执行器–评价器网络设计 79
    4.4.2 异策略学习算法 80
    4.5 值函数的连续性分析 82
    4.6 仿真实验 84
    4.6.1 线性系统的控制仿真 85
    4.6.2 输入受限系统的控制仿真 87
    4.6.3 二自由度机械臂系统的控制仿真 90
    4.7 本章小结 91
    参考文献 92
    第5章 自治切换系统的强化学习优化控制 94
    5.1 引言 94
    5.2 问题描述 95
    5.3 算法设计及实现 97
    5.3.1 精确 Q 学习算法 97
    5.3.2 近似 Q 学习算法 98
    5.3.3 算法执行过程 99
    5.4 算法理论分析 101
    5.4.1 近似值函数迭代算法回顾 101
    5.4.2 目标函数连续性分析 101
    5.4.3 算法收敛性分析 102
    5.4.4 切换策略稳定性分析 103
    5.5 仿真实验 104
    5.5.1 仿真实验一 105
    5.5.2 仿真实验二 107
    5.5.3 仿真实验三 111
    5.6 本章小结 117
    参考文献 117
    第6章 受控切换系统的强化学习优化控制 119
    6.1 引言 119
    6.2 问题描述 120
    6.3 算法设计 121
    6.3.1 混合 Q 学习算法 121
    6.3.2 混合归一化优势函数算法 122
    6.4 算法理论分析 124
    6.4.1 HQL 算法特性分析 124
    6.4.2 HNAF 算法特性分析 128
    6.5 仿真实验 130
    6.5.1 仿真实验一 130
    6.5.2 仿真实验二 133
    6.5.3 仿真实验三 135
    6.6 本章小结 137
    参考文献 137
    第7章 基于任务分解的多智能体强化学习协同控制 138
    7.1 引言 138
    7.2 问题描述 140
    7.3 基于任务分解的学习算法 140
    7.3.1 值函数分解 141
    7.3.2 基于任务分解的多智能体 Q 学习算法 142
    7.3.3 基于任务分解的多智能体确定性策略梯度算法 146
    7.4 仿真实验 151
    7.4.1 仿真实验一 151
    7.4.2 仿真实验二 154
    7.4.3 仿真实验三 157
    7.5 本章小结 160
    参考文献 161
    第8章 基于后继特征的多智能体迁移强化学习 163
    8.1 引言 163
    8.2 问题描述 164
    8.3 基于后继特征的多智能体强化学习及任务迁移 165
    8.3.1 基于后继特征的多智能体强化学习框架 166
    8.3.2 基于后继特征的目标任务知识迁移方法 170
    8.3.3 关于目标任务快速启动策略的理论分析 173
    8.4 仿真实验 177
    8.4.1 仿真实验环境介绍 177
    8.4.2 奖励特征函数的设计 179
    8.4.3 实验结果分析与讨论 180
    8.5 本章小结 187
    参考文献 188
    第9章 基于邻居动作值函数的多智能体一致性控制 191
    9.1 引言 191
    9.2 问题描述 193
    9.2.1 多智能体系统 193
    9.2.2 最优控制 194
    9.3 算法设计 196
    9.3.1 基于邻居动作值函数的多智能体一致性算法 196
    9.3.2 算法执行过程 198
    9.4 收敛性分析 199
    9.4.1 带领导者的多智能体系统:折扣因子γ∈ [0,1) 200
    9.4.2 带领导者的多智能体系统:折扣因子γ= 1 202
    9.4.3 无领导者的多智能体系统:折扣因子γ∈ [0,1] 204
    9.4.4 稳定性分析 204
    9.5 仿真实验 205
    9.5.1 带领导者的多智能体系统控制仿真 206
    9.5.2 无领导者的多智能体系统控制仿真 208
    9.6 本章小结 210
    参考文献 210
    第10章 基于自学习通信多智能体强化学习的合作追捕 213
    10.1 引言 213
    10.2 合作追捕学习算法 215
    10.2.1 环形拓扑网络结构下合作追捕学习算法 215
    10.2.2 主从式线形拓扑网络结构下合作追捕学习算法 219
    10.3 仿真实验 223
    10.3.1 仿真环境描述 223
    10.3.2 训练实施方式 225

    10.3.3 实验结果与分析 227
    10.4 本章小结 233
    参考文献 233
    第11章 强化学习在飞行器控制中的应用 236
    11.1 引言 236
    11.2 问题描述 238
    11.3 积分补偿确定性策略梯度控制器 240
    11.3.1 确定性策略梯度算法 241
    11.3.2 带积分补偿的确定性策略梯度算法 243
    11.3.3 四旋翼 DPG-IC 控制器设计 244
    11.4 基于 DPG-IC 的两段式训练算法 247
    11.4.1 离线训练阶段 247
    11.4.2 在线训练阶段 249
    11.5 仿真实验 249
    11.5.1 训练和测试环境 250
    11.5.2 离线训练过程与结果 251
    11.5.3 离线控制策略实验和结果 254
    11.5.4 在线训练实验和结果 260
    11.6 本章小结 261
    参考文献 261
    第12章 强化学习在移动机器人导航与避障中的应用 264
    12.1 引言 264
    12.2 问题描述 266
    12.3 模块化深度强化学习导航与避障算法 268
    12.3.1 局部避障模块 269
    12.3.2 全局导航模块 272
    12.3.3 动作调度模块 273
    12.4 仿真实验 275
    12.4.1 深度双流 Q 网络局部避障训练与对比实验 276
    12.4.2 导航模块离线训练与测试结果 280
    12.4.3 模块化深度强化学习在线训练与对比测试结果 280
    12.5 本章小结 285
    参考文献 285
    第13章 强化学习开源测试环境与算法库 288
    13.1 引言 288
    13.2 强化学习开源测试环境 288
    13.2.1 OpenAI Gym 289
    13.2.2 Unity ML-Agents Toolkit 289
    13.2.3 PyBullet 290
    13.2.4 DeepMind Control Suite 290
    13.3 玄策强化学习开源算法库 291
    13.3.1 软件概述 291
    13.3.2 软件主要功能详解 294
    13.3.3 软件使用说明 302
    13.4 本章小结 305
    第14章 总结与展望 306
帮助中心
公司简介
联系我们
常见问题
新手上路
发票制度
积分说明
购物指南
配送方式
配送时间及费用
配送查询说明
配送范围
快递查询
售后服务
退换货说明
退换货流程
投诉或建议
版权声明
经营资质
营业执照
出版社经营许可证