0去购物车结算
购物车中还没有商品,赶紧选购吧!
当前位置: 图书分类 > 数学 > 运筹学/控制论 > 马尔可夫决策过程理论与应用

浏览历史

马尔可夫决策过程理论与应用


联系编辑
 
标题:
 
内容:
 
联系方式:
 
  
马尔可夫决策过程理论与应用
  • 书号:9787030431233
    作者:
  • 外文书名:
  • 装帧:
    开本:
  • 页数:
    字数:
    语种:
  • 出版社:
    出版时间:
  • 所属分类:
  • 定价: ¥98.00元
    售价: ¥98.00元
  • 图书介质:
    按需印刷 电子书

  • 购买数量: 件  可供
  • 商品总价:

相同系列
全选

内容介绍

样章试读

用户评论

全部咨询

本书从马氏决策的一般理论出发,介绍了马氏决策的基本概念,给出了决策过程的表述方法并介绍了不同准则条件下的基本理论,还给出了作者对一些实际问题的研究心得,为读者提供参考. 本书在《实用马尔可夫决策过程》一书的基础上增加了 Bandit 过程、部分可观察过程、软件可靠性建模分析以及大规模计算方法等章节,为读者提供更为宽阔的视野.
样章试读
  • 暂时还没有任何用户评论
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页

全部咨询(共0条问答)

  • 暂时还没有任何用户咨询内容
总计 0 个记录,共 1 页。 第一页 上一页 下一页 最末页
用户名: 匿名用户
E-mail:
咨询内容:

目录

  • 目 录
    序言
    常用符号表
    第 1 章 引论 1
    1.1 序列决策模型 1
    1.2 马氏决策过程的例子 3
    1.3 马氏决策过程的定义与记号 7
    1.3.1 决策时刻与周期 7
    1.3.2 状态与行动集 8
    1.3.3 转移概率和报酬 8
    1.3.4 历史?决策规则与策略.9
    1.3.5 诱导过程?效用准则与马氏策略优势 10
    1.4 马氏决策过程的起源和发展.14
    1.5 问题.16
    第 2 章 有限阶段模型.17
    2.1 最优准则 17
    2.2 有限阶段的策略迭代和最优方程 18
    2.3 最优策略的存在性和算法 20
    2.4 两个例子 23
    2.4.1 序贯分配问题 23
    2.4.2 秘书问题.26 2.5 单调策略的最优性 29
    2.6 部分可观察的马氏决策过程.33
    2.6.1 有限状态和行动空间的部分可观察马氏决策过程 34
    2.6.2 算法42
    2.7 问题.44
    第 3 章 无限阶段折扣模型 47
    3.1 最优准则 47
    3.2 最优方程 48
    3.3 最优策略的存在性 50
    3.4 策略迭代算法 54
    3.5 值迭代算法 57
    3.6 改进的策略迭代算法 63
    3.7 线性规划算法 64
    3.8 可数状态与行动的模型 67
    3.8.1 无界报酬的情形 67
    3.8.2 有限状态逼近无限状态的情形70
    3.8.3 设备维修的例子 74
    3.8.4 有限状态可数行动的情形 78
    3.9 最优单调策略 80
    3.10 最优策略的结构.82
    3.11 多臂赌博机问题.83
    3.12 问题 88
    第 4 章 无限阶段平均模型 91
    4.1 最优准则 91
    4.2 最优平稳策略的存在性 93
    4.3 平稳策略一些特征 94
    4.4 最优方程与策略迭代算法 103
    4.5 单链时的情形 107
    4.5.1 最优方程解存在的条件 108
    4.5.2 值迭代算法 109
    4.5.3 单链 MDPs 的策略迭代算法及其改进 114
    4.5.4 单链 MDPs 的线性规划算法 116
    4.5.5 带约束模型和方差准则模型118
    4.5.6 可数状态模型 124
    4.5.7 结构化最优策略 127
    4.6 多链时的情形 130
    4.6.1 线性规划算法 131
    4.6.2 平均准则下的 Bellman 最优原则 133
    4.7 问题 136
    第 5 章 权重准则模型与概率准则模型.138
    5.1 折扣权重模型 138
    5.2 折扣与平均权重模型145
    5.3 MDP 的百分比与目标水平.149
    5.4 风险概率准则模型 154
    5.4.1 终达目标最小风险模型 156
    5.4.2 首达目标最小风险模型 163
    5.5 问题 164
    第 6 章 连续时间与半马氏模型 165
    6.1 连续时间折扣 MDP 165
    6.1.1 模型和策略的定义 165
    6.1.2 连续时间 MDP 的决策过程与折扣准则 166
    6.1.3 最优策略的存在性与结构 168
    6.1.4 转化为离散时间模型 170
    6.1.5 适用范围的推广 171
    6.2 连续时间平均 MDP 172
    6.3 折扣半马氏模型.175
    6.4 平均半马氏模型.180
    6.5 服务率受控的一个排队模型.182
    6.6 问题 184
    第 7 章 空集装箱调配问题.185
    7.1 单港口的问题与建模185
    7.2 无限阶段折扣准则 189
    7.3 无限阶段平均准则 191
    7.4 数值例子.193
    7.5 多港口空集装箱的调配问题.194
    第 8 章 人力资源模型 199
    8.1 问题 199
    8.2 数学模型.200
    8.2.1 状态空间 201
    8.2.2 决策时刻与行动集 202
    8.2.3 转移速率与转移概率 202
    8.2.4 费用与准则 204
    8.3 相关参数分析 204
    8.4 数例 207
    第 9 章 软件测试的最优发布问题 209
    9.1 模型 210
    9.2 结构性质.212
    9.2.1 最优函数 V ¤(n; t) 的性质 212
    9.2.2 最优策略的阈值结构 215
    9.3 数值仿真研究 217
    9.3.1 连续时间模型的离散逼近 218
    9.3.2 数值例子 218
    9.4 基本模型的一般化 219
    第 10 章 大规模问题的近似算法.220
    10.1 大规模问题的挑战 220
    10.2 向前动态规划方法 222
    10.2.1 近似最优决策行为的选择222
    10.2.2 随时间向前递推过程 223
    10.2.3 随机变量的抽样 223
    10.2.4 向前动态规划算法 224
    10.3 Q-learning 和 SARSA 方法.225
    10.3.1 Q-learning 方法 225
    10.3.2 SARSA 方法 227
    10.4 实时动态规划方法 227
    10.5 逼近值迭代方法 228
    10.6 决策后状态方法 230
    10.6.1 寻找决策后状态变量 230
    10.6.2 决策后状态变量的例子 231
    10.6.3 决策后状态变量的最优方程.235
    10.6.4 决策后状态方程的逼近算法.236
    10.6.5 决策后状态与 Q-learning 237
    10.7 探索和利用的问题 238
    10.8 近似线性规划方法 240
    10.9 策略近似算法243
    10.10 总结 245
    附录 习题解答 248
    参考文献.262
    索引 274
    《运筹与管理科学丛书》已出版书目 277
帮助中心
公司简介
联系我们
常见问题
新手上路
发票制度
积分说明
购物指南
配送方式
配送时间及费用
配送查询说明
配送范围
快递查询
售后服务
退换货说明
退换货流程
投诉或建议
版权声明
经营资质
营业执照
出版社经营许可证