马尔可夫决策过程理论与应用_运筹学/控制论_数学_图书分类

当前位置: 图书分类 > 数学 > 运筹学/控制论 > 马尔可夫决策过程理论与应用

相同系列

全选

机电设备系统安装...
￥14.22元
闽南—台湾浅滩渔...
￥43.45元
工程制图（含习题...
￥37.92元
会计学
￥26.07元
SAS软件实用教...
￥37.92元
政策可持续发展评...
￥37.92元
一九七八年中国天...
￥4.74元
数据库技术与应用
￥21.33元
上海唐宋元墓
￥440.82元
稀土发光材料——...
￥142.20元
C语言程序设计基...
￥22.12元
解析几何
￥11.85元
PowerBui...
￥20.54元
地理信息系统——...
￥62.41元
黃河中游西部地区...
￥0.95元
中国的民族
￥276.50元
妇产科护理学笔记
￥18.96元
基因组学方法
￥47.24元
PIC单片机BA...
￥37.92元
亚洲中部山地夷平...
￥14.22元
生活逻辑与主题学...
￥41.08元
陆地卫星假彩色影...
￥0.00元
寻找新药中的组合...
￥48.00元
大学计算机基础实...
￥30.02元
清代中央决策机制...
￥37.92元
钱三强论文选集
￥0.00元
地球系统研究与科...
￥118.50元
中国第三届MBA...
￥51.35元
中国植物志第五...
￥1.58元
电磁工程
￥37.92元
中国兜兰属植物
￥221.20元
钢-混凝土组合梁...
￥38.71元
经典力学
￥1.74元
口腔组织病理学（...
￥19.75元
机械制图习题集
￥16.59元
精密工程测量
￥38.71元
倪珠英中医儿科心...
￥62.40元
生物能源（导读版...
￥101.12元
现代社交心理学
￥12.64元
中国植物志第4...
￥37.92元
细胞工程
￥47.24元
Intranet...
￥25.28元
抢救上班族英语-...
￥30.81元
医学细胞生物学笔...
￥33.18元
大学物理实验报告...
￥13.27元
综合自然地理学
￥30.81元
计算机辅助设计技...
￥19.75元
叶肢介化石
￥2.41元
有线电视工程设计...
￥17.38元
高速CMOS数据...
￥23.70元

内容介绍

样章试读

用户评论

全部咨询

本书从马氏决策的一般理论出发，介绍了马氏决策的基本概念，给出了决策过程的表述方法并介绍了不同准则条件下的基本理论，还给出了作者对一些实际问题的研究心得，为读者提供参考. 本书在《实用马尔可夫决策过程》一书的基础上增加了 Bandit 过程、部分可观察过程、软件可靠性建模分析以及大规模计算方法等章节，为读者提供更为宽阔的视野.

样章试读

暂时还没有任何用户评论

总计 0 个记录，共 1 页。第一页上一页下一页最末页

全部咨询(共0条问答)

暂时还没有任何用户咨询内容

总计 0 个记录，共 1 页。第一页上一页下一页最末页

用户名：匿名用户

E-mail：

咨询内容：

目录
序言
常用符号表
第 1 章引论 1
1.1 序列决策模型 1
1.2 马氏决策过程的例子 3
1.3 马氏决策过程的定义与记号 7
1.3.1 决策时刻与周期 7
1.3.2 状态与行动集 8
1.3.3 转移概率和报酬 8
1.3.4 历史？决策规则与策略.9
1.3.5 诱导过程？效用准则与马氏策略优势 10
1.4 马氏决策过程的起源和发展.14
1.5 问题.16
第 2 章有限阶段模型.17
2.1 最优准则 17
2.2 有限阶段的策略迭代和最优方程 18
2.3 最优策略的存在性和算法 20
2.4 两个例子 23
2.4.1 序贯分配问题 23
2.4.2 秘书问题.26 2.5 单调策略的最优性 29
2.6 部分可观察的马氏决策过程.33
2.6.1 有限状态和行动空间的部分可观察马氏决策过程 34
2.6.2 算法42
2.7 问题.44
第 3 章无限阶段折扣模型 47
3.1 最优准则 47
3.2 最优方程 48
3.3 最优策略的存在性 50
3.4 策略迭代算法 54
3.5 值迭代算法 57
3.6 改进的策略迭代算法 63
3.7 线性规划算法 64
3.8 可数状态与行动的模型 67
3.8.1 无界报酬的情形 67
3.8.2 有限状态逼近无限状态的情形70
3.8.3 设备维修的例子 74
3.8.4 有限状态可数行动的情形 78
3.9 最优单调策略 80
3.10 最优策略的结构.82
3.11 多臂赌博机问题.83
3.12 问题 88
第 4 章无限阶段平均模型 91
4.1 最优准则 91
4.2 最优平稳策略的存在性 93
4.3 平稳策略一些特征 94
4.4 最优方程与策略迭代算法 103
4.5 单链时的情形 107
4.5.1 最优方程解存在的条件 108
4.5.2 值迭代算法 109
4.5.3 单链 MDPs 的策略迭代算法及其改进 114
4.5.4 单链 MDPs 的线性规划算法 116
4.5.5 带约束模型和方差准则模型118
4.5.6 可数状态模型 124
4.5.7 结构化最优策略 127
4.6 多链时的情形 130
4.6.1 线性规划算法 131
4.6.2 平均准则下的 Bellman 最优原则 133
4.7 问题 136
第 5 章权重准则模型与概率准则模型.138
5.1 折扣权重模型 138
5.2 折扣与平均权重模型145
5.3 MDP 的百分比与目标水平.149
5.4 风险概率准则模型 154
5.4.1 终达目标最小风险模型 156
5.4.2 首达目标最小风险模型 163
5.5 问题 164
第 6 章连续时间与半马氏模型 165
6.1 连续时间折扣 MDP 165
6.1.1 模型和策略的定义 165
6.1.2 连续时间 MDP 的决策过程与折扣准则 166
6.1.3 最优策略的存在性与结构 168
6.1.4 转化为离散时间模型 170
6.1.5 适用范围的推广 171
6.2 连续时间平均 MDP 172
6.3 折扣半马氏模型.175
6.4 平均半马氏模型.180
6.5 服务率受控的一个排队模型.182
6.6 问题 184
第 7 章空集装箱调配问题.185
7.1 单港口的问题与建模185
7.2 无限阶段折扣准则 189
7.3 无限阶段平均准则 191
7.4 数值例子.193
7.5 多港口空集装箱的调配问题.194
第 8 章人力资源模型 199
8.1 问题 199
8.2 数学模型.200
8.2.1 状态空间 201
8.2.2 决策时刻与行动集 202
8.2.3 转移速率与转移概率 202
8.2.4 费用与准则 204
8.3 相关参数分析 204
8.4 数例 207
第 9 章软件测试的最优发布问题 209
9.1 模型 210
9.2 结构性质.212
9.2.1 最优函数 V ¤(n; t) 的性质 212
9.2.2 最优策略的阈值结构 215
9.3 数值仿真研究 217
9.3.1 连续时间模型的离散逼近 218
9.3.2 数值例子 218
9.4 基本模型的一般化 219
第 10 章大规模问题的近似算法.220
10.1 大规模问题的挑战 220
10.2 向前动态规划方法 222
10.2.1 近似最优决策行为的选择222
10.2.2 随时间向前递推过程 223
10.2.3 随机变量的抽样 223
10.2.4 向前动态规划算法 224
10.3 Q-learning 和 SARSA 方法.225
10.3.1 Q-learning 方法 225
10.3.2 SARSA 方法 227
10.4 实时动态规划方法 227
10.5 逼近值迭代方法 228
10.6 决策后状态方法 230
10.6.1 寻找决策后状态变量 230
10.6.2 决策后状态变量的例子 231
10.6.3 决策后状态变量的最优方程.235
10.6.4 决策后状态方程的逼近算法.236
10.6.5 决策后状态与 Q-learning 237
10.7 探索和利用的问题 238
10.8 近似线性规划方法 240
10.9 策略近似算法243
10.10 总结 245
附录习题解答 248
参考文献.262
索引 274
《运筹与管理科学丛书》已出版书目 277

联系编辑

标题：

内容：

联系方式：

销售排行榜

浏览历史

相同系列

全选

内容介绍

样章试读

用户评论

全部咨询

内容介绍

样章试读

用户评论

全部咨询

全部咨询(共0条问答)

目录

用户名：	匿名用户
E-mail：
咨询内容：

销售排行榜

浏览历史

相同系列 全选

内容介绍 样章试读 用户评论 全部咨询

内容介绍

样章试读

用户评论

全部咨询

全部咨询(共0条问答)

目录

相同系列

全选

内容介绍

样章试读

用户评论

全部咨询