期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

MDP中模型的转换——平均模型

The transformation of models in MDP—the average model

下载PDF

导出

摘要本文讨论状态可数的平均报酬马氏决策规划（Markov Decision Programming,简记为MDP）,通过模型的转换,文中将半马氏决策规划和连续时间MDP分别转换为离散时间MDP.转换保持模型间的最优方程等价,后一转换甚至保持平均目标函数等价。因此,离散时间MDP申的大部分结论可轻易地推广到另两类MDP中去。最后本文讨论了π<sub>0</sub><sup>∞</sup>为最优策略与最优方程的关系。 This paper discusses average rewards Markov decision programming (abbrev. MDP). Through the transformation of models, the semi-Markov decision programming and the continuous time MDP are transformed to the discrete time MDP respectively, with the optimality equations kept equivalent, so that the most results in the discrete time MDP can be extended to the two other MDP models. Finally, the relationship between the optimal policy π_0~∞ and the optimality equation is discussed.

作者胡奇英

机构地区西安电子科技大学管理工程与情报工程系

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 1991年第1期63-71,共9页 Journal of Xidian University

关键词模型转换平均模型 MDP 模型 Markov decision programming average rewards transformations of models

分类号 O141.4 [理学—基础数学]

引文网络
相关文献

参考文献2

1胡奇英.连续时间MDP及其与离散时间MDP的关系[J].科学通报,1989,34(6):408-411. 被引量：4
2胡奇英.无界报酬马氏决策规划ε(≥0)最优策略的性质[J]西北电讯工程学院学报,1987(04).

二级参考文献2

1董泽清，科学通报，1987年，32卷，11期，808页
2宋京生，中国科学.A，1987年，12期，1258页

共引文献3

1伍从斌.报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划[J].应用数学学报,1997,20(2):196-208. 被引量：2
2朱益民.连续时间马氏决策过程——最优策略对折扣因子的灵敏度分析[J].浙江工业大学学报,1999,27(2):155-159. 被引量：1
3秦叔明,刘俊,王莉.连续时间的折扣向量值马氏决策模型[J].昆明理工大学学报（自然科学版）,1996,34(S1):73-76. 被引量：1

1胡奇英.连续时间MDP及其与离散时间MDP的关系[J].科学通报,1989,34(6):408-411. 被引量：4
2Tai-Wen HSU,Chin-Yen TSAI.RANS Modeling of Solitary Wave Propagation over A Submerged Rectangular Breakwater[J].China Ocean Engineering,2009,23(3):473-488. 被引量：1
3郭先平.非平稳MDP平均模型的ε(≥O)-最优策略存在的充分条件[J].晓庄学院自然科学学报,1992,15(4):300-304.
4贾让成.折扣半马氏决策模型的矩最优问题[J].工程数学学报,1989,6(3):108-111.
5贾让成.字典序下的折扣多目标半马氏决策模型[J].西安电子科技大学学报,1989,16(2):55-63.
6郭先平.可数状态MDP的平均模型[J].数学年刊（A辑）,1996,1(5):539-546. 被引量：1
7林元烈,林建星.离散时间MDP矩最优模型——折扣依赖于历史的情形[J].应用概率统计,1992,8(1):27-34.
8郭先平.不完全信息的非平稳MDP平均模型[J].数理统计与应用概率,1995,10(2):14-21.
9魏力仁,郭先平.非平稳MDP的平均模型——一般状态空间的情形[J].科学通报,1991,36(10):728-730. 被引量：2
10郭先平,刘武旺.非平稳MDP平均模型ε_n－最优策略的结构[J].晓庄学院自然科学学报,1994,17(3):1-7.

西安电子科技大学学报

1991年第1期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部