一般MDP最优策略的唯一性被引量：1

The Uniquenness of Optimal Poticies for General MDP

下载PDF

导出

摘要对于一般的MDP模型，本文证明了对任意一族依赖于历史的随机策略所导致的策略测度类的任意凸组合，存在一个随机马氏策略所导致的策略测度，使得相应于它们的平均期望目标，折扣目标以及期望总报酬目标的值均分别相等，推广了E．B．Dynkin和Yushkevich[1]，M．Puterman[2]，E.Feinberg和A.Shwartz[3]，R．Strauch[4]，以及董泽清和宋京生[5]等相应的所有结果．然后还进一步证明了关于平均期望目标、折扣目标以及期望总报酬目标的最优策略，它们要么唯一，要么有无穷多个． For the general MDP model, we prove that:for any convex combination of strategic mea sures class produced by a given randomized history-dependent policy class,there exists a strategic measure produced by a randomized Markov policy, such that the values of average expected cri terion,of discounted criterion and of expected total reward criterion, which correspond to them,are equal, respectively. So we generilizes the corresponding results obtained by E. B. Dynkin and Yushevich [1], M. Puterman [2], E. Fenberg and A. Shwartze [3], It. Strauch[4] and Dongzeqing etc [5], respectively. Finaly, we also prove that the optimal policies for average expected criterion,discounted criterion and expected totall reward criterion, are either unique or infinite

作者郭先平

机构地区中山大学数学系

出处《应用概率统计》 CSCD 北大核心 1998年第3期258-265,共8页 Chinese Journal of Applied Probability and Statistics

基金国家自然科学基金广东省博士后基金

关键词马氏决策过程随机马氏策略最优策略唯一性

分类号 O211.62 [理学—概率论与数理统计]

引文网络
相关文献

参考文献1

1董泽清，科学通报，1987年，11期，809页

同被引文献8

1伍从斌,张继红.报酬无界的连续时间折扣马氏决策规划[J].应用概率统计,1997,13(1):1-10. 被引量：2
2胡奇英，数理统计与应用概率，1998年，13卷，3期，251页
3Shin K G，IEEE Trans Software Eng，1989年，15卷，10期，1188页
4董泽清，科学通报，1987年，32卷，11期，809页
5宋京生，科学通报，1987年，32卷，16期，1201页
6胡奇英.状态部分可观察的无界报酬马氏决策规划[J].数理统计与应用概率,1998,13(3):79-86. 被引量：3
7宋京生,董泽清.连续时间总报酬马氏决策规划[J].科学通报,1987(16):1201-1205. 被引量：2
8董泽清,宋京生.无界报酬半马氏折扣模型的初等方法[J].科学通报,1987(11):808-812. 被引量：1

引证文献1

1李江洪,韩正之.马尔可夫决策过程自适应决策的进展[J].控制与决策,2001,16(1):7-11. 被引量：6

二级引证文献6

1程升,汤兵勇.基于供应链管理的一种采购算法研究[J].物流技术,2005,24(10):3-5.
2刘虹.基于MDP自适应决策的库存控制[J].河北建筑科技学院学报,2006,23(3):109-112.
3于乃功,阮晓钢.基于细胞自动机模型的青霉素发酵过程优化控制策略[J].北京工业大学学报,2007,33(2):150-154. 被引量：1
4王芝泉,刘晋浩.物流服务供应链任务分配问题研究[J].森林工程,2011,27(4):78-81. 被引量：6
5胡健.基于Q学习的无线传感器网络路由协议[J].计算机与现代化,2013(3):131-134.
6李岩,曹琳,孙雷,刘景泰.竞争型网络机器人体系结构研究[J].机器人,2013,35(4):462-469. 被引量：5

1郭先平.受约束的非平稳期望总报酬模型[J].数理统计与应用概率,1996,11(4):326-331.
2林元烈,林建星.离散时间MDP矩最优模型——折扣依赖于历史的情形[J].应用概率统计,1992,8(1):27-34.
3邱德华.半马氏MDP平均模型[J].衡阳师专学报,1998,19(3):1-7.
4郭先平.Q（f）－过程非唯一时连续时间折扣目标MDP[J].晓庄学院自然科学学报,1996,19(3):7-12.
5要跃.具有随机N—策略的EK／G／1排队的队长[J].运筹学杂志,1994,13(2):45-46.
6林元烈.连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形[J].数学学报（中文版）,1992,35(1):8-19. 被引量：1
7郭先平,刘再明.非平稳广义Markov模型策略类的等价性[J].长沙铁道学院学报,1996,14(1):44-50. 被引量：1
8唐建辉,沈抗存.理想气体在准静态过程中的吸放热和升降温[J].杭州师范大学学报（自然科学版）,2015,14(5):544-547.
9郑斐峰,徐寅峰,张娥.占线订单排序C——收益函数下改进的随机策略[J].运筹与管理,2009,18(6):75-79. 被引量：1
10郑斐峰,徐寅峰,张娥.占线订单排序D-收益函数下改进的随机策略[J].系统管理学报,2010,19(1):93-95. 被引量：4

应用概率统计

1998年第3期

浏览历史

内容加载中请稍等...

一般MDP最优策略的唯一性被引量：1

参考文献1

同被引文献8

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一般MDP最优策略的唯一性 被引量：1

参考文献1

同被引文献8

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一般MDP最优策略的唯一性被引量：1