非时齐无界报酬马氏决策规划

Non--stationary Markov decision programming with unbounded rewardes

下载PDF

导出

摘要论文讨论折扣因子依赖于(i,a)的非时齐马氏决策规划,提出了两组报酬无界的假设,证明了时齐正、负动态规划中的结论在这里都成立。最后讨论了此模型的最优策略性质。 The paper discusses the non-stationary Markov decision programming (abrev. MDP) with the discounted factor being of the form β_n(i, a). We present two assumptions about the unbounded rewardes and the similar results as in the stationary positive and negative dy- namic programming are all true here. Finally, we investigate the properties of the optimal policies.

作者胡奇英

机构地区西安电子科技大学管理工程与情报工程系

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 1992年第1期72-83,共12页 Journal of Xidian University

关键词马氏决策规划无界报酬最优策略 non-stationary MDP unbounded rewardes properties of the optimal policies

分类号 O221 [理学—运筹学与控制论]

引文网络
相关文献

1胡奇英.无界报酬折扣马氏决策规划中的逐次逼近法[J].数理统计与应用概率,1995,10(2):31-37.
2伍从斌.无界报酬折扣半马氏决策模型矩最优策略的结构[J].云南大学学报（自然科学版）,1990,12(4):299-306. 被引量：1
3伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.
4张升,张继红.无界报酬向量值折扣马氏决策规划[J].云南大学学报（自然科学版）,1993,15(3):200-207. 被引量：2
5胡奇英.状态部分可观察的无界报酬马氏决策规划[J].数理统计与应用概率,1998,13(3):79-86. 被引量：3
6邱德华.无界报酬非时齐折扣马氏决策模型[J].衡阳师专学报,1997,18(6):16-22.
7胡奇英.报酬无界的平均准则马氏决策过程(英文)[J].运筹学学报,2002,6(1):1-8.
8张昇,郭世贞.无界报酬非时齐折扣马氏决策模型[J].应用数学学报,1990,13(3):314-323. 被引量：2
9张升,张继红.无界报酬向量值折扣马氏决策规划──最优平稳策略及算法[J].云南大学学报（自然科学版）,1994,16(4):299-305.
10伍从斌,张继红.报酬无界的连续时间折扣马氏决策规划[J].应用概率统计,1997,13(1):1-10. 被引量：2

西安电子科技大学学报

1992年第1期

浏览历史

内容加载中请稍等...

非时齐无界报酬马氏决策规划

相关作者

相关机构

相关主题

浏览历史