POMDPs算法复杂度对比分析研究

Algorithm Complexity for POMDPs: A Comparative Study

下载PDF

导出

摘要部分可观察马尔可夫决策过程(Partially Observable Markov Decision Processes,POMDPs)是动态不确定环境下序贯决策的理想模型,但是现有算法都陷入"维数灾"和"历史灾"问题,造成理想的POMDPs模型无法在实际工程中得到应用.本文首先详细分析了POMDPs精确算法的复杂度,阐述问题求解的难点;然后比较分析现有基于点的离线算法和在线算法两类算法的算法思想和时间复杂度,指出两类算法的优缺点;最后简介POMDPs实际应用情况和未来的研究方向. Partially Observable Markov Decision Processes （POMDPs） offers a framework for sequential decision-making under uncertainty in stochastic domains. However, the conventional algorithms are plagued with two curses, dimensionality and history, which makes the ideal POMDPs model inapplicable in practical projects. This paper analyzes the complexity of exact algorithm of POMDPs, and presents the key points in solving this problem. Besides, the ideas and complexity of point-based offiine algorithms and online algorithms were analyzed respectively, and their advantages and disadvantages discussed. Finally, applications of POMDPs and research trends of POMDPs are pointed out.

作者仵博郑红燕冯延蓬

机构地区深圳职业技术学院教育技术与信息中心

出处《深圳职业技术学院学报》 CAS 2013年第1期3-10,共8页 Journal of Shenzhen Polytechnic

基金广东省自然科学基金资助项目(S2011040004769)

关键词部分可观察马尔可夫决策过程序贯决策信念状态空间在线算法维数灾 POMDPs sequential decision-making belief states space online algorithms dimensionalitycurses

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献35

1Littman M L. A tutorial on Partially Observable Markov Decision Processes [J]. Journal of Mathema- ticalPsychology, 2009, 53 (3): 119-125.
2Cao Xi-Ren, Guo Xian-ping. Partially Observable Markov Decision Processes With Reward Information: Basic Ideas and Models [J]. IEEE Transactions on Automatic Control, 2007, 52 (4): 677-681.
3Ross S, Pineau J, Chaibdraa B, et al. A Bayesian Approach for Learning and Planning in Partially Observable Markov Decision Processes [J]. Journal of Machine Learning Research, 2011, 12 : 1729-1770.
4Paquet S. Distributed Decision-Making and Task Coordination in Dynamic Uncertain and Real-Time Multiagent Environments [D]. Qu6bec: Laval Univer- sity, 2006: 56-92.
5Ross S, Pineau J, Paquet S, Algorithms for POMDPs [J] Intelligence Research, 2008, et al. Online Planning Journal of Artificial 32 (6): 663-704.
6Robert K. Point-Based POMDP Solvers; Survey and Comparative Analysis [D]. Montreal: McGill Univer- sity, 2010: 34-78.
7Roy N, Gordon G. Finding Approximate POMDPs Solutions Through Belief Compression [J. Journal of Artificiallntelligence Research, 2005, 23 (9): 1-40.
8Sondik E. The Optimal Control of Partially Observ- able Markov Decision Processes ED]. California: Stanford University, 1971 : 56-68.
9Pineau J, Gordon G, Thrun S. Anytime point-based approximations for large POMDPs[J]. Journal of Artifieial Intelligence Research, 2006, 27: 335-380.
10Washington, R. BI-POMDPs: bounded incremental partially observable Markov model planning [C] // Steel S, Alami R. Proceedings of the 4th European Conference on Planning. Toulouse: Springer, 1997. 440-451.

二级参考文献7

1孙明轩,王郸维,陈彭年.有限区间非线性系统的重复学习控制[J].中国科学：信息科学,2010,40(3):433-444. 被引量：12
2张雁冰,杭大明,马正新,曹志刚.基于再励学习的主动队列管理算法[J].软件学报,2004,15(7):1090-1098. 被引量：7
3DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
4王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
5WEI Qing-Lai,ZHANG Hua-Guang,LIU De-Rong,ZHAO Yan.An Optimal Control Scheme for a Class of Discrete-time Nonlinear Systems with Time Delays Using Adaptive Dynamic Programming[J].自动化学报,2010,36(1):121-129. 被引量：17
6徐昕,贺汉根.神经网络增强学习的梯度算法研究[J].计算机学报,2003,26(2):227-233. 被引量：22
7高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：300

共引文献20

1刘德荣,李宏亮,王鼎.基于数据的自学习优化控制:研究进展与展望[J].自动化学报,2013,39(11):1858-1870. 被引量：23
2陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
3谭拂晓,刘德荣,关新平,罗斌.基于微分对策理论的非线性控制回顾与展望[J].自动化学报,2014,40(1):1-15. 被引量：13
4仵博,冯延蓬,孟宪军,江建举,何国坤.大数据环境下的增强学习综述[J].深圳职业技术学院学报,2014,13(3):71-75. 被引量：1
5仵博,郑红燕,冯延蓬,陈鑫.一种基于模型的可分解贝叶斯在线强化学习[J].电子学报,2014,42(7):1429-1434. 被引量：2
6曹建平,王晖,夏友清,乔凤才,张鑫.基于LDA的双通道在线主题演化模型[J].自动化学报,2014,40(12):2877-2886. 被引量：16
7马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：15
8陈春晓,陈治亚,陈维亚.基于多智能体增强学习的公交驻站控制方法[J].计算机工程与应用,2015,51(17):8-13. 被引量：6
9严求真,孙明轩.非线性不确定系统准最优学习控制[J].自动化学报,2015,41(9):1659-1668. 被引量：7
10薛涛,刘龙.云计算中虚拟机资源自动配置技术的研究[J].计算机应用研究,2016,33(3):759-764. 被引量：12

1仵博,吴敏,佘锦华.基于点的POMDPs在线值迭代算法[J].软件学报,2013,24(1):25-36. 被引量：3
2仵博,吴敏.基于Monte Carlo粒子滤波的POMDPs在线算法[J].控制与决策,2013,28(6):925-929. 被引量：1
3仵博,吴敏,郑红燕,冯延蓬.基于信念重用的WSNs能量高效跟踪[J].传感器与微系统,2012,31(8):30-33.
4郑延斌,郭凌云,刘晶晶.多智能体系统分散式通信决策研究[J].计算机应用,2012,32(10):2875-2878. 被引量：3
5仵博,陈鑫,郑红燕,冯延蓬.基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法[J].电子与信息学报,2013,35(12):2901-2907. 被引量：1
6人工智能[J].中国学术期刊文摘,2007,13(20):9-9.
7冯延蓬,仵博,郑红燕,孟宪军.WSN中一种目标追踪在线节点调度算法[J].计算机工程,2012,38(11):96-99. 被引量：1
8肖国宝,严宣辉.一种动态不确定环境中机器人路径规划方法[J].计算机系统应用,2012,21(4):92-98. 被引量：5
9谢红胜,吴相林,陈阳,赵勇,李武.基于蚁群算法的序贯决策问题研究[J].系统仿真学报,2008,20(6):1444-1447. 被引量：1
10仵博,吴敏.基于后验信念聚类的在线规划算法[J].计算机工程,2013,39(4):214-218.

深圳职业技术学院学报

2013年第1期

浏览历史

内容加载中请稍等...

POMDPs算法复杂度对比分析研究

参考文献35

二级参考文献7

共引文献20

相关作者

相关机构

相关主题

浏览历史