一种基于模型的可分解贝叶斯在线强化学习被引量：2

Model-Based Factored Bayesian Online Reinforcement Learning

下载PDF

导出

摘要针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据先验知识和观察数据采用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的贝叶斯强化学习方法实现学习过程的快速收敛,从而达到在线学习的目的.仿真结果表明该算法能够满足实时系统性能的要求. Due to the enormous number of parameters and slow convergence which are the major obstacles for online learn- ing in model-based Bayesian reinforcement learning, the paper presents a model-based factored Bayesian reinforcement learning ap- proach. Firstly, factored representations are made to represent the dynamics with fewer parameters. Then, according to prior knowl- edge and observable data, this paper exploits model-based reinforcement learning to provide an elegant solution to the optimal explo- ration-exploitation tradeoff. Finally, a pointed-based Bayesian reinforcement learning approach is proposed to speed up the conver- gence to achieve online learning. The experimental results show that the proposed approach can approximate the underlying Bayesian reinforcement learning task well with guaranteed real-time performance.

作者仵博郑红燕冯延蓬陈鑫

机构地区深圳职业技术学院教育技术与信息中心中南大学信息科学与工程学院先进控制与智能自动化湖南省工程实验室

出处《电子学报》 EI CAS CSCD 北大核心 2014年第7期1429-1434,共6页 Acta Electronica Sinica

基金国家自然科学基金(No.61074058 No.60874042) 深圳市自然科学基金(No.JCYJ20120617134831736)

关键词马尔可夫决策过程贝叶斯强化学习动态贝叶斯网路 Markov decision processes Bayesian reinforcement learning dynamic Bayesian networks

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献18

1徐昕,沈栋,高岩青,王凯.基于马氏决策过程模型的动态系统学习控制:研究前沿与展望[J].自动化学报,2012,38(5):673-687. 被引量：21
2刘海涛,洪炳熔,朴松昊,王雪梅.不确定性环境下基于进化算法的强化学习[J].电子学报,2006,34(7):1356-1360. 被引量：12
3刘全,李瑾,傅启明,崔志明,伏玉琛.一种最大集合期望损失的多目标Sarsa(λ)算法[J].电子学报,2013,41(8):1469-1473. 被引量：3
4Ross S,Pineau J,Chaib-draa B,et al.A Bayesian approach for learning and planning in partially observable Markov decision processes[J].Journal of Machine Learning Research,2011,12(1):1729-1770.
5高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
6Doshi-VelezF,Pineau J,Roy N.Reinforcement learning with limited reinforcement:Using Bayes risk for active learning in POMDPs[J].Artificial Intelligence,2012,187-188(1):115-132.
7Poupart P,Vlassis N.Model-based Bayesian reinforcement learning in partially observable domains[A].Proceedings of the International Joint Conference on Autonomous Agents and Multi Agent Systems[C].New York:ACM Press,2008.1025-1032.
8Ross S,Pineau J.Model-based Bayesian reinforcement learning in large structured domains[A].Proceedings of the 24th conference annual conference on uncertainty in artificial intelligence[C].Cambridge,MA:AUAI Press,2008.476-483.
9Poupart P,Vlassis N,Hoey J,et al.An analytic solution to discrete Bayesian reinforcement learning[A].Proceedings of the 23rd international conference on Machine learning[C].New York:ACM Press,2006.697-704.
10Duff M.Optimal learning:Computational procedures for Bayes-adaptive Markov decision processes[D].USA:University of Massassachusetts Amherst,2002.

二级参考文献78

1孙明轩,王郸维,陈彭年.有限区间非线性系统的重复学习控制[J].中国科学：信息科学,2010,40(3):433-444. 被引量：12
2张雁冰,杭大明,马正新,曹志刚.基于再励学习的主动队列管理算法[J].软件学报,2004,15(7):1090-1098. 被引量：7
3DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
4王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
5周兰凤,洪炳熔.用基于知识的遗传算法实现移动机器人路径规划[J].电子学报,2006,34(5):911-914. 被引量：27
6秦斌,吴敏,王欣,阳春华.基于多智能体强化学习的焦炉集气管压力多级协调控制[J].电子学报,2006,34(10):1847-1851. 被引量：3
7郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
8V Vapnik. The Nature of Statistical Learning Theory[M]. New York:Springer Verlag, 1995.
9R Goto, H Matsuo. State generalization method with support vector machines in reinforcement learning [ J ]. Systems and Computers in Japan,2006,37(9):77 - 86.
10Xuesong Wang, Xilan Tian, Yuhu Cheng. Value approximation with least squares support vector machine in reinforcement learning system[ J ]. Joturnal of Computational and Theoretical Nanoscience, 2007,4( 7/8 ) : 1290 - 1294.

共引文献72

1刘卫朋,邢关生,孙鹤旭,张慧.一种递归神经网络的学习型电梯群控派梯算法[J].河北工业大学学报,2013,42(3):7-13. 被引量：3
2朱大奇,陈楚瑶,颜明重.基于CA-CMAC的快速传感器故障诊断方法[J].电子学报,2008,36(8):1646-1650. 被引量：8
3王云,韩伟.一种基于划分和集成思想的多智能体强化学习[J].南京师范大学学报（工程技术版）,2008,8(4):59-62. 被引量：1
4王云,韩伟.对称协调博弈问题的多智能体强化学习[J].计算机工程与应用,2008,44(36):230-233. 被引量：2
5王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
6韩伟.效用驱动的Markov强化学习[J].计算机工程与应用,2009,45(4):42-44.
7程玉虎,高阳,王雪松.基于概率型支持向量分类机的Q学习[J].中国矿业大学学报,2010,39(3):408-413. 被引量：1
8鲁智勇,张权,张希,唐朝京.等效分组级联BP网络模型及其应用[J].电子学报,2010,38(6):1349-1354. 被引量：3
9赵二虎,阳小龙,彭云峰,隆克平.CPSM:一种增强IP网络生存性的客户端主动服务漂移模型[J].电子学报,2010,38(9):2134-2139. 被引量：10
10程显毅,朱倩.一种改进的强化学习方法在RoboCup中应用研究[J].广西师范大学学报（自然科学版）,2010,28(3):99-103. 被引量：2

同被引文献6

1王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
2赵凤飞,覃征.一种多动机强化学习框架[J].计算机研究与发展,2013,50(2):240-247. 被引量：6
3陈学松,刘富春.一类非线性动态系统基于强化学习的最优控制[J].控制与决策,2013,28(12):1889-1893. 被引量：9
4朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
5庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：506
6罗大鹏,罗琛,魏龙生,韩家宝,王勇,马丽.基于在线随机蕨分类器的实时视觉感知系统[J].电子学报,2016,44(5):1139-1148. 被引量：5

引证文献2

1朱斐,刘全,傅启明,陈冬火,王辉,伏玉琛.一种不稳定环境下的策略搜索及迁移方法[J].电子学报,2017,45(2):257-266. 被引量：3
2魏波,吴瑞峰,张文生,吕敬钦,王莹莹,夏学文.具有双重稀疏机制的在线学习算法[J].电子学报,2019,47(10):2202-2210. 被引量：1

二级引证文献4

1张柏开,朱卫纲.对多功能相控阵雷达干扰决策方法综述[J].兵器装备工程学报,2019,0(9):178-183. 被引量：9
2何立,沈亮,李辉,王壮,唐文泉.强化学习中的策略重用:研究进展[J].系统工程与电子技术,2022,44(3):884-899. 被引量：6
3朱斐,葛洋洋,凌兴宏,刘全.基于受限MDP的无模型安全强化学习方法[J].软件学报,2022,33(8):3086-3102. 被引量：4
4杨予昊,孙晶明,张强,晏媛,王众.面向雷达目标识别的一种在线迁移学习框架[J].现代雷达,2025,47(5):16-20. 被引量：1

1Deng Yong & Shi Wenkang School of Electronics & Information Technology, Shanghai Jiaotong University, Shanghai 200030, P. R. China.Experts' Knowledge Fusion in Model-Based Diagnosis Based on Bayes Networks[J].Journal of Systems Engineering and Electronics,2003,14(2):25-30. 被引量：5
2王庆福.谈数据仓库与数据挖掘教学研究[J].中国科教创新导刊,2012(28):179-179. 被引量：1
3周杰,顾明亮,张宁,杨帆.基于动态贝叶斯网络的汉语方言辨识[J].计算机技术与发展,2012,22(11):179-182.
4魏振春,徐祥伟,冯琳,丁蓓.基于Q学习和规划的传感器节点任务调度算法[J].模式识别与人工智能,2016,29(11):1028-1036. 被引量：5
5赵昀,陈庆伟,胡维礼.一种基于信息熵的强化学习算法[J].系统工程与电子技术,2010,32(5):1043-1046. 被引量：4
6傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J].软件学报,2013,24(11):2676-2686. 被引量：4
7张文志,吕恬生.强化学习理论在机器人应用中的几个关键问题探讨[J].计算机工程与应用,2004,40(4):69-71. 被引量：2
8程美英,钱乾,熊伟清,周鸣争.连续空间二元粒子群算法理论研究综述[J].计算机应用研究,2013,30(4):981-985. 被引量：2
9李伟,许家珆.含群学习的免疫网络优化算法[J].计算机与现代化,2010(1):23-25.
10李桂梅,高麟.人事档案管理和信息处理系统模型研究[J].西安档案,2005(5):31-34.

电子学报

2014年第7期

浏览历史

内容加载中请稍等...

一种基于模型的可分解贝叶斯在线强化学习被引量：2

参考文献18

二级参考文献78

共引文献72

同被引文献6

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于模型的可分解贝叶斯在线强化学习 被引量：2

参考文献18

二级参考文献78

共引文献72

同被引文献6

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于模型的可分解贝叶斯在线强化学习被引量：2