基于TD(λ)的自然梯度强化学习算法被引量：2

Natural Gradient Reinforcement Learning Algorithm with TD(λ)

下载PDF

导出

摘要近年来强化学习中的策略梯度方法以其良好的收敛性能吸引了广泛的关注。研究了平均模型中的自然梯度算法,针对现有算法估计梯度时效率较低的问题,在梯度估计的值函数逼近中采用了TD(λ)方法。TD(λ)中的资格迹使学习经验的传播更加高效,从而能够降低梯度估计的方差,提升算法的收敛速度。车杆平衡系统仿真实验验证了所提算法的有效性。 In recent years,policy gradient methods arouse extensive interests in reinforcement learning with its excellent convergence property.Natural gradient algorithms were investigated in this paper.To resolve the problem of low efficiency when estimating the gradient in present algorithms,TD（λ） method was used to approximate the value functions when estimating the gradient.The eligibility traces in TD（λ） make the propagation of learning experience more efficient.As a result,the variance in gradient estimation can be decreased and the convergence speed can be improved.The simulation experiment in cart-pole balancing system demonstrates the effectiveness of the algorithm.

作者陈圣磊谷瑞军陈耿薛晖

机构地区南京审计学院信息科学学院东南大学计算机科学与工程学院

出处《计算机科学》 CSCD 北大核心 2010年第12期186-189,共4页 Computer Science

基金国家自然科学基金项目(70971067 60905002) 江苏省高校自然科学重大基础研究项目(08KJA520001) 江苏省六大人才高峰项目(2007148)资助

关键词策略梯度自然梯度 TD(λ) 资格迹 Policy gradient Natural gradient TD（λ） Eligibility trace

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150. 被引量：3
2周文云,刘全,李志涛.一种大规模离散空间中的高斯强化学习方法[J].计算机科学,2009,36(8):247-249. 被引量：1
3徐昕,贺汉根.神经网络增强学习的梯度算法研究[J].计算机学报,2003,26(2):227-233. 被引量：22
4王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
5王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6

二级参考文献80

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
2Sutton R S, Barto A G. Reinforcement Learning: an Introduction [M]. Cambridge: The MIT Press, 1998.
3Driessens K. Relational Reinforcement Learning [D]. Leuven, Belgium:Department of Computer Science, K. U. Leuven, May 2004.
4Rasmussen C E , Kuss M. Gaussian processes in reinforcement learning[C]// Advances in Neural Information Processing Systems. vol16,MIT Press.
5Driessens K, Ramon J, Gartner T. Graph kernels and Gaussian processes for relational reinforcement leaming[J]. Mach Learn, 2006,64 : 91-119.
6Dzeroski S, Raedt L D, Blockeel H. Relational Reinforcement Leaming[C]//Shavlik J, eds. Proceedings ICML' 98. Berlin: Morgan Kaufmann, 2003 : 136-143.
7Kaelbling L P, Littman M L, Moore A W. Reinforcement Learning: A Survey [J]. Journal of Artifical Intelligence Research 1996,4:237-285.
8Gartner T, Driessens K, Ramon J. Graph kernels and Gaussian processes for relational reinforcement learning[C]//Proceeding of the International Conference on Inductive Logic Programming (ILP'03). 2003.
9Mackay D. Introduction to Gaussian processes [OL]. http :// wol. ra. phy. cam. ac. uk/mackay.
10Chu Wei, Ghahramani Z. Gaussian Processes for Ordinal Regression[J]. Journal of Machine Learning Research, 2005,6 : 1019-1041.

共引文献34

1董沛武,刘微微,娄岩峰.基于遗传算法和神经网络的企业核心竞争力评价模型研究[J].兵工学报,2009,30(S1):114-118. 被引量：6
2王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
3周昌能,余雪丽.基于BP网络的权值更新快速收敛算法[J].计算机应用,2006,26(8):1940-1942. 被引量：6
4王雪松,程玉虎,易建强,王炜强.基于Elman网络的非线性系统增强式学习控制[J].中国矿业大学学报,2006,35(5):653-657. 被引量：8
5陈圣磊,吴慧中,肖亮,朱耀琴.协同设计任务调度的多步Q学习算法[J].计算机辅助设计与图形学学报,2007,19(3):398-402. 被引量：11
6王惠,符策,谢益武,许瑞雪,杨小佳.面向伙伴选择的模糊Markov博弈控制及仿真研究[J].系统仿真学报,2007,19(15):3572-3576. 被引量：1
7王俊丽,胡彧.基于神经网络学习机制的应急决策支持中间件模型[J].山西电子技术,2007(4):57-58.
8马军,殷保群.基于POMDP模型的机器人行动的仿真优化[J].系统仿真学报,2008,20(21):5903-5906.
9陈圣磊,李卫红,姚娟.基于最小二乘的Q(λ)强化学习算法[J].计算机工程与应用,2008,44(34):47-50.
10蚩志锋,闫珍珠,黄彪.基于遗传算法与BP算法的水质评价模型[J].重庆科技学院学报（自然科学版）,2009,11(1):122-124. 被引量：8

同被引文献24

1王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：4
2童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
3张汝波,施洋.基于模糊Q学习的多机器人系统研究[J].哈尔滨工程大学学报,2005,26(4):477-481. 被引量：4
4郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
5Desouky S F, Schwartz H M. Schwartz. Q (A)-learn- ing fuzzy logic controller for a multi-robot system [ C ]// IEEE International Conference on Systems, Man and Cybernetics. Istanbul, Turkey, 2010:4075-4080.
6Hu Zhaohui, Zhao Dongbiao. Reinforcement learning for multi-agent patrol policy [ C ]//The 9th IEEE Inter- national Conference on Cognitive Informatics. Beijing, China, 2010:530 - 535.
7Martin J A H, de Lope J, Maravall D. Robust high per- formance reinforcement learning through weighted k-nearest neighbors [ J ]. Neurocomputing, 2011, 74 (8) : 1251 -1259.
8A k-NN based perception scheme for reinforcement learning [ J ]. Lecture notes in Computer Science, 2007,4739 : 138 - 145.
9Martin J A H, de Lope J. Ex < a > : an effective algo- rithm for continuous actions reinforcement learning problems [ C ]//The 35th IEEE Annual Conf on Indus- trial Electronics Society. Oporto, Portugal, 2009: 2063 - 2068.
10Martin J A H, de Lope J, Maravall D. The kNN-TD reinforcement learning algorithm[J]. Lecture Notes in Computer Science, 2009, 5901:305-314.

引证文献2

1杨月全,韩飞,金露,倪春波,曹志强,张天平.基于局部加权k近邻的多机器人系统异步互增强学习[J].东南大学学报（自然科学版）,2012,42(A01):208-211. 被引量：2
2邱虹坤,王浩宇,王亚杰.Q学习实现亚马逊棋评估函数自调参[J].重庆理工大学学报（自然科学）,2022,36(12):136-141. 被引量：1

二级引证文献3

1倪春波,孔一斐,杨月全,曹志强,张天平.粒子群优化及其在多机器人系统中的应用展望[J].中南大学学报（自然科学版）,2013,44(S2):126-132. 被引量：3
2杨春静,倪健,游龙泰,冷新,王文平,董晓旭,张欣,杜雪莹,尹兴斌.基于局部加权回归实现五味子醇提结果预测[J].现代中药研究与实践,2017,31(6):44-47.
3徐志凡,李媛,王静文,李卓轩,曹一丁.一种Q学习制作海克斯棋开局库方法[J].南通大学学报(自然科学版),2025,24(2):22-28.

1谭骏,刘辉.一种动量因子自适应自然梯度的盲分离方法[J].计算机工程与应用,2012,48(24):127-129.
2李拥军,江宇闻,朱思铭.基于最短路径和自然梯度的过完备ICA算法[J].计算机工程,2006,32(15):16-18. 被引量：4
3王毅,齐华,郝重阳.一种基于独立分量分析的模糊图像盲分离算法[J].计算机应用,2006,26(10):2366-2368. 被引量：8
4李思怡,王永威,黄琰,陈惠娟.一种基于自然梯度的两步盲源分离算法[J].微电子学与计算机,2013,30(6):169-172. 被引量：4
5张明键,韦岗.基于自然梯度的后非线性盲解卷算法[J].数据采集与处理,2005,20(1):54-58.
6孙羽,张汝波,徐东.强化学习中资格迹的作用[J].计算机工程,2002,28(5):128-129. 被引量：1
7郭水旺,吕凤英,陶玉福.欠通道混叠语音盲分离算法[J].河南科学,2010,28(4):440-443. 被引量：1
8刘智斌,曾晓勤,徐彦,禹继国.采用资格迹的神经网络学习控制算法[J].控制理论与应用,2015,32(7):887-894. 被引量：4
9傅启明,刘全,孙洪坤,高龙,李瑾,王辉.一种二阶TD Error快速Q(λ)算法[J].模式识别与人工智能,2013,26(3):282-292. 被引量：5
10王雪松,程玉虎,易建强,王炜强.基于Elman网络的非线性系统增强式学习控制[J].中国矿业大学学报,2006,35(5):653-657. 被引量：8

计算机科学

2010年第12期

浏览历史

内容加载中请稍等...

基于TD(λ)的自然梯度强化学习算法被引量：2

参考文献5

二级参考文献80

共引文献34

同被引文献24

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于TD(λ)的自然梯度强化学习算法 被引量：2

参考文献5

二级参考文献80

共引文献34

同被引文献24

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于TD(λ)的自然梯度强化学习算法被引量：2