利用无环状态路径加速强化学习收敛

Speeding up reinforcement learning convergence with acyclic state trajectory

下载PDF

导出

摘要在强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节中每个状态到达目标状态的无环状态路径,使得Agent可以沿最短无环路径逆序地传播当前更新的值函数,实现了Agent访问1个状态动作转换对可以更新1批值函数,从而加快学习收敛速度。从实验对比结果看,该方法可显著地加速学习收敛,缩短学习时间。 In reinforcement learning, only one item value function can be refined when Agent visits one state-action transition, which makes the convergence of learning being very slow. An approach is proposed to speed up reinforcement learning convergence by using acyclic state trajectory. By discovering the acyclic state trajectory of each state to the goal state form training episodes, the value function Agent currently refined can be propagated back along the shortest acyclic state trajectory, which makes a batch of value functions can be refined when Agent visits one state-action transition. So the convergence of reinforcement learning is sped up. From the comparisons of experiment, this approach can significantly speed up learning convergence and shorten learning time.

作者宋炯

机构地区云南交通职业技术学院

出处《微计算机信息》 2011年第12期151-154,共4页 Control & Automation

关键词强化学习值函数加速收敛训练情节无环状态路径 reinforcement learning value function speeding up convergence episode acyclic state trajectory

分类号 O234 [理学—运筹学与控制论]

引文网络
相关文献

参考文献8

1T.M.Mitchell. Machine Learning. NewYork: McGraw-Hill, 1997.
2L.P.Kaelbling. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 1996, Vol.4:237.
3R.S.Sutton, A.G.Barto. Reinforcement Learning: An Introduction. London :MIT Press,1998.
4S.Girgin, F.Polat. Improving reinforcement learning by using sequence trees. Machine Learning, 2010, Vol. 4:871.
5T.G.Dietterich, Hierarchical Reinforcement Learning with the MAXQ Value Fuction decomposition. Journal od Artificial Intelligence Research,2000, Vol. 13:227.
6T.Goto, N.Homma, M.Yoshizawa, A phased reinforcement learning algorithm for complex control problems. Artificial Life and Robotics, 2007, 11(2): 190.
7Fernando Fernandez, Daniel Borrajo, Two steps reinforcement Learning, International Journal of Intelligent Systems, 2008, Vol. 23:213.
8王晓勇.基于遗传算法和神经网络的故障诊断研究[J].微计算机信息,2011,27(2):219-220. 被引量：5

二级参考文献9

1雷英杰,张善文等.Matalab遗传算法工具箱及应用[M].西安:西安电子科技大学出版社,2004.
2刘海亮,熊静琪.基于BP神经网络液压制动故障诊断研究[J].微计算机信息,2007,23(02S):186-187. 被引量：15
3梁宇宏,张欣.对遗传算法的轮盘赌选择方式的改进[J].信息技术,2009,33(12):127-129. 被引量：26
4杨伟,顾明星,彭静萍.证据理论在电机故障诊断中的应用[J].电力系统保护与控制,2010,38(2):64-67. 被引量：28
5胡胜利,钱旭,钟峰.基于遗传算法和人工神经网络的煤层厚度预测[J].中国煤炭,2010,36(2):69-71. 被引量：10
6李伟奖,马邕文.基于遗传算法和BP网络的造纸废水处理预测研究[J].中国造纸学报,2010,25(1):67-71. 被引量：10
7韩万林,张幼蒂,李梁.地震多参数BP神经网络预测煤层厚度[J].煤田地质与勘探,2001,29(4):53-54. 被引量：2
8史永胜,宋云雪.基于自组织映射网络的故障诊断推理方法研究[J].飞机设计,2002,22(4):30-32. 被引量：3
9牛小玲,刘丽俊,马彦超.基于神经网络风机监测诊断系统的设计[J].煤矿机械,2003,24(11):121-122. 被引量：2

共引文献4

1王一平,赵哲峰.用遗传算法改进HMM的语音识别算法[J].科技创新与生产力,2011(6):84-85.
2雷美艳,欧阳昌华,朱俊杰.一种新型双闭环三相PWM整流器的仿真研究[J].重庆科技学院学报（自然科学版）,2011,13(5):133-135.
3雷美艳,欧阳昌华,朱俊杰.一种新型的双闭环三相PWM整流器仿真分析[J].吉首大学学报（自然科学版）,2011,32(3):48-50.
4刘建,闫仁武.基于遗传优化RBF神经网络的声纹识别研究[J].信息技术,2012,36(5):168-170. 被引量：4

1吴沧浦,刘念泉.基于最小最大逼近强化学习的误差分析[J].控制与决策,2000,15(2):193-196.
2周云龙,张学清,张松林.基于希尔伯特-黄变换和隐马尔可夫模型的气液两相流流型识别方法[J].仪器仪表学报,2009,30(7):1512-1517. 被引量：11
3黄庆,张雷.带有偏差神经元的内回归神经网络在旋转机械故障诊断中的应用[J].汽轮机技术,2004,46(4):247-249.
4丁宇新,沈雪勤.基于能量密度的小波神经网络[J].计算机学报,1997,20(9):832-838. 被引量：28
5黄庆,张雷.带有偏差神经元的内回归神经网络在旋转机械故障诊断中的应用[J].动力工程,2004,24(4):552-556. 被引量：1
6邹高峰,王正欧.基于回归神经网络的非线性时变系统辨识[J].控制与决策,2002,17(5):517-521. 被引量：9
7Rocking Shell Chair摇椅[J].新潮电子,2009(4):232-232.
8孙斌,周云龙,向新星,窦华荣.基于经验模式分解和概率神经网络的气液两相流识别[J].中国电机工程学报,2007,27(17):72-77. 被引量：15
9杨秋贵,张杰,张素贞.神经网络自调节变尺度算法及其用于聚酯生产工况预测[J].华东理工大学学报（自然科学版）,1997,23(1):89-94. 被引量：2
10张友民,戴冠中,张洪才.基于U－D分解推广卡尔曼滤波的神经网络学习算法[J].控制理论与应用,1996,13(2):235-241. 被引量：2

微计算机信息

2011年第12期

浏览历史

内容加载中请稍等...

利用无环状态路径加速强化学习收敛

参考文献8

二级参考文献9

共引文献4

相关作者

相关机构

相关主题

浏览历史