进化强化学习及其在机器人路径跟踪中的应用被引量：6

Evolutionary reinforcement learning and its application in robot path tracking

导出

摘要研究了一种基于自适应启发评价(AHC)强化学习的移动机器人路径跟踪控制方法.AHC的评价单元(ACE)采用多层前向神经网络来实现,将TD(λ)算法和梯度下降法相结合来更新神经网络的权值.AHC的动作选择单元(ASE)由遗传算法优化的模糊推理系统(FIS)构成.ACE网络的输出构成二次强化信号,用于指导ASE的学习.最后将所提出的算法应用于移动机器人的行为学习,较好地解决了机器人的复杂路径跟踪问题. The control policy of robot path-tracking based on adaptive heuristic ctritic（AHC） reinforcement learning is researched. The adaptive critic element（ACE）of AHC is composed of a multi-layer feedforward network. TD（2） algorithm and gradient descent algorithm are integrated, which is used to update the weights of network. The output of the ACE generates the secondary reinforcement signal which can direct the learning of the action select element （ASE）. ASE can be implemented by the fuzzy inference system （FIS） which is optimized by using the genetic algorithms. Finally, the method is used for learning the robot behavior. The experiment shows that the scheme can effectively solve the problem of the robot path-tracking.

作者段勇崔宝侠徐心和

机构地区沈阳工业大学信息科学与工程学院东北大学信息科学与工程学院

出处《控制与决策》 EI CSCD 北大核心 2009年第4期532-536,541,共6页 Control and Decision

基金国家自然科学基金项目(60475036)

关键词强化学习自适应启发评价遗传算法路径跟踪 Reinforcement learning, AHC Genetic algorithm Path tracking

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1ZHU Zhong-xiang,CHEN Jun,YOSHIDA Toyofumi,TORISU Ryo,SONG Zheng-he,MAO En-rong.Path tracking control of autonomous agricultural mobile robots[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2007,8(10):1596-1603. 被引量：15
2许巍丽,孙茂相.全方位移动机器人鲁棒控制[J].沈阳工业大学学报,2007,29(3):312-316. 被引量：2
3石鸿雁,孙昌志,陈冬阳,安跃军.动态环境下自主移动机器人的导航复杂性[J].沈阳工业大学学报,2006,28(5):534-537. 被引量：3

二级参考文献25

1姜勇,董再励,孙茂相.移动机器人数学模型近似线性化及反馈镇定[J].控制工程,2005,12(1):90-93. 被引量：7
2石鸿雁,孙昌志.一种基于混沌优化算法的机器人路径规划方法[J].机器人,2005,27(2):152-157. 被引量：14
3郝红伟.Matlab6实例教程[M].北京:中国电力出版社,2002:91-111.
4Islam M M,Murase K.Chaotic dynamics of a behavior-based miniature mobile robot:effects of environment and control structure[J ].Neural Networks,2005(18):123-144.
5Wolf A,Swift J B,Harry L,et al.Determining Lyapunov exponents from a time series[J].Physica D:Nonlinear Phenomena,1985,16(3):285-317.
6Doyle J C,Glover K,Khargonekar P P,et al.State space solutions to standard H2 and H∞ control problems[J].IEEE Trans Auto Control,1989,34:831 -847.
7Francis B A.A course in H∞ control theory[M].Berlin:Springer-Verlag,1987.
8谢学书,钟宜生.H∞控制理论[M].北京:清华大学出版社,1994.
9Kimura H.Chain-scattering representation,J-lossless factorization and H∞ control[J].Journal of Mathematical Systems,Estimation and Control,1995 (5):204 -255.
10Tadmor G.Worst-case design in the time domain:the maximum principle and the standard H∞ problem[J].Signal Processing,1989,28:1190-1208.

共引文献17

1马悦琦,迟瑞娟,赵彦涛,班超,苏童,李峥嵘.基于模糊控制的插秧机LQR曲线路径跟踪控制器优化方法[J].农业机械学报,2023,54(S01):1-8. 被引量：10
2朱忠祥,宋正河,谢斌,陈军,武田纯一,毛恩荣.拖拉机队列自动控制系统[J].农业机械学报,2009,40(8):149-154. 被引量：16
3石鸿雁,刘万里,陈忠菊.移动机器人导航中的混沌识别[J].沈阳工业大学学报,2009,31(4):436-440.
4黄沛琛,罗锡文,张智刚.改进纯追踪模型的农业机械地头转向控制方法[J].计算机工程与应用,2010,46(21):216-219. 被引量：52
5苗玉彬,王明军.农业车辆导航系统中路径规划策略的研究进展[J].农机化研究,2011,33(5):12-15. 被引量：11
6芦帅,马蓉,安光辉.基于GIS/GPS拖拉机播种作业路径规划系统的设计与研究[J].石河子大学学报（自然科学版）,2011,29(6):767-771. 被引量：9
7李逃昌,胡静涛,高雷,刘晓光,白晓平.一种与行驶速度无关的农机路径跟踪方法[J].农业机械学报,2014,45(2):59-65. 被引量：25
8李逃昌,胡静涛,高雷.基于级联式控制策略的农业机械鲁棒自适应路径跟踪控制[J].机器人,2014,36(2):241-249. 被引量：14
9熊中刚,叶振环,贺娟,陈连贵,令狐金卿.基于免疫模糊PID的小型农业机械路径智能跟踪控制[J].机器人,2015,37(2):212-223. 被引量：40
10马书根,赵珈靓,任超.基于无源性的全方位移动机器人自抗扰控制[J].控制与决策,2018,33(6):1081-1086. 被引量：11

同被引文献59

1王皓,高阳.元博弈平衡和多Agent强化学习的MetaQ算法[J].计算机研究与发展,2006,43(z1):137-141. 被引量：2
2曾智刚.基于强化学习的神经网络在船模速度控制中的应用[J].计算机时代,2009(4):24-25. 被引量：1
3冯青春,郑文刚,姜凯,邱权,郭瑞.高架栽培草莓采摘机器人系统设计[J].农机化研究,2012,34(7):122-126. 被引量：32
4范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
5刘新宇,洪炳鎔.基于BDI框架的多Agent动态协作模型与应用研究[J].计算机研究与发展,2002,39(7):797-801. 被引量：4
6任燚,陈宗海.基于强化学习算法的多机器人系统的冲突消解策略[J].控制与决策,2006,21(4):430-434. 被引量：7
7段萍,张建畅,丁承君,张明路.基于模糊遗传算法的移动机器人墙跟踪控制策略[J].控制理论与应用,2006,23(3):416-420. 被引量：8
8周浦城,洪炳镕,黄庆成.一种新颖的多agent强化学习方法[J].电子学报,2006,34(8):1488-1491. 被引量：8
9崔玉洁,张祖立,白晓虎.采摘机器人的研究进展与现状分析[J].农机化研究,2007,29(2):4-7. 被引量：63
10郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13

引证文献6

1刘博,雷汝海.异质Agent间的知识迁移强化学习[J].中国科技论文在线,2010,5(2):120-123. 被引量：1
2王丽杨,刘治,赵之光,章云.一种小样本支持向量机控制器在两足机器人步态控制的研究[J].控制理论与应用,2011,28(8):1133-1139. 被引量：4
3吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
4郜园园,朱凡,宋洪军.进化操作行为学习模型及在移动机器人避障上的应用[J].计算机应用,2013,33(8):2283-2288. 被引量：4
5方小菊.基于强化学习的采摘机器人采摘臂避碰设计[J].农机化研究,2017,39(11):198-202. 被引量：4
6李同英,朱洪波.分布式包装实时数据库ARS算法应用[J].包装工程,2017,38(11):88-91. 被引量：3

二级引证文献38

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：13
2杨娅.信息科技在知识迁移过程中的角色定位[J].河南图书馆学刊,2011,31(5):105-106.
3A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
4付根平,杨宜民,陈建平,李静.基于ZMP误差校正的仿人机器人步行控制[J].机器人,2013,35(1):39-44. 被引量：18
5陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
6朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：8
7赛吉尔呼,戴盛芳,董爱华,苗清影.基于SVM和RBFN的汽车主动降噪系统传感器故障诊断[J].传感技术学报,2014,27(4):512-517. 被引量：9
8姚毅,陈光建,贾金玲.基于模糊神经网络算法的机器人路径规划研究[J].四川理工学院学报（自然科学版）,2014,27(6):30-33. 被引量：11
9郭凌云.多Agent强化学习方法与应用[J].福建电脑,2015,31(5):92-93.
10雷默涵,杨萍.改进的CE-Q算法用于多Agent觅食的研究[J].机械设计,2015,32(6):1-4.

1郜园园,朱凡,宋洪军.进化操作行为学习模型及在移动机器人避障上的应用[J].计算机应用,2013,33(8):2283-2288. 被引量：4
2蔡文澜,王俊生,税海涛,马宏绪,黄茜薇.基于增强学习的无人直升机姿态控制器设计[J].弹箭与制导学报,2008,28(2):73-76. 被引量：1
3张培艳,吕恬生.基于增强学习的关节型机器人动态操作任务运动规划[J].系统仿真学报,2006,18(9):2537-2540.
4冷平,维维.智创未来:九阵福云计算平台(AHC)[J].内江科技,2013,34(9):134-134.
5张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：94
6洪炳熔,刘新宇.基于视觉的足球机器人系统[J].计算机应用研究,2001,18(1):1-3. 被引量：29
7郭红霞,吴捷,刘永强,王春茹.基于强化学习算法的静止同步补偿电压控制器[J].电网技术,2004,28(19):9-13. 被引量：25
8张文柱,邵丽娜.异构无线网络中基于强化学习的频谱管理算法[J].西安电子科技大学学报,2011,38(4):32-37. 被引量：1
9郭红霞,吴捷,王春茹.基于强化学习的模型参考自适应控制[J].控制理论与应用,2005,22(2):291-294. 被引量：6
10栗红生,刘莹.复杂路径下机器人路径规划优化方法仿真[J].计算机仿真,2014,31(1):407-411. 被引量：14

控制与决策

2009年第4期

浏览历史

内容加载中请稍等...

进化强化学习及其在机器人路径跟踪中的应用被引量：6

参考文献3

二级参考文献25

共引文献17

同被引文献59

引证文献6

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

进化强化学习及其在机器人路径跟踪中的应用 被引量：6

参考文献3

二级参考文献25

共引文献17

同被引文献59

引证文献6

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

进化强化学习及其在机器人路径跟踪中的应用被引量：6