基于ILCS的多机器人强化学习策略

Multi-robot Reinforcement Learning Strategy Based on ILCS

导出

摘要提出了一种基于改进学习分类器的多机器人强化学习方法。增强学习使机器人能发现一组用于指导其强化学习行为的规则。遗传算法则在现有的规则中淘汰掉较差的,并利用较优的种群规则产生出新的学习规则。规则合并能提高多机器人的并行强化学习效率,使多个机器人自主地学习到相互协作的最优策略。算法的分析和仿真表明,将改进的学习分类器用于多机器人的强化学习是有效的。 This paper proposes a multi-robots reinforcement learning method based on improved learning classifier system.The enhanced learning enables robots to discover a group rules for guiding their reinforcement leaning behavior.Genetic algorithm could eliminate worse ones in the existing rules and produce new learning rules with the superior population rules.The merged rules can increase multi-robots＇ learning efficiency in parallel,thus the multi-robots could learn to collaborate with the best strategy.The algorithm analysis and the simulation indicate that the improved learning classifier system used in the multi-robot reinforcement learning is feasible and effective.

作者邵杰杜丽娟杨静宇

机构地区商丘科技职业学院计算机系南京理工大学计算机学院

出处《通信技术》 2010年第4期220-222,共3页 Communications Technology

基金国家自然科学基金资助项目(批准号:60705020) 面向移动机器人环境感知的主动学习研究

关键词强化学习多机器人改进学习分类器遗传算法 reinforcement learning Multi-robot improved learning classifier system genetic algorithm

分类号 TN91 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1Kaelbling L P,Littman M L,Moore A W.Reinforcement Learning:A Survey[J].Journal of Artificial Intelligence Research,1996,4(02):237-285.
2沈晶,程晓北,刘海波,顾国昌,张国印.动态环境中的分层强化学习[J].控制理论与应用,2008,25(1):71-74. 被引量：5
3林琳,张飞.遗传算法在局域网中的并行实现[J].通信技术,2009,42(5):185-187. 被引量：1
4高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：300
5陈卫东,席裕庚,顾冬雷.自主机器人的强化学习研究进展[J].机器人,2001,23(4):379-384. 被引量：16
6Sette S,Wyns B,Boullart L.Comparing Learning Classifier Systems and Genetic Programming A Case Study[J].Engineering Application of Artificial Intelligence,2004(17):199-204.
7沈永欢梁在中.实用数学手册[M].北京:科学出版社,2004..

二级参考文献22

1江雷.基于并行遗传算法的弹性TSP研究[J].微电子学与计算机,2005,22(8):130-133. 被引量：10
2穆艳玲,李学武,高润泉.遗传算法解TSP问题的并行实现[J].北京联合大学学报,2006,20(2):40-43. 被引量：5
3Lin L J，Proc AAAI'91，1991年，781页
4Lin L J，From Animals to Animates:Int Conference on Simulation of Adaptive Behavior，1991年
5EXCELENTE-TOLEDO C B, JENNINGS N R. Using reinforcement learning to coordinate better[J]. Computational Intelligence, 2005, 21(3): 217 - 245
6BARTO A G, MAHADEVAN S. Recent advances in hierarchical reinforcement learning[J]. Discrete Event Dynamic Systems: Theory and Applications, 2003, 13(4): 41 - 77.
7SUTTON R S, PRECUP D, SINGH S P. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1): 181 - 211.
8PARRR. Hierarchical control and learning for markov decision processes[D]. Berkeley: University of California, 1998.
9DIETTERICH T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. J of Artificial Intelligence Research, 2000, 13(1): 227 - 303.
10PRECUP D. Temporal abstraction in reinforcement learning[D]. Amherst: University of Massachusetts, 2000.

共引文献330

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：11
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8谢云,杨宜民.全自主机器人足球系统的研究综述[J].机器人,2004,26(5):474-480. 被引量：21
9李冬梅,陈卫东,席裕庚.基于强化学习的多机器人合作行为获取[J].上海交通大学学报,2005,39(8):1331-1335. 被引量：4
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

1郭红艳,谷保平.移动互联网对高职学生学习行为影响的研究[J].福建电脑,2015,31(2):38-39. 被引量：7
2王昆,刘勃妮.基于自然梯度算法及其改进算法的盲源分离[J].科技资讯,2008,6(32):200-200. 被引量：1
3傅予力,谢胜利.盲信号提取的神经网络方法[J].武汉大学学报（理学版）,2003,49(1):117-120.
4张思源.浅析移动技术在非正式学习中的应用[J].中国教育技术装备,2014(3):30-31. 被引量：1
5李昊鹏,封自强,宋令阳.Femtocell小区选择问题研究[J].信息技术,2013,37(8):114-117.
6刘勇.分集技术及Pake接收机误码率的仿真[J].电子科技,2007,20(5):52-55.
7肖瑜,刘宏义.用支持向量机为学习过程建模[J].微电子学与计算机,2011,28(11):197-200.
8李霞,罗萍,罗雪晖,张基宏.模糊增强学习码书设计算法及其在图像编码中的应用[J].信号处理,2002,18(5):434-437.
9陈炳权,刘宏立.基于支持向量机与结构矩的车型识别实时鲁棒算法[J].晓庄学院自然科学学报,2010,33(4):14-18. 被引量：1
10李玲玲,丁明跃,周成平,彭晓明,张天序.一种基于提升小波变换的快速图像融合方法[J].小型微型计算机系统,2005,26(4):667-670. 被引量：28

通信技术

2010年第4期

浏览历史

内容加载中请稍等...

基于ILCS的多机器人强化学习策略

参考文献7

二级参考文献22

共引文献330

相关作者

相关机构

相关主题

浏览历史