分层强化学习在足球机器人中的应用被引量：2

The Application of Hierarchical Reinforcement Learning to the Robot Football

下载PDF

导出

摘要提出将MaxQ分层增强式学习应用于足球机器人进攻策略学习,提高了强化学习的性能。通过在Robocup中的应用和实验,得出基于MaxQ分层强化学习的效果要优于传统的强化学习方法。 In this paper, MaxQ reinforcement learning is applied in the robot football strategic learning, which has strengthened the performance of the enhanced learning. Through the application and experiment in the Robocup, the effects based on the MaxQ reinforcement learning is superior to the traditional reinforcement learning method.

作者邢宇明白振兴

机构地区空军工程大学工程学院

出处《微计算机信息》北大核心 2008年第32期231-233,共3页 Control & Automation

关键词强化学习 Q_learning算法 MaxQ算法 ROBOCUP Reinforcement learning Q_learning algorithm MaxQ algorithm Robocup

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1Piao Songhao, Hang Bingrong. Fast Reinforcement earning Appro-ach to Cooperative Behavior Acquisition in Multi-agent System.Proceedings of the 2002 IEEE/RSJ Intl. Conference on IntelligentRobots and Systems, Lausanne, Switzerland. 2002-10:871- 875
2洪炳镕.机器人足球技术的发展战略[A].中国人工智能学会第9届全国学术年会论文集[C].2001.
3STONE P , VELOSO M. Muhi2agent systems : a survey from a machine learning perspective [ R] . CMU CS technical re2 port , No. CMU - CS - 97 - 193.Server. Proc. of IROS Workshop on Robocup, 1996
4Nobuo S, Akira H. A Muhiagent Reinforcement Learning Algorithm Using Extended Optimal Response. Proc. of the First International Joint Conference on Autonomous Agents & Multiagent Systems,Bologna, Italy, 2002-07:370- 377
5Hu Junling, Michael W P. Muhiagent Reinforcement Learning: Theoretical Framework and an Algorithm. Proc.15th International Conf. on Machine Learning 1998:242- 250
6Caroline C, Craig B. The Dynamics of Reinforcement Learning in Cooperative Muhiagent Systems. In Proc. Workshop on Multi-agent Learning, 1997:602- 608
7刘金琨,尔联洁.多智能体技术应用综述[J].控制与决策,2001,16(2):133-140. 被引量：112
8刘金琨,王树青.多智能体控制系统的设计与实现[J].控制理论与应用,1999,16(4):580-582. 被引量：28
9G Cohen. Concurrent system to resolve real-time conflicts in multi-robot sytems [J].Engineering Application Artificial Intelligence. 1995,8(2):169-175
10罗青,李智军,吕恬生.复杂环境中的多智能体强化学习[J].上海交通大学学报,2002,36(3):302-305. 被引量：9

二级参考文献22

1梁彦刚,唐国金,雍恩米.基于HLA的导弹攻防仿真系统分析与设计[J].国防科技大学学报,2004,26(5):18-21. 被引量：20
2李冰,申春林.模拟雷达图像信号源的原理与设计[J].微计算机信息,2005,21(1):97-98. 被引量：17
3刘金琨,邓守强.高炉热状态预测专家系统的设计及实现方法[J].东北大学学报（自然科学版）,1995,16(5):473-477. 被引量：5
4[1]Watkins C.J. C. H. Learning from delayed rewards [D] . Cambridge Univ. , England. 1989.
5[2]Sutton R.S.Learning to predict by the method of temporal difference [J] .Machine Learning , 1988, (3): 9-44.
6[3]Peng J.& Williams R.Incremental multi-step Q-learning [J] .Machine Learning, 1996, (22): 283-290.
7[4]Rummery G.A & Niranjan M.On-line Q-learning using connectionist systems [R] .CUED/F-INFENG/TR 166,Cambridge University, UK.1994.
8[5]Bertsekas D.P.Dynamic programming: deterministic and stochastic models [M] .Prentice Hall, USA.1987.
9[6]Sutton R.S.& Barto A.G.An introduction to reinforcement learning [M] .The MIT Press, USA.1998.
10[5]Riedmiller M, Merke A, Meier D. Karlsruhe brainstormers- a reinforcement learning approach to robotic soccer[DB/OL].http://illwww.ira.uka.de/-riedml/.

共引文献173

1万敏,吴家铸.基于HLA的导弹攻防仿真系统的设计与实现[J].微计算机信息,2008(1):212-213. 被引量：2
2刘洪,胡恩华.多智能体组织运作的环境[J].复杂系统与复杂性科学,2005,2(3):23-28. 被引量：3
3张智,朱齐丹,刘海.蒸汽发生器检修用六轴机械臂无碰撞路径规划研究[J].弹箭与制导学报,2006,26(S1):260-264.
4高志军,颜国正,丁国清,颜德田.多移动机器人间通讯机制的设计与实现[J].仪器仪表学报,2001,22(z2):356-357.
5初旭新,韩光胜.基于足球机器人决策系统的协作模型[J].系统仿真技术,2005,1(3):164-167. 被引量：1
6王刚,李为民,何晶.基于多智能体的分布式防空战场资源管理研究[J].军事运筹与系统工程,2002,16(2):29-32. 被引量：3
7王明顺,赵军,关守平.基于MAS的多机械手协调工作控制[J].哈尔滨工业大学学报,2009,41(12):232-235. 被引量：1
8刘巍,张承,马辰威,韩光胜.机器人足球决策及角色分配系统[J].哈尔滨工业大学学报,2004,36(7):966-968. 被引量：9
9殷波,孟庆春,庄晓东,张继军,韩林.多Agent智能现场总线数据采集系统设计[J].青岛海洋大学学报（自然科学版）,2003,33(3):443-448. 被引量：4
10苏幸烺,张云生.分布式控制中的智能Agent联合协作[J].计算机工程与应用,2004,40(29):213-216. 被引量：2

同被引文献23

1程显毅,张俊,王军.模式识别在RoboCup中的应用[J].江苏大学学报（自然科学版）,2005,26(2):158-161. 被引量：4
2张伟,朱大奇,孔敏,李武朝.基于改进的CMAC神经网络与PID并行控制的研究[J].计算机测量与控制,2005,13(12):1359-1360. 被引量：16
3刘亮,李龙澍.基于神经网络的RoboCup进攻策略[J].计算机工程与应用,2005,41(36):44-47. 被引量：4
4卢武昌,胡山立.RoboCup发展与研究综述[J].福建电脑,2006(4):1-2. 被引量：2
5居泽龙,沈建强.模糊控制技术在机器人足球中的应用[J].扬州职业大学学报,2006,10(1):37-41. 被引量：1
6张家旺,韩光胜,张伟.C5.0算法在RoboCup传球训练中的应用研究[J].计算机仿真,2006,23(4):132-134. 被引量：11
7李楠,刘国栋.内在激励强化学习及其在Robocup仿真中的应用[J].计算机仿真,2006,23(4):160-162. 被引量：3
8张振文,程显毅,李明.分布式强化学习在RoboCup中的应用[J].现代电子技术,2007,30(4):44-46. 被引量：1
9张长彬,刘祚时.机器人足球RoboCup仿真系统的研究[J].江西理工大学学报,2007,28(4):75-78. 被引量：4
10吴定会,李真,纪志成.基于模糊神经网络局部强化学习在Robocup中的应用[J].系统仿真学报,2007,19(16):3719-3723. 被引量：4

引证文献2

1申迅,刘国栋.基于CA-CMAC的Q学习截球算法[J].科学技术与工程,2011,11(7):1580-1582.
2黄颖,陈玮.RoboCup 2D仿真球员射门技能中智能算法的应用综述[J].电子世界,2012(5):80-83.

1胡坤,余雪丽,李志.一种改进的自动分层算法BMAXQ[J].计算机工程与应用,2011,47(30):1-3. 被引量：1
2鲁向拥,陈悦,张瞳,葛贝.Deep Learning算法分析和模型改进[J].计算机光盘软件与应用,2014,17(6):137-138. 被引量：5
3王魏,姜远,周志华.对Aggregative-Learning算法的分析[J].计算机研究与发展,2007,44(z2):219-224.
4秦童.基于CMAC的Q算法在机器人足球中的应用[J].电子测试,2012,23(4):76-80.
5顾冬雷,陈卫东,席裕庚.机器人足球赛中基于增强学习的行为参数优化[J].模式识别与人工智能,2001,14(2):140-144.
6安岭丽,彭志平,李铁鹰.MAXQ方法在出租车问题中的应用[J].茂名学院学报,2007,17(1):56-59.
7沈志忠,曹志强,谭民,王硕.基于增强式学习的仿生机器鱼避障控制[J].高技术通讯,2006,16(12):1253-1258. 被引量：3
8朱丽敏,丁伯慧,俞冠珉.基于Meta-face Learning的工件定位算法[J].机械科学与技术,2015,34(10):1543-1546.
9杨宛璐,陈玮,黄浩晖,王广涛.性能势算法研究及在RoboCup中的应用[J].计算机工程与设计,2014,35(3):905-908.
10庄晓东,孟庆春,熊建设,殷波,王汉萍.动态环境中基于增强式学习的路径规划方法[J].机器人,2001,23(S1):712-716. 被引量：2

微计算机信息

2008年第32期

浏览历史

内容加载中请稍等...

分层强化学习在足球机器人中的应用被引量：2

参考文献14

二级参考文献22

共引文献173

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

分层强化学习在足球机器人中的应用 被引量：2

参考文献14

二级参考文献22

共引文献173

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

分层强化学习在足球机器人中的应用被引量：2