机器人足球赛中基于增强学习的任务分工被引量：9

ROLE DIVERSITY IN ROBOT SOCCER BASED ON REINFORCEMENT LEARNING

下载PDF

导出

摘要本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 . In this paper, the role diversity based on reinforcement learning in robot soccer is studied. Through simulation and analysis, it is shown that the Q algorithm infinite horizon discounted model in \ is not suitable to this task. Instead of that, average reward model is used for improving the algorithm. Simulation experiments show that the convergence rate in learning and the system performance are twice increased after improvement.

作者顾冬雷陈卫东席裕庚

机构地区上海交通大学自动化研究所

出处《机器人》 EI CSCD 北大核心 2000年第6期482-489,共8页 Robot

基金 86 3项目!(86 3- 5 12 - 980 5 - 18) 国家自然科学基金!(6 98895 0 1)

关键词机器人足球赛增强学习 Q算法任务分工 Q algorithm, infinite horizon discounted model, average reward model

分类号 TP249 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1[1]Tucker Balch. Learning Roles: Behavioral Diversity in Robot Teams. In AAAI-97 Workshop on Multiagent Learning.Providence, R.I, 1997
2[2]Christopher J C H Watkins. Technical Note:Q-Learning. Machine Learning, 1992,8: 279-292
3[3]Leslie Pack Kaelbling, Michael L Littman. Reinforcement Learning: A Survey. Journal of Artificial IntelligenceResearch 1996,4: 237-285

同被引文献69

1王正光,张奇志.模糊决策技术在RoboCup多主体协作中的应用[J].计算机应用,2003,23(z2):185-187. 被引量：2
2张家旺,韩光胜,张伟.Q学习算法在RoboCup带球中的应用[J].系统仿真技术,2005,1(2):84-87. 被引量：3
3张颖霞,杨宜民,陈波,岑汉彬.多智能体团队合作在机器人足球赛中的应用[J].微机发展,2004,14(7):112-114. 被引量：8
4李贻斌,李彩虹,刘鲁源.不确定环境下移动机器人路径规划算法研究[J].杭州电子科技大学学报（自然科学版）,2005,25(2):10-13. 被引量：3
5马兆青,袁曾任.基于栅格方法的移动机器人实时导航和避障[J].机器人,1996,18(6):344-348. 被引量：91
6[4]KIM H R, HWANG J H, KWON D S. Human-robot cooperation strategy for interactive robot soccer by fuzzy Qlearning[ A]. IEEE International Conference on Intelligent Robots and Systems[ C]. Las Vegas:IEEE, 2003.
7[6]KIM D H, KIM J H. A real-time limit-cycle navigation method for fast mobile robots and its application to robot soccer [ J ]. Robotics and Autonomous Systems, 2003,42:17 -30.
8[7]KIM S H, CHOI J S, KIM J K, et al. A cooperative micro- robot system playing soccer: Design and implementation [ J ]. Robotics and Autonomous Systems, 1 997,21:177 - 189.
9Kaelbling. Reinforcement Learning: A Survey [J]. Journal of Artificial Intelligence Research, 1996,4: 237-285.
10Mackworth A.On seeing robots[C].Singapore:Computer Vision:Systems,theory,and app lications,World Scientific,1993:1-13.

引证文献9

1朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
2郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
3王湘中,喻寿益,龙永红.机器人足球赛中队员角色的动态分配策略[J].哈尔滨工业大学学报,2004,36(7):943-945. 被引量：9
4唐勇,陈宝峰,张大鹏,陈琛.基于Agent的机器人足球赛中的再励学习算法[J].燕山大学学报,2005,29(4):324-327.
5厉广伟,曹爱增,尹建芹.基于视觉的足球机器人决策规划研究进展[J].济南大学学报（自然科学版）,2006,20(2):155-159. 被引量：2
6李楠,刘国栋.内在激励强化学习及其在Robocup仿真中的应用[J].计算机仿真,2006,23(4):160-162. 被引量：3
7黄炳强,曹广益,费燕琼,王占全.基于平均报酬模型的强化学习算法研究[J].上海理工大学学报,2006,28(5):418-422. 被引量：1
8王国庆.Q-learning算法的应用研究[J].河北企业,2016,0(12):262-263.
9杨思明.基于多agent融合学习Q-learn算法的道路智能管理方案及仿真[J].福建电脑,2018,34(4):112-114.

二级引证文献16

1金微.基于C/S模式的大场地足球机器人系统的研究[J].科技风,2008(20):28-28.
2张国平,赵臣,桂许军.一种新的足球机器人行为产生方法[J].机械与电子,2006,24(1):51-53.
3桂许军,赵臣,王薇,张永清.微型足球机器人行为产生方法与实现[J].电子技术应用,2006,32(4):5-8.
4王薇,张永清,赵臣.基于区域的微型足球机器人行为产生方法[J].天津大学学报,2006,39(B06):354-357.
5程显毅,杨长瑀.机器人足球学习机制的研究现状与发展[J].江南大学学报（自然科学版）,2007,6(6):642-647.
6毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2
7朱伟,姜昱明.虚拟人足球比赛阵法的系统建模与仿真[J].计算机工程与应用,2008,44(29):214-216. 被引量：1
8熊云艳,毛宜军,闵华清.基于黑板结构的足球机器人智能调度方案设计[J].计算技术与自动化,2009,28(4):53-55.
9胡超,李永新,马孟超.RoboCup小型组足球机器人系统及相关技术研究[J].机器人技术与应用,2010(2):43-48. 被引量：1
10余涛,袁野.基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制[J].电力系统自动化,2010,34(21):27-33. 被引量：10

1How Should We Reward A Hero?[J].Beijing Review,2014,57(28):46-47.
2杨伟忠,邓玉欣.On Real Reward Testing[J].Journal of Shanghai Jiaotong university(Science),2011,16(4):479-484.
3世界第一个免费电话网站问世[J].中国新通信,1999,0(11):40-40.
4刘君玲.基于角色分工的本科毕业设计管理模式的研究与实现[J].吉林工程技术师范学院学报,2009,25(12):72-75.
5郭震洋.软件配置管理方法应用实例[J].电脑知识与技术（认证考试）,2004(06M):69-71.
6李承.计算机病毒产业链研究[J].信息网络安全,2009(9):15-18.
7李翠彦,高飞.一种基于超混沌M-G系统的图像加密算法[J].信号处理,2007,23(6):896-899.
8李明歆,马世龙,许可.面向航天器测试的SOA信息系统研究[J].计算机工程与设计,2007,28(21):5248-5251. 被引量：1
9姜娜.IT步入“云”时代——华为赛门铁克新推“4＋1朵云”战略[J].科技信息（石油与装备）,2010(3):30-30.
10何伟娜,刘高原.基于CMS的开放式资源库系统设计与实现[J].计算技术与自动化,2011,30(1):106-109. 被引量：7

机器人

2000年第6期

浏览历史

内容加载中请稍等...

机器人足球赛中基于增强学习的任务分工被引量：9

参考文献3

同被引文献69

引证文献9

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

机器人足球赛中基于增强学习的任务分工 被引量：9

参考文献3

同被引文献69

引证文献9

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

机器人足球赛中基于增强学习的任务分工被引量：9