基于独立学习的多智能体协作决策被引量：8

Multiagent cooperative decision making based on independent learning

下载PDF

导出

摘要联合学习模式是实现多智能体协作决策的有效方法 ,但是当智能体信息不完备时 ,这一方法难以适用。为此 ,在智能体独立学习的基础上提出一种多智能体协作决策方法。以网格对策为例。 Although joint learning is an efficient method to implement multiagent cooperative decision, it is unsuccessful when agent has imperfect information. The method of agents′ independent learning which acts as the base of multiagent cooperative decision is put forward. The experiment of grid games shows the efficiency.

作者李晓萌杨煜普许晓鸣

机构地区上海交通大学自动化研究所

出处《控制与决策》 EI CSCD 北大核心 2002年第1期29-32,共4页 Control and Decision

关键词独立学习多智能体协作决策智能控制学习算法联合学习模式 multiagant reinforcement learnning independent learning Markov cooprative decision process

分类号 TP293.5 [自动化与计算机技术—检测技术与自动化装置] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1[1]M L Littman. Markov games as framework for multi-agent reinforcement learning[A]. Proc of the 11th Int Conf on Machine Learning[C]. San Francisco: Morgan Kaufmann,1994.157-163.
2[2]J Hu, M P Wellman. Multiagent reinforcement learning: Theoretical framework and an algorithm[A]. Proc of the 15th Int Conf on Machine Learning[C]. Morgan Kaufmann,1998.242-250.
3[3]C Claus, C Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems[A]. Proc of the 15th National Conf on Artificial Intelligence[C]. Cambridge MIT Press,1997.235-262.
4[4]D H Wolpert, K Wheeler, K Tumer, et al. General principles of learning-based multi-agent systems[A]. Proc of the Third Int Conf of Autonomous Agents[C]. Seattle,1999.77-83.
5[5]J A Boyan, M L Littman. Packet routing in dynamically changing networks: A reinforcement learningapproach[J]. Adv in Neur Inform Proc Syst,1993,6:671-678.
6[6]R H Crites, A G Barto. Elevator group control using multiple reinforcement learning agents[J]. Machine Learning,1998,33:235-262.
7[7]J Schneider, W K Wong, A Moore, et al. Distributed value functions[A]. Proc of the 16th Int Conf on Machine Learning[C]. San Francisco: Morgan Kaufmann,1999.371-378.
8[8]C Watkins. Q-learning[J]. Machine Learnning,1992,8:279-292.
9[9]C Watkins. Learning from delayed rewards[D]. Cambridge: Cambridge University,1989.
10[10]A G Barto, R S Sutton, C Watkins. C Learning and sequential decision making[A]. Learning and Computational Newroscience: Foundation of Addaptive Networks[C]. Cambridge MIT Press,1990.539-602.

同被引文献65

1杜尚丰,徐立鸿,马程伟,康孟珍,蔚瑞华,曲梅,高丽红,董乔雪,陈端生.可控环境生产系统建模、仿真与控制研究进展[J].中国科学：信息科学,2010,40(S1):54-70. 被引量：18
2滕靖,杨晓光.APTS下城市公交枢纽调度问题的实用优化方法研究[J].系统工程,2004,22(8):78-82. 被引量：8
3滕靖,杨晓光.APTS下快速公交实时控制-调度方法研究[J].系统工程理论与实践,2006,26(2):138-143. 被引量：13
4滕靖,杨晓光.APTS下公共汽车单线路实时控制方法[J].同济大学学报（自然科学版）,2006,34(6):744-747. 被引量：6
5[4]KIM H R, HWANG J H, KWON D S. Human-robot cooperation strategy for interactive robot soccer by fuzzy Qlearning[ A]. IEEE International Conference on Intelligent Robots and Systems[ C]. Las Vegas:IEEE, 2003.
6WATKINS C. Q - learning [ J ]. Machine Learning,1992,8 : 279 - 292.
7GROSZ B F, KRAUS S. Collaborative plans for complex groupaction [ J ]. Artificial Intelligence, 1996, 86 (2) :269 - 357.
8TomM Mitchell.机器学习[M].北京:机械工业出版社,2003..
9涂序彦,王枞,郭燕慧.大系统控制论[M].北京:北京邮电大学出版社,2006.
10孙增圻,邓志东,张再兴.智能控制理论与技术[M].北京:清华大学出版社,2011.

引证文献8

1朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
2郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
3张淑军,孟庆春,吴槟,费云瑞.移动机器人智能寻线导航与策略控制[J].控制与决策,2005,20(5):529-532. 被引量：6
4潘家毅,赵永祥.基于DHT的P2P网络的查询延迟改进技术及其研究进展[J].中国新通信,2006,8(21):50-54.
5宦婧,周伟祝,孙媛,鲁华杰.基于自治智能计算机生成兵力的反潜直升机模型设计与应用[J].计算机应用,2012,32(A02):245-247. 被引量：1
6陈一飞,路河,刘柏成,齐凯,杜尚丰.日光温室草莓立体栽培智能控制系统[J].农业工程学报,2013,29(A01):184-189. 被引量：25
7陈春晓,陈治亚,陈维亚.基于多智能体增强学习的公交驻站控制方法[J].计算机工程与应用,2015,51(17):8-13. 被引量：6
8洪炳镕,朴松昊.基于冲突消解的群体智能机器人协作研究[J].哈尔滨工业大学学报,2003,35(9):1053-1055. 被引量：8

二级引证文献53

1宋兰芳,华明艳,崔少杰,仝雅娜,孔维东,杨小玲.新型双层立体栽培架不同基肥配比对草莓产量和品质的影响[J].北方园艺,2020(4):29-34. 被引量：3
2王红宝,赵臣,王华,瓮松峰.微型足球机器人守门员策略研究[J].哈尔滨工业大学学报,2004,36(7):884-886. 被引量：7
3楚要钦,李孝安,蒲勇.多智能体足球机器人系统的协作控制[J].哈尔滨工业大学学报,2004,36(7):911-913. 被引量：13
4邱寄帆.移动机器人寻线导航系统的设计与实现[J].微计算机信息,2006(09Z):201-203. 被引量：15
5柯文德.足球机器人混合分层控制体系结构[J].计算机工程与设计,2007,28(22):5488-5489.
6张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
7马军,殷保群.基于POMDP模型的机器人行动的仿真优化[J].系统仿真学报,2008,20(21):5903-5906.
8黄剑,方康玲,章政.基于单目视觉的智能车速度模糊控制系统[J].微计算机信息,2009,25(1):59-60. 被引量：1
9李鹏.基于路径开销的机器人足球角色分配设计[J].计算机与现代化,2009(8):123-125. 被引量：1
10迟瑞娟,付兵,刘吉孟.基于嵌入式实时操作系统的寻线机器人设计[J].计算机工程,2009,35(18):240-242. 被引量：2

1张婷.项目教学法在计算机教学中的运用[J].新课程（下）,2011,0(6):104-104.
2谷歌取得人工智能新突破[J].时事资料手册,2015(2):95-95.
3李佳丽.电化教学的初步探索[J].中小学电教（下）,2012(10):99-99.
4王瑞.在计算机教学中培养学生的创新能力[J].辽宁教育行政学院学报,2005,22(4):137-137. 被引量：1
5段丹青,杨卫平,谭敏.“兴趣·探究·互动·创新”教学模式研究[J].中国科技信息,2008(12):216-217. 被引量：5
6申丽.浅谈如何将ASP技术应用于网络课件[J].计算机光盘软件与应用,2011(9):177-177.
7徐闽燕,柳斌.基于行动导向的协作学习策略研究[J].电子世界,2013(22):244-245.
8祝宇凌.“任务驱动教学法”与“探究式学习”在计算机教学中的应用[J].科技信息,2010(16):230-230. 被引量：7
9张良安,赵金莎,马寅东.任务驱动教学法在《机器人学》教学中的应用研究[J].科技信息,2012(2):177-177.
10吴健萍.导而弗牵,授之以渔——浅析如何培养学生独立学习英语的能力[J].中学生英语（中旬刊）,2015,0(1):79-79.

控制与决策

2002年第1期

浏览历史

内容加载中请稍等...

基于独立学习的多智能体协作决策被引量：8

参考文献10

同被引文献65

引证文献8

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于独立学习的多智能体协作决策 被引量：8

参考文献10

同被引文献65

引证文献8

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于独立学习的多智能体协作决策被引量：8