改进MADDPG多智能体的方法

Methodology for improving MADDPG algorithm

下载PDF

导出

摘要为研究多智能体深度确定性策略梯度算法(MADDPG)通过共享观察信息和历史经验解决多智能体环境不稳定的问题,通过改进多智能体深度确定性梯度算法MADDPG提出了IMMADDPG算法,分析改进网络结构更有效地降低环境不稳定性和值函数高估对策略网络训练的影响。结果表明:IMMADDPG算法在合作导航环境下,智能体到达目标的概率高于MADDPG算法3.7%;在协同和竞争的捕食环境下,IMMADDPG的智能体策略其捕食智能体捕食到被捕食智能体的平均次数为5.79,被捕食者智能体到达目标地标的平均次数为2.23,而MADDPG的捕食的平均次数为4.82、到达目标地标的平均次数为1.76。IMMADDPG相对于MADDPG多智能体在深度强化学习环境中具有更好的表现。 This paper intends to address the environment instability of multi-agent by sharing observation information and historical experiences to some extent by using multi-agent deep deterministic policy gradient algorithm(MADDPG)and proposes an IMMADDPG algorithm by improving MADDPG.The study works by analyzing and improving the network structure for effectively reducing the influence of environment instability and overestimation of value function on network training policy.The results demonstrate that the tests are conducted in two different environments.With the IMMADDPG algorithm in Cooperative Navigation environment,the probability of agents reaching their targets using IMMADDPG is 3.7%higher than that of MADDPG,and in the Predator-Prey environment,which involves both cooperation and competition,the strategy of agents trained with IMMADDPG results in an average of 5.79 prey captures by predator agents,and an average of 2.23 times for prey agents to their target landmarks.In contrast,with MADDPG algorithm,the average number of prey captures is 4.82,and the average times prey agents to their target landmarks is 1.76.IMMADDPG demonstrates better performance than MADDPG in multi-agent deep reinforcement learning environments.

作者宁姗赵秋多丁毓龙郭嘉承 Ning Shan;Zhao Qiuduo;Ding Yulong;Guo Jiacheng(Innovation&Entrepreneurship,Heilongjiang University of Science&Technology,Harbin 150022,China;School of Electronics&Information Engineering,Heilongjiang University of Science&Technology,Harbin 150022,China)

机构地区黑龙江科技大学创新创业学院黑龙江科技大学电子与信息工程学院

出处《黑龙江科技大学学报》 2025年第1期160-165,172,共7页 Journal of Heilongjiang University of Science And Technology

关键词深度强化学习多智能体协作多智能体竞争中心化训练去中心化执行 deep reinforcement learning multi-agent collaboration multi-agent competition centralized training decentralized execution

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：110
2肖硕,黄珍珍,张国鹏,杨树松,江海峰,李天旭.基于SAC的多智能体深度强化学习算法[J].电子学报,2021,49(9):1675-1681. 被引量：22
3吴官翰,贾维敏,赵建伟,高飞飞,姚敏立.基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计[J].电子与信息学报,2022,44(3):940-950. 被引量：9
4单麒源,张智豪,张耀心,余宗祥.基于SAC算法的矿山应急救援智能车快速避障控制[J].黑龙江科技大学学报,2021,31(1):14-20. 被引量：9
5Jian ZHAO,Youpeng ZHAO,Weixun WANG,Mingyu YANG,Xunhan HU,Wengang ZHOU,Jianye HAO,Houqiang LI.Coach-assistedmulti-agent reinforcement learning framework for unexpected crashed agents[J].Frontiers of Information Technology & Electronic Engineering,2022,23(7):1032-1042. 被引量：3
6闻佳,王宏君,邓佳,刘鹏飞.基于深度学习的异常事件检测[J].电子学报,2020,48(2):308-313. 被引量：15
7王毅然,经小川,贾福凯,孙宇健,佟轶.基于多智能体协同强化学习的多目标追踪方法[J].计算机工程,2020,46(11):90-96. 被引量：11
8马悦,吴琳,许霄.基于多智能体强化学习的协同目标分配[J].系统工程与电子技术,2023,45(9):2793-2801. 被引量：9
9赵艳芹,姜昊.基于残差网络的人脸表情识别方法[J].黑龙江科技大学学报,2024,34(3):469-473. 被引量：4

二级参考文献35

1冯尚友.信息熵与最大熵原理[J].水利电力科技,1995,22(3):24-29. 被引量：12
2曹源,唐涛,徐田华,穆建成.形式化方法在列车运行控制系统中的应用[J].交通运输工程学报,2010,10(1):112-126. 被引量：34
3李俨,董玉娜.基于SA-DPSO混合优化算法的协同空战火力分配[J].航空学报,2010,31(3):626-631. 被引量：53
4方宝富,潘启树,洪炳镕,丁磊,蔡则苏.多追捕者-单-逃跑者追逃问题实现成功捕获的约束条件[J].机器人,2012,34(3):282-291. 被引量：11
5段勇,徐心和.基于多智能体强化学习的多机器人协作策略研究[J].系统工程理论与实践,2014,34(5):1305-1310. 被引量：25
6吴胜权,黄振晖,曹源.有轨电车路权配置与信号系统选择[J].中国铁路,2014(8):97-99. 被引量：25
7张旭,李玲,贾磊磊.基于微分博弈的多机器人追逃策略研究及仿真[J].装备制造技术,2015(9):9-12. 被引量：3
8吴坤鸿,詹世贤.分布式遗传模拟退火算法的火力打击目标分配优化[J].火力与指挥控制,2016,41(3):89-92. 被引量：23
9郑南宁.人工智能面临的挑战[J].自动化学报,2016,42(5):641-642. 被引量：32
10周志华.AlphaGo专题介绍[J].自动化学报,2016,42(5):670-670. 被引量：11

共引文献178

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020,2(4):394-400. 被引量：3
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020,2(4):372-384. 被引量：8
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020,2(4):361-371. 被引量：5
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：5
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020,2(4):314-326. 被引量：65
6周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：10
7A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
8LYU Yanxia,LI Wenjie,WANG Yue,SUN Siqi,WANG Cuirong.RMHSForest:Relative Mass and Half-Space Tree Based Forest for Anomaly Detection[J].Chinese Journal of Electronics,2020,29(6):1093-1101. 被引量：1
9蒋伟进,王扬,刘晓亮,吕斯健.基于词相关性特征的多归属谱聚类突发事件检测[J].通信学报,2020,41(12):193-204. 被引量：3
10姚兴虎,谭晓阳.基于奖励高速路网络的多智能体强化学习中的全局信用分配算法[J].计算机应用,2021,41(1):1-7. 被引量：1

1赵江平,王欣然,吴立舟.改进YOLOv5s的路面坑槽目标检测模型[J].中国安全科学学报,2025,35(1):67-74. 被引量：2
2魏晶平,杜梦迪,王阔.基于深度学习的电力通信网络异常数据流入侵自动检测方法[J].自动化应用,2025,66(4):247-248. 被引量：4
3王宏杰.矿井带式输送机防撕裂装置的研究与应用[J].机械管理开发,2024,39(12):128-129. 被引量：2
4高宇璠,傅洪贤.基于WOA-IC优化神经网络的隧道爆破振动预测研究[J].振动与冲击,2025,44(4):229-237. 被引量：2
5卢彩恋,张婉茹.改进后抢救护理措施对老年高血压急症患者进行急救护理的有效性分析[J].基层医学论坛,2025,29(6):92-95.
6于济凡,李睿淼,李曼丽,刘惠琴.多智能体协同交互的高临场感在线学习环境构建[J].现代教育技术,2024,34(12):17-26. 被引量：17
7史素心,江清悦,王亚伦,张保卫,方光战.不同噪声对安徽树蛙行为响应的影响[J].野生动物学报,2025,46(1):163-171.
8孙立民,孙倩,商进朋.2020—2023年医院药品库存问题及对策研究[J].中医药管理杂志,2025,33(1):47-49.
9晁曼妮,张立辉,杨晨爽.金属矿床成因与地质演化的物探综合分析[J].冶金与材料,2025,45(2):133-135. 被引量：1
10马雅婷,路明霞,豆巧华,王长双,肖占沛,王燕,张明瑜,姬艳芳,白祎然,张肖肖,郭永豪,张延炀.河南省低体重新生儿乙肝疫苗接种率及首剂次及时接种影响因素分析[J].现代疾病预防控制,2025,36(1):9-13. 被引量：2

黑龙江科技大学学报

2025年第1期

浏览历史

内容加载中请稍等...

改进MADDPG多智能体的方法

参考文献9

二级参考文献35

共引文献178

相关作者

相关机构

相关主题

浏览历史