面向无人机集群协同决策的序列感知Transformer强化学习算法

A sequence-aware Transformer reinforcement learning for UAV swarm cooperative decision-Making

下载PDF

导出

摘要无人机集群(unmanned aerial vehicle,UAV)在电子战领域通过协同作业,能够有效执行侦察、干扰、打击等多种任务。当前,应用于无人机集群决策的强化学习算法在神经网络层面的多智能体动作协同和历史信息利用方面尚显不足。针对此问题,在多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)的基础上,提出了耦合时间和空间信息的强化学习算法SAT(sequence-aware transformer)。该算法通过将“隐状态”作为Transformer的query输入,同时提出了一种适应该算法的数据结构,保证了智能体训练过程中轨迹存储数据的一致性和完整性,有效地引入了相邻状态之间的耦合信息至网络中,从而弥补了传统神经网络在多智能体动作协同以及历史信息利用方面的不足。实验结果表明,SAT算法在2次典型任务中,任务完成次数比R2D2算法分别多21.7%和33%。 In the field of electronic warfare,unmanned aerial vehicle(UAV)swarms can effectively execute diverse missions such as reconnaissance,jamming,and strikes through collaborative operations.However,existing reinforcement learning(RL)algorithms for UAV swarm decision-making still face challenges in coordinating multi-agent actions and leveraging historical information at the neural network level.To address these limitations,the Sequence-Aware Transformer(SAT)algorithm is proposed,based on an enhanced variant of the Multi-Agent Proximal Policy Optimization(MAPPO)framework.The SAT algorithm introduces a“hidden state”mechanism into the Transformer architecture,where the hidden state dynamically encodes temporal dependencies between consecutive states and serves as the query input for the attention mechanism.Furthermore,a tailored trajectory storage structure is designed to ensure data consistency and integrity during training,enabling effective integration of spatiotemporal coupling information into the network.Experimental results demonstrate that SAT significantly outperforms baseline algorithms(R2D2 and QMIX)in two typical electronic warfare scenarios,achieving 21.7%and 33%higher task completion rates,respectively.

作者赵华栋李姜张展赫高远王烨 ZHAO Huadong;LI Jiang;ZHANG Zhanhe;GAO Yuan;WANG Ye(Changchun Institute of Optics,Fine Mechanics and Physics,Chinese Academy of Sciences,Changchun 130033,China;University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院长春光学精密机械与物理研究所中国科学院大学

出处《兵器装备工程学报》北大核心 2025年第8期36-44,共9页 Journal of Ordnance Equipment Engineering

关键词无人机集群多智能体强化学习 TRANSFORMER 群体智能电子对抗 UAV swarm multi-agent reinforcement learning Transformer group wisdom electronic warfare

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1张邦楚,廖剑,匡宇,张敏,周绍磊,康宇航.美国无人机集群作战的研究现状与发展趋势[J].航空兵器,2020,27(6):7-12. 被引量：33
2杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：56
3梁晓龙,杨爱武,张佳强,侯岳奇,王宁,黄骁,龚俊斌.无人集群博弈对抗系统仿真验证及决策关键技术综述[J].系统仿真学报,2024,36(4):805-816. 被引量：8
4王芳杰,黄鹏,张子俊,孙冲.基于矩阵博弈的近距空战自主机动决策方法[J].航空兵器,2023,30(6):56-63. 被引量：5
5何旭,景小宁,冯超.基于蒙特卡洛树搜索方法的空战机动决策[J].空军工程大学学报（自然科学版）,2017,18(5):36-41. 被引量：16
6嵇慧明,余敏建,乔新航,杨海燕,张帅文.改进BAS-TIMS算法在空战机动决策中的应用[J].国防科技大学学报,2020,42(4):123-133. 被引量：9
7屠壮,杨柳庆,林志坚,张勇.城市作战背景下多无人机航路规划仿真研究[J].舰船电子工程,2024,44(9):48-54. 被引量：3

二级参考文献59

1刘雷,刘大卫,王晓光,陈俊男,刘东兴.无人机集群与反无人机集群发展现状及展望[J].航空学报,2022,43(S01):4-20. 被引量：59
2万伟,姜长生,吴庆宪.单步预测影响图法在空战机动决策中的应用[J].电光与控制,2009,16(7):13-16. 被引量：11
3肖冰松,方洋旺,胡诗国,王磊.一种新的超视距空战威胁评估方法[J].系统工程与电子技术,2009,31(9):2163-2166. 被引量：47
4王锐平,高正红.无人机空战仿真中基于机动动作库的决策模型[J].飞行力学,2009,27(6):72-75. 被引量：20
5李望西,黄长强,王勇,轩永波,丁锋.三维空间空战态势评估角度优势建模与仿真[J].电光与控制,2012,19(2):21-25. 被引量：9
6张立鹏,魏瑞轩,李霞.无人作战飞机空战自主战术决策方法研究[J].电光与控制,2012,19(2):92-96. 被引量：16
7阮铖巍,寇英信,徐安,王琳.基于二元模糊比较法的单步空战机动决策研究[J].指挥控制与仿真,2012,34(5):10-13. 被引量：7
8张涛,于雷,周中良,李飞.基于变权重伪并行遗传算法的空战机动决策[J].飞行力学,2012,30(5):470-474. 被引量：27
9周思羽,吴文海,孔繁峨,张楠.基于随机决策准则的改进多级影响图机动决策方法[J].北京理工大学学报,2013,33(3):296-301. 被引量：19
10杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：22

共引文献118

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：61
2董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：20
3谢育星,陆屹,管聪,纪德东.协同空战与多智能体强化学习下的关键问题[J].飞机设计,2023,43(1):6-10. 被引量：2
4王万富,王琢,刘佳鑫,韩亚辉,李春波.基于Qt/Embedded的农林智能装备导航定位算法研究及软件设计[J].国外电子测量技术,2022,41(3):63-68. 被引量：6
5高阳阳,余敏建,韩其松,董肖杰.基于改进共生生物搜索算法的空战机动决策[J].北京航空航天大学学报,2019,45(3):429-436. 被引量：14
6嵇慧明,余敏建,杨家一,张薇,游航航.自由空战中距转弯机动对策生成问题研究[J].现代防御技术,2019,47(4):45-51.
7王毅然,经小川,贾福凯,孙宇健,佟轶.基于多智能体协同强化学习的多目标追踪方法[J].计算机工程,2020,46(11):90-96. 被引量：10
8李斌,刘全.基于最小二乘的双权重学习法[J].计算机科学,2020,47(12):210-217. 被引量：1
9谢建峰,杨啟明,戴树岭,王婉扬,张建东.基于强化遗传算法的无人机空战机动决策研究[J].西北工业大学学报,2020,38(6):1330-1338. 被引量：20
10李军予,闫国瑞,李志刚,白照广.智能遥感星群技术发展研究[J].航天返回与遥感,2020,41(6):34-44. 被引量：17

1王涛,谢添乐,唐勇,张强,许新爽,高琛.认知模型驱动的无人机集群混合智能协同决策方法研究[J].无人系统技术,2025,8(3):109-121. 被引量：2
2张传昊,李豪杰,李长生,张凌云,乔诗翔,于航.基于可编程门阵列的集群弹药协同决策与同步起爆方法[J].兵工学报,2025,46(8):199-211.
3康海燕,刘鑫旭,李彦芳.区块链赋能的车辆边缘网络任务卸载方法研究[J].西安电子科技大学学报,2025,52(3):85-98.
4孟亦真,黄静,刘付成,朱东方.基于微分图博弈的在轨组装分层协同强化学习控制[J].中国科学:物理学、力学、天文学,2025,55(9):62-78. 被引量：1
5王旭,阮征,程顺平.基于大数据的调频动态控制技术研究及应用[J].中国信息化,2025(8):82-83.
6王智文,卢玉梅,张海鹏,庞煜丽.多智能体序列决策的多交叉口交通信号协同控制方法[J].计算机工程与应用,2025,61(17):344-354. 被引量：1
7邹凯旋,姚立,张亚军.基于Raft算法的无损检测状态服务高可用系统设计与研究[J].新技术新工艺,2025(7):43-50.
8董诗洁,胡晓欣,刘晓航,谢天文,周冰妮,黄琰,杨孟,岳磊,童彤,顾雅佳.基于深度学习重建技术对前列腺T2WI压脂图像质量及诊断价值的研究[J].肿瘤影像学,2025,34(4):379-386.

兵器装备工程学报

2025年第8期

浏览历史

内容加载中请稍等...

面向无人机集群协同决策的序列感知Transformer强化学习算法

参考文献7

二级参考文献59

共引文献118

相关作者

相关机构

相关主题

浏览历史