基于自博弈对抗学习的目标打击分配方法研究

Research on target strike allocation method via self-play adversarial learning

下载PDF

导出

摘要目标打击分配的核心任务是将有限的武器资源高效地分配给一系列威胁目标,以期最大化整体作战效能或最小化战损.针对传统静态评估方法难以适应对抗双方策略的动态演化,导致分配方案在强对抗场景下迅速失效的问题,提出了一种基于自博弈对抗学习(SPAL)的目标打击分配方法.结合双Actor-Critic网络,将目标打击分配策略融入强化学习框架,通过“进攻-防御”双方交替对抗、模型迭代升级的方式,从对抗任务场景中在线学习目标打击分配策略.实验结果表明,相较于基于规则和无自博弈对抗学习的方法,SPAL方法在任务完成率、己方存活率等性能指标上表现更好. The core task of target strike allocation is to efficiently allocate limited weapon resources to a series of threat targets,with the hope of maximizing overall combat effectiveness or minimizing combat losses.However,the traditional static evaluation methods are difficult to adapt to the dynamic evolution of the strategies of the opposing sides,which results in the rapid failure of the allocation scheme in strong confrontation scenarios.In view of the above problems,this paper proposes a target strike allocation method based on self-play adversarial learning(SPAL).In the proposed scheme,with the dual-Actor-Critic network combined,the target strike allocation strategy is integrated into the reinforcement learning framework.By means of the alternating confrontation between the“offensive-defensive”sides and the iterative upgrade of the model,the target strike allocation strategy is learned online from the confrontation task scenarios.The experimental results show that compared with the rule-based and non-SPAL methods,the SPAL strategy performs better in performance indicators such as task completion rate and friendly survival rate.

作者刘晓鹏 LIU Xiaopeng(No.95561 Unit,the PLA,Lhasa 850000,China)

机构地区 [

出处《空天预警研究学报》 2026年第1期62-68,共7页 JOURNAL OF AIR & SPACE EARLY WARNING RESEARCH

关键词目标打击分配自博弈对抗学习深度强化学习 target strike allocation self-play adversarial learning deep reinforcement learning

分类号 E91 [军事] O225 [理学—运筹学与控制论]

引文网络
相关文献

参考文献19

1李梦杰,常雪凝,石建迈,陈超,黄金才,刘忠.武器目标分配问题研究进展:模型、算法与应用[J].系统工程与电子技术,2023,45(4):1049-1071. 被引量：42
2王艺鹏,辛斌,陈杰.多阶段传感器–武器–目标分配问题的建模与优化求解[J].控制理论与应用,2019,36(11):1886-1895. 被引量：7
3陆一平,李慧慧.静态武器目标分配问题的攻击界整数规划求解方法[J].系统工程理论与实践,2019,39(3):783-789. 被引量：14
4杨进帅,李进,王毅.武器-目标分配问题研究[J].火力与指挥控制,2019,44(5):6-11. 被引量：26
5佘维,牛文涛,孔德锋,田钊.基于粒子群遗传禁忌的武器目标分配优化算法[J].郑州大学学报（理学版）,2023,55(5):1-10. 被引量：5
6翁年凤,刘艺,郑奇斌,段伟伟,刘坤,任小广.基于遗传蚁群算法的武器目标分配优化方法[J].海军航空大学学报,2024,39(5):640-648. 被引量：5
7刘攀,徐胜利,张迪,甄子洋.基于粒子群优化的多导弹动态武器目标分配算法[J].南京航空航天大学学报,2023,55(1):108-115. 被引量：17
8闫世祥,刘海军.基于深度强化学习的传感器-武器-目标分配方法[J].现代防御技术,2025,53(4):10-17. 被引量：1
9Jia-yi Liu,Gang Wang,Qiang Fu,Shao-hua Yue,Si-yuan Wang.Task assignment in ground-to-air confrontation based on multiagent deep reinforcement learning[J].Defence Technology（防务技术）,2023,19(1):210-219. 被引量：5
10李伟光,陈栋.基于深度强化学习算法的火力-目标分配方法[J].指挥控制与仿真,2024,46(3):62-69. 被引量：5

二级参考文献172

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：27
2王玮,康晓予,张玉芝.舰艇编队目标武器分配问题的研究方法[J].现代防御技术,2008,36(2):14-19. 被引量：4
3潘书山,吴晓云,马大为,乔艳玲.基于粗集理论的武器目标分配[J].弹箭与制导学报,2005,25(1):56-59. 被引量：5
4张勇,张远新.多通道舰空导弹武器系统目标分配模型[J].火力与指挥控制,2005,30(4):111-114. 被引量：4
5韩松臣,秦俊奇,韩品尧,邵成勋.马尔可夫决策过程在目标分配中的应用[J].哈尔滨工业大学学报,1996,28(2):32-36. 被引量：12
6Li Jinjun,Cong Rong,Xiong Jiguang.Dynamic WTA optimization model of air defense operation of warships' formation[J].Journal of Systems Engineering and Electronics,2006,17(1):126-131. 被引量：10
7姜华,贾春雨,程海全.动态规划法在防空群火力分配中的应用[J].兵工自动化,2006,25(5):19-20. 被引量：7
8蔡怀平,刘靖旭,陈英武.动态武器目标分配问题的马尔可夫性[J].国防科技大学学报,2006,28(3):124-127. 被引量：22
9Cai Huaiping Liu Jingxu Chen Yingwu Wang Hao.Survey of the research on dynamic weapon-target assignment problem[J].Journal of Systems Engineering and Electronics,2006,17(3):559-565. 被引量：50
10蔡怀平,陈英武.武器-目标分配(WTA)问题研究进展[J].火力与指挥控制,2006,31(12):11-15. 被引量：69

共引文献249

1邹子缘,陈琪锋.基于决策树搜索的空间飞行器集群对抗目标分配方法[J].航空学报,2022,43(S01):78-88. 被引量：13
2贺笑,李俊,侯言旭.基于深度Q网络的机器人抓取系统[J].工业控制计算机,2020,33(7):28-29.
3黄钦龙,刘忠,童继进.改进的蚁群算法求解无人艇编队火力分配问题[J].电光与控制,2020,27(8):58-63. 被引量：14
4张凯,周德云,杨振,潘潜.基于自适应谐振理论的武器目标分配快速决策算法[J].计算机工程,2020,46(9):283-291. 被引量：3
5王力超,乔勇军,李永胜.基于CE-CAPSO武器目标分配优化算法[J].火力与指挥控制,2020,45(11):82-87. 被引量：11
6熊俊涛,李中行,陈淑绵,郑镇辉.基于深度强化学习的虚拟机器人采摘路径避障规划[J].农业机械学报,2020,51(S02):1-10. 被引量：38
7张乾,张强.动态规划迭代算法在末端防御中的应用[J].电子设计工程,2021,29(3):104-107. 被引量：4
8李奇,秦大国,唐毓燕,李瑞.基于有限火力资源的时敏目标打击策略[J].指挥信息系统与技术,2021,12(2):44-48. 被引量：2
9刘峰,魏瑞轩,丁超,姜龙亭,李天.面向多机协同的Att-MADDPG围捕控制方法设计[J].空军工程大学学报（自然科学版）,2021,22(3):9-14. 被引量：6
10张进,郭浩,陈统.基于可适应匈牙利算法的武器-目标分配问题[J].兵工学报,2021,42(6):1339-1344. 被引量：31

1徐小溪.企业税务风险动态评估策略研究[J].理财(审计),2025(12):92-94.
2邹国明.建筑工程分包商履约能力动态评估管理体系构建[J].行车指南,2023(9):0178-0179.
3张泽琳,宋积超,王蕾,夏绪辉.基于热启动强化主动学习的废旧机械零件缺陷分类方法[J].组合机床与自动化加工技术,2026(1):7-12.
4郭子龙.青少年运动损伤预防及康复训练策略研究[J].拳击与格斗,2026(1):110-112.
5乐雪焕.基于AI的电网安全风险动态评估与预警模型研究[J].中国战略新兴产业,2026(2):103-105.
6李佩针,朱海鹏,陈翠云.基于改进层次分析法的地面分队作战效能动态评估应用方法[J].兵工自动化,2025,44(10):56-59.
7李燕妮.多源数据融合的平陆运河船闸安全风险动态预警模型[J].西部交通科技,2025(9):198-201.
8李航.智能电网招标中的电气安全动态评估[J].中国招标,2025(S2):33-34.
9金镇斌,高剑烽.直升机燃油系统战时抢修工艺研究[J].今日制造与升级,2025(12):151-153.
10丁德广.江苏省制造业“智改数转”安全监管效能仿真研究[J].混凝土世界,2026(1):86-90.

空天预警研究学报

2026年第1期

浏览历史

内容加载中请稍等...

基于自博弈对抗学习的目标打击分配方法研究

参考文献19

二级参考文献172

共引文献249

相关作者

相关机构

相关主题

浏览历史