基于强化学习的多阶段资源分配对策模型

Reinforcement Learning⁃based Multi⁃period Game Theoretic Model for Resource Allocation

下载PDF

导出

摘要针对资源受限下的攻防博弈资源分配问题,提出一种基于强化学习的多阶段攻防资源分配对策模型。防守者考虑如何在多阶段攻防中有效分配资源部署伪装目标以及加强真实目标防护,而多个进攻者考虑如何合作在多阶段攻防中有效分配资源识别伪装目标以及攻击真实目标。在各阶段以真实目标发挥期望效益为奖励准则,设计基于强化学习Q-learning算法的资源分配模型,生成整个周期内的攻防双方最优资源分配策略。示例研究验证了所提模型算法的有效性,能为多阶段攻防博弈资源分配提供辅助决策。 Aiming at the defense attacker game with limited resources,a multi-period game theoretic model based on reinforcement learning for resource allocation is proposed.The defender allocates resources in deploying false targets and strengthening the genuine one within multiple periods.Multiple attackers,on the other hand,distribute resources in identifying false targets and attack the genuine one among multiple targets.In each period,each player bases their decision on the expected utility of the genuine target as the reward.The Q-learning method,one of the reinforcement learning algorithms,is adopted in the game theoretic model,exploring the best resource allocation strategy over the entire planning horizon.An illustrative example was studied to demonstrate the effectiveness of the proposed model and algorithm,which can support the decision making in the resource allocation problems.

作者张骁雄丁松彭锐伍国华刘忠 ZHANG Xiaoxiong;DING Song;PENG Rui;WU Guohua;LIU Zhong(The Sixty-third Research Institute,National University of Defense Technology,Nanjing 210007,China;Laboratory for Big Data and Decision,National University of Defense Technology,Changsha 410073,China;School of Economics,Zhejiang University of Finance&Economics,Hangzhou 310018,China;School of Economics&Management,Beijing University of Technology,Beijing 100124,China;School of Traffic&Transportation Engineering,Central South University,Changsha 410075,China)

机构地区国防科技大学第六十三研究所国防科技大学大数据与决策实验室浙江财经大学经济学院北京工业大学经济与管理学院中南大学交通运输工程学院

出处《同济大学学报(自然科学版)》北大核心 2025年第6期985-992,共8页 Journal of Tongji University:Natural Science

基金国家自然科学基金(72471236) 北京市科技新星资助项目(Z191100001119100) 中国科协(特殊领域)青年人才托举工程项目(2021-JCJQ-QT-050)。

关键词资源分配攻防博弈伪装目标强化学习 Q-LEARNING resource allocation attacker-defender game false targets reinforcement learning Q-learning

分类号 O22 [理学—运筹学与控制论] N94 [自然科学总论—系统科学]

引文网络
相关文献

参考文献3

1张骁雄,丁松,李明浩,丁鲲,王龙,义余江.强化学习在多阶段装备组合规划问题中的应用[J].国防科技大学学报,2021,43(5):127-136. 被引量：4
2赵铭慧,张雪波,郭宪,欧勇盛.基于分层强化学习的通用装配序列规划算法[J].控制与决策,2022,37(4):861-870. 被引量：7
3张艳伟,蔡梦蝶.基于逆向强化学习的装船时堆场翻箱智能决策[J].同济大学学报（自然科学版）,2021,49(10):1417-1425. 被引量：11

二级参考文献19

1周开俊,李东波,黄希.基于遗传算法的装配序列规划研究[J].机械设计,2006,23(2):30-33. 被引量：11
2李荣,付宜利,封海波.基于连接结构知识的装配序列规划[J].计算机集成制造系统,2008,14(6):1130-1135. 被引量：15
3徐亚,陈秋双,龙磊,杨立志,刘丽芸.集装箱倒箱问题的启发式算法研究[J].系统仿真学报,2008,20(14):3666-3669. 被引量：29
4卜广志.武器装备建设方案的组合分析方法[J].火力与指挥控制,2011,36(3):154-158. 被引量：6
5万晓琴,严洪森,汪峥.知识化制造环境下航空发动机装配线调度及自重构[J].自动化学报,2015,41(1):136-146. 被引量：7
6张骁雄,姜江,葛冰峰.武器装备科研经费分配的规划模型与算法[J].系统工程与电子技术,2015,37(9):2061-2066. 被引量：7
7宫华,袁田,张彪.基于深度邻域搜索PSO算法的装配序列优化问题[J].控制与决策,2016,31(7):1291-1295. 被引量：9
8王飞,司光亚.武器装备体系能力贡献度的解析与度量方法[J].军事运筹与系统工程,2016,30(3):10-15. 被引量：39
9张骁雄,葛冰峰,姜江,谭跃进.面向能力需求的武器装备组合规划模型与算法[J].国防科技大学学报,2017,39(1):102-108. 被引量：19
10郑斯斯,王爱虎.路径优化算法求解集装箱码头堆场翻箱问题[J].工业工程与管理,2017,22(3):31-40. 被引量：9

共引文献19

1劳钰钞,刘秀峰,杨锦礼,蒋志.基于随机森林构建集装箱堆存时间预测分类器的港口翻箱研究[J].装备制造技术,2022(2):209-212. 被引量：1
2谭英,劳钰钞,满家镓,杨锦礼,刘秀峰.基于大数据预测和可视化贝位图降低港口堆场翻箱的方案与研究[J].装备制造技术,2022(6):41-46.
3常青,刘德生,刘文文,李肖,林文祥.装备组合选择问题研究[J].指挥控制与仿真,2023,45(1):1-10.
4胡洁,张亚莉,王团,望梦成,兰玉彬,张植勋.基于深度强化学习的农田节点数据无人机采集方法[J].农业工程学报,2022,38(22):41-51. 被引量：8
5朱明明,于越,唐丽敏,计明军.冷藏集装箱堆场空箱翻箱优化[J].物流技术,2023,42(6):52-57. 被引量：1
6马青松,朱颖,高天赐,罗圆,何庆,王平.基于逆向强化学习的铁路线路方案优选研究[J].铁道建筑,2023,63(7):1-7. 被引量：8
7王卓君,张朋,张洁.结合逆向强化学习与强化学习的晶圆批处理设备调度方法[J].计算机集成制造系统,2023,29(11):3738-3749. 被引量：3
8陈阳,华维,曹志金.基于逆向学习的水电厂现场作业风险预警模型研究[J].中国农村水利水电,2024(1):257-261. 被引量：7
9许英杰,刘晓路,贺仁杰,左亚辉,宋彦杰.空间碎片主动移除任务规划研究综述[J].控制与决策,2024,39(2):371-380. 被引量：8
10张梦钰,豆亚杰,陈子夷,姜江,杨克巍,葛冰峰.深度强化学习及其在军事领域中的应用综述[J].系统工程与电子技术,2024,46(4):1297-1308. 被引量：9

1王静蕾.“互联网+”背景下郑州“二七”红色文化 IP传播策略研究[J].今传媒,2025,33(1):97-101.
2史宽.高校体育教学中课内外一体化进程全员运动会体系的构建分析[J].当代体育科技,2023,13(22):50-53.
3坚.奖励的九大准则[J].企业管理,1988(8):42-43.
4王莉.高校体育教学课内外一体化进程中全员运动会体系的构建[J].青少年体育,2021(9):87-89. 被引量：1
5蒋逸舟,钟寒,王龙腾,高一名.共享经济形态下云账户平台的风险分析及对策研究[J].网络安全技术与应用,2025(4):85-89.
6俞凯,刘萍萍,周鲁洁.长廊型教学楼火灾疏散模拟及对策研究[J].消防科学与技术,2025,44(3):340-346.
7赵安新,黎梁,栾兆彪,叶磊,姜鑫.基于多元数据融合的钻孔岩性识别方法[J].西安科技大学学报,2025,45(3):545-559.
8车尧,李兵,秦全胜,张志刚.面向国家科技资源部署的情报分析及对我启示——以澳大利亚为例[J].情报科学,2024,42(12):168-175. 被引量：1
9李伟莎,王淑良,宋博.基于强化学习风电并网策略下的韧性分析[J].复杂系统与复杂性科学,2025,22(2):128-134.
10梁西陈.无监督环境下改进Q-learning算法在网络异常诊断中的应用[J].六盘水师范学院学报,2025,37(3):89-97.

同济大学学报(自然科学版)

2025年第6期

浏览历史

内容加载中请稍等...

基于强化学习的多阶段资源分配对策模型

参考文献3

二级参考文献19

共引文献19

相关作者

相关机构

相关主题

浏览历史