基于大语言模型的兵棋推演智能决策技术被引量：1

Decision Technology Based on Large Language Model for Wargame

下载PDF

导出

摘要兵棋推演通过控制棋子的行为来模拟真实的对抗场景,在智能决策领域具有重大研究意义.已有的研究大多聚焦于知识驱动的规则型智能体或数据驱动的学习型智能体.尽管这些方法在小规模兵棋推演上取得一定的进展,但是由于知识规则的高获取代价、弱泛化性,以及学习算法的低稳定性、学习过程的高算力需求,导致已有方法难以在更加贴近真实场景的大规模兵棋推演环境中灵活应用.为缓解上述问题,提出基于大语言模型的大规模多智能体分层任务规划框架,该框架利用大语言模型分别进行组队层次的粗粒度任务规划和个体层次的细粒度任务分解,围绕“规划−交流−记忆−反思”实现策略生成.相较于之前的工作,该方法能有效缓解泛化性的难题,同时在维持智能体一定的自我增强能力的情况下避免对智能体参数的高成本训练.实验表明,该模型能以较高胜率击败高水平AI,且具备自我增强能力、泛化能力以及可解释能力,在大规模对抗环境中具有显著优势. Wargame simulates real confrontations by controlling the behavior of agents,which has important research significance in the field of intelligent decision-making.Most existing research has focused on knowledge-driven rule-based agents or data-driven learning agents.Although these methods have made some progress in smallscale wargame,the high acquisition cost and weak generalization of knowledge rules,as well as the low stability of learning algorithms and the high computational requirements of the learning process,make it difficult to be flexibly applied in large-scale wargame that are closer to real scenarios.In order to alleviate the above problems,a largescale multi-agent hierarchical task planning framework based on large language model is proposed,which uses large language model to perfom coarse-grained task planning at the team level and fine-grained task decomposition at the individual level,which focuses on strategy generation through planning,communication,memory,and reflection.Compared to previous works,the proposed method alleviates the problem of generalization effectively and can maintain a certain degree of self-improvement ability while avoiding high cost training of agent parameters.Experiment shows that our model can defeat elite AI with a high winning rate.Furthermore,our model also has self-improve ability,generalization ability,and interpretability ability,which has significant advantages in large-scale adversarial environment.

作者王彤赵美静徐沛尹奇跃焦建彬黄凯奇 WANG Tong;ZHAO Mei-Jing;XU Pei;YIN Qi-Yue;JIAO Jian-Bin;HUANG Kai-Qi(University of Chinese Academy of Sciences,Beijing 100049;Key Laboratory of Cognition and Decision Intelligence for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190;Center for Excellence in Brain Science and Intelligence Technology,Chinese Academy of Sciences,Shanghai 200031)

机构地区中国科学院大学中国科学院自动化研究所复杂系统认知与决策重点实验室中国科学院脑科学与智能技术卓越创新中心

出处《自动化学报》北大核心 2025年第6期1205-1217,共13页 Acta Automatica Sinica

基金中国科学院战略性先导科技专项基金(XDA27010103) 国家资助博士后研究人员计划(GZC20232995) 中国博士后科学基金(2024M763533)资助。

关键词兵棋推演策略生成大语言模型分层任务规划 Wargame policy generation large language model hierarchical task planning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1胡晓峰,齐大伟.智能决策问题探讨—–从游戏博弈到作战指挥,距离还有多远[J].指挥与控制学报,2020,6(4):356-363. 被引量：39
2黄凯奇,兴军亮,张俊格,倪晚成,徐博.人机对抗智能技术[J].中国科学：信息科学,2020,50(4):540-550. 被引量：32
3周志杰,曹友,胡昌华,唐帅文,张春潮,王杰.基于规则的建模方法的可解释性及其发展[J].自动化学报,2021,47(6):1201-1216. 被引量：20
4刘满,张宏军,徐有为,冯欣亮,冯玉芳.群队级兵棋实体智能行为决策方法研究[J].系统工程与电子技术,2022,44(8):2562-2569. 被引量：7
5王兴众,王敏,罗威.基于SAC算法的作战仿真推演智能决策技术[J].中国舰船研究,2021,16(6):99-108. 被引量：9
6刘满,张宏军,郝文宁,程恺,王佳胤.战术级兵棋实体作战行动智能决策方法[J].控制与决策,2020,35(12):2977-2985. 被引量：23
7尹奇跃,赵美静,倪晚成,张俊格,黄凯奇.兵棋推演的智能决策技术与挑战[J].自动化学报,2023,49(5):913-928. 被引量：20
8李卓远,张德平.基于BN-DDPG轻量级强化学习算法的智能兵棋推演[J].计算机系统应用,2023,32(4):293-299. 被引量：4

二级参考文献73

1张松涛,任光.基于分段模糊Lyapunov方法的离散模糊系统分析与设计[J].自动化学报,2006,32(5):813-818. 被引量：8
2曾鹏,吴玲达,魏迎梅.战术计划识别模型的分析、描述与设计[J].计算机与数字工程,2006,34(9):1-4. 被引量：6
3牛培峰,丁希生.两层模糊控制在循环流化床床温控制系统中的应用[J].燕山大学学报,2008,32(2):124-128. 被引量：10
4王宁,孟宪尧.输入采用一般模糊划分的T-S模糊控制系统稳定性分析[J].自动化学报,2008,34(11):1441-1445. 被引量：10
5张海,周德云,佟明安.基于规则控制的快速高度跟踪算法[J].火力与指挥控制,1999,24(3):21-26. 被引量：1
6廖贵敏.基于故障树模型的知识表达方法综述[J].电脑与信息技术,2000,8(1):6-8. 被引量：3
7王桂起,刘辉,朱宁.兵棋技术综述[J].兵工自动化,2012,31(8):38-41. 被引量：23
8刘嵩,武志强,游雄,张欣,王雪峰.基于兵棋推演的综合战场态势多尺度表达[J].测绘科学技术学报,2012,29(5):382-385. 被引量：14
9常雷雷,李孟军,鲁延京,程贲,张晓航.基于主成分分析的置信规则库结构学习方法[J].系统工程理论与实践,2014,34(5):1297-1304. 被引量：7
10黄凯奇,任伟强,谭铁牛.图像物体分类与检测算法综述[J].计算机学报,2014,37(6):1225-1240. 被引量：200

共引文献134

1王娜,国艳群,李和平,李翔.一种基于混合推理的电子对抗作战行动生成框架[J].中国电子科学研究院学报,2023,18(1):43-47. 被引量：1
2程晓玉,韩鹏,贺维,张朋,韩晓霞,李英梅,曹友.一种新的基于可解释性置信规则库的飞轮健康状态评估模型[J].航空学报,2023,44(S01):177-189. 被引量：5
3聂凯,孟庆海.面向仿真推演的认知不确定性仿真建模范式[J].舰船电子工程,2020,40(12):70-73. 被引量：1
4田忠良,刘昊.智能算法在兵棋对抗推演中的应用[J].指挥控制与仿真,2021,43(1):40-47. 被引量：7
5李彬彬,杨扬,刘爽.单无源传感器平台非线性滤波技术[J].指挥与控制学报,2021,7(1):83-88. 被引量：3
6拓世英,孙浩,林子涵,陈进.多模态图像智能目标识别对抗攻击[J].国防科技,2021,42(2):8-13. 被引量：6
7张俊峰,薛青,汤再江,邓青,高超.基于综合势力图的态势估计方法[J].火力与指挥控制,2021,46(4):93-98. 被引量：2
8黄凯奇,赵鑫,李乔哲,胡世宇.视觉图灵:从人机对抗看计算机视觉下一步发展[J].图学学报,2021,42(3):339-348. 被引量：10
9聂凯,曾科军,孟庆海,魏超.人机对抗智能技术最新进展及军事应用[J].兵器装备工程学报,2021,42(6):6-11. 被引量：8
10李程,夏丹,董世运,胡雪松,戴迪.复杂陆战场环境下的智能感知理论现状与发展[J].国防科技,2021,42(3):42-48. 被引量：9

同被引文献10

1刘航,李巍.基于贝叶斯网络的作战态势预测[J].舰船电子工程,2013,33(6):44-45. 被引量：2
2陈意,胡笑旋.深度不确定的战场环境下鲁棒战术决策方法[J].火力与指挥控制,2014,39(3):8-11. 被引量：3
3毛少杰,周芳,楚威,丁冉.面向指挥决策支持的平行仿真系统研究[J].指挥与控制学报,2016,2(4):315-321. 被引量：21
4方冰,张翠侠.基于时空维度分析的战场态势预测方法[J].指挥信息系统与技术,2017,8(1):59-64. 被引量：26
5陶九阳,吴琳,王驰,褚君达,廖鹰,朱丰.基于深度学习的战场态势变化速度预测模型[J].系统仿真学报,2018,30(3):785-792. 被引量：13
6霍士伟,田八林,郭圣明,师有为.基于机器学习的战场态势评估问题研究与展望[J].指挥控制与仿真,2022,44(4):21-25. 被引量：4
7孙煦云,姚伟.面向智能化作战的大模型技术应用探索[J].指挥信息系统与技术,2024,15(6):28-35. 被引量：4
8王明,鲜勇,潘晨辉,任乐亮.基于大型语言模型与先验知识的兵棋决策方法[J].火箭军工程大学学报,2025,39(2):79-88. 被引量：1
9侯西倩,葛亚维,魏建强.大模型时代下的智能空战指挥决策问题[J].指挥与控制学报,2025,11(2):248-252. 被引量：2
10王嘉乾,郭相科,杨子梁,唐文生,张海宾,戚玉涛.基于知识增强大语言模型的杀伤网作战决策方法研究[J].空军工程大学学报,2025,26(4):120-127. 被引量：2

引证文献1

1叶云,邓宁.基于预演理论与反事实反思的大模型态势预测和决策方法[J].兵工自动化,2025,44(12):103-107.

1林钰莹,赵锴.社会网络视角下临时团队协作历史对协作主动行为的影响[J].心理科学进展,2025,33(5):780-796. 被引量：1
2李方,张玉洁,王路石,方圆,陈祉妍.中职生个体受欺负与心理健康的关系:班级受欺负的调节作用[J].中国临床心理学杂志,2025,33(2):288-292. 被引量：1
3尹海维.以任务为载体驱动小学英语自主学习[J].中国科技期刊数据库科研,2025(7):093-096.
4蒋群.施工企业经营分析与战略规划[J].品牌研究,2025(12):0133-0135.
5AI重构未来网络的智能基因[J].中国宽带,2025,21(6).
6李诗佳,葛红娟,刘文琪,李煌,桑益芹.基于ISSEL的机载网络入侵检测方法[J].航空计算技术,2025,55(3):114-119.
7侯晨.智慧城市背景下国土空间规划设计与实施策略[J].经济与社会发展研究,2025(14):0196-0198.
8王晶晶.“千万工程”背景下农文旅融合村庄规划策略研究——以晋中市西郝村为例[J].丝路文明,2025(1):90-92.

自动化学报

2025年第6期

浏览历史

内容加载中请稍等...

基于大语言模型的兵棋推演智能决策技术被引量：1

参考文献8

二级参考文献73

共引文献134

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于大语言模型的兵棋推演智能决策技术 被引量：1

参考文献8

二级参考文献73

共引文献134

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于大语言模型的兵棋推演智能决策技术被引量：1