基于强化学习的航空兵认知行为模型被引量：14

Cognition behavior model for air combat based on reinforcement learning

导出

摘要航空兵的认知行为模型为仿真航空兵的空战决策提供支持,通过强化学习积累战术决策经验.在虚拟战场环境中,作战态势通过多个属性进行描述,这使得强化学习过程将面临一个高维度的问题空间.传统的空间离散化方法处理高维空间时将对计算资源和存储资源产生极大需求,因此不可用.通过构造一个基于高斯径向基函数的拟合网络解决了这个问题,大大减少了对资源的需求以及强化学习周期,并最终产生了合理的机动策略.模型的有效性和自适应性通过一对一的空战仿真进行了验证,产生的交战轨迹与人类飞行员产生的交战轨迹类似. A cognition model was proposed to support tactical decisions for simulated fighters to fight with each other in a virtual combat,and reinforcement learning（RL） technology was used to acquire knowledge.The combat situation was described by multi-attributes,which resulted in a high dimensional problem space in which the fighters learned to find action policies.The traditional approach that partitioned the problem space would impose demand on huge computation and storage resource.An approximation network is constructed based on Gaussian radial basis function to approximate the state value,which greatly reduced the resource demand and learning cycle time,and produced reasonable maneuver strategy.The model was verified by a one-to-one air combat simulation,and the produced trajectories are similar with those that human pilots flied in real combat.

作者马耀飞龚光红彭晓源

机构地区北京航空航天大学自动化科学与电气工程学院

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2010年第4期379-383,共5页 Journal of Beijing University of Aeronautics and Astronautics

基金装备预研重点基金资助项目(9140A04040106HT0801)

关键词强化学习自适应系统仿真 reinforcement learning adaptive systems simulation

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Howard R A. Dynamic programming and markov processes[ M ]. Cambridge: MIT Press, 1960.
2Sutton R S, Barto A G. Time derivative models of pavlovian rein- forcement,learning and computational neuroscience : foundations of adaptive networks [ M ]. Cambridge : MIT Press, 1990 : 497 - 537.
3Baron Sheldon,Kelinman D L,Serben Saul. A study of the markov game approach to tactical maneuvering problems [ R ]. NASA CR-1979,1972.
4Moore A W, Atkeson C G. The patti-game algorithm for variable resolution reinforcement learning in multidimensional statespaces [ J]. Machine Learning, 1995,21 ( 3 ) : 199 - 233.
5Park J, Sandberg I W. Universal approximation using radial-basis function network [ J]. Neural Computation, 1991 (3) :246 - 257.
6Schaal S, Atkeson C G. From isolation to cooperation : an alternative view of a system of experts [ C ]//Touretzky D S, Hasselmo M E. Advances in Neural Information Processing Systems 8. MA : MIT Press, 1996 : 605 - 611.
7Virtanen K, Raivio T, Hamalainen R P. A decision analytic simulation approach to flight simulation [ EB/OL ]. Helsinki: System Analysis Laboratory ,2007 [ 2007 - 06 - 20 ]. http ://www. sal. tkk. fi/Opinnot/Mat -2. 108/pdf-files/ cham02. pdf.
8Kaebling L P,Littman M L,Moore A W. Reinforcement: a survey [ J ]. Journal of Artificial Intelligence Research, 1996 (4) : 237 - 285.

同被引文献178

1王向华,覃征,刘宇,史哲文.径向基神经网络解决威胁排序问题[J].系统仿真学报,2004,16(7):1576-1579. 被引量：30
2罗德林,沈春林,吴文海,吴顺祥.空战格斗决策研究[J].应用科学学报,2006,24(1):89-93. 被引量：13
3祝世虎,董朝阳,张金鹏,陈宗基.基于神经网络与专家系统的智能决策支持系统[J].电光与控制,2006,13(1):8-11. 被引量：16
4史建国,高晓光,李相民.基于离散模糊动态贝叶斯网络的空战态势评估及仿真[J].系统仿真学报,2006,18(5):1093-1096. 被引量：29
5欧爱辉,朱自谦.基于多属性决策和态势估计结果的空战威胁评估方法[J].火控雷达技术,2006,35(2):64-67. 被引量：14
6高永,向锦武.一种新的超视距空战威胁估计非参量法模型[J].系统仿真学报,2006,18(9):2570-2572. 被引量：43
7魏强,周德云.基于专家系统的无人战斗机智能决策系统[J].火力与指挥控制,2007,32(2):5-7. 被引量：19
8钟麟,佟明安,钟卫,张圣云.基于影响图的空战机动决策模型[J].系统仿真学报,2007,19(8):1796-1798. 被引量：8
9杨兴,朱大奇,桑庆兵.专家系统研究现状与展望[J].计算机应用研究,2007,24(5):4-9. 被引量：71
10杨克巍,张少丁,岑凯辉,谭跃进.基于半自治agent的profit-sharing增强学习方法研究[J].计算机工程与应用,2007,43(15):72-75. 被引量：3

引证文献14

1赵凤飞,覃征.一种多动机强化学习框架[J].计算机研究与发展,2013,50(2):240-247. 被引量：6
2尹云飞,关海超,曾亚飞,王晓楠,孙天昊.飞行员动态行为评估方法[J].重庆大学学报（自然科学版）,2013,36(6):154-160. 被引量：3
3杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：22
4毛梦月,张安,周鼎,毕文豪.基于机动预测的强化学习无人机空中格斗研究[J].电光与控制,2019,26(2):5-10. 被引量：13
5周亚楠,龚光红.基于约束边长FART-Q的智能决策算法[J].北京航空航天大学学报,2015,41(1):96-101. 被引量：1
6张彬超,寇雅楠,邬蒙,左家亮.基于深度置信网络的近距空战态势评估[J].北京航空航天大学学报,2017,43(7):1450-1459. 被引量：21
7闫雪飞,李新明,刘东,王寿彪.基于Nash-Q的网络信息体系对抗仿真技术[J].系统工程与电子技术,2018,40(1):217-224. 被引量：8
8闫雪飞,李新明,刘东,刘德生,李强.基于强化学习的体系对抗仿真战役层次指控算法[J].计算机工程与科学,2018,40(8):1511-1520. 被引量：1
9XU Ximeng,YANG Rennong,FU Ying.Situation assessment for air combat based on novel semi-supervised naive Bayes[J].Journal of Systems Engineering and Electronics,2018,29(4):768-779. 被引量：20
10徐志雄,曹雷,陈希亮.基于强化学习的无人坦克对战仿真研究[J].计算机工程与应用,2018,54(8):166-171. 被引量：14

二级引证文献146

1卢梓扬,盛步云,王辉,李晓芳.一种汽车混流总装生产线排产的超启发式算法研究[J].数字制造科学,2022(3):241-246. 被引量：2
2董海滨,王暖臣,穆歌,王孜丹.网络信息体系标准体系研究现状分析[J].中国电子科学研究院学报,2023,18(2):189-194. 被引量：1
3朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
4杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：22
5郑周,嵇春梅,赵斌,刘解放.基于粗糙集的增强学习型分类器[J].盐城工学院学报（自然科学版）,2014,27(4):47-54.
6陈农田.基于序关系法的飞行员安全行为评价指标权重系数的确定[J].数学的实践与认识,2016,46(1):155-161. 被引量：9
7刘嘉,向锦武,司守奎.舰载机飞行员驾驶技术与飞行安全研究[J].飞行力学,2016,34(6):6-9. 被引量：3
8朱斐,刘全,傅启明,陈冬火,王辉,伏玉琛.一种不稳定环境下的策略搜索及迁移方法[J].电子学报,2017,45(2):257-266. 被引量：3
9刘佳嘉,胡焱,周蜜,刘建华.基于权重比的民航飞行员安全行为指标权重算法[J].数学的实践与认识,2017,47(6):163-169. 被引量：2
10许凌凯,杨任农,张彬超,邬蒙,肖雨泽.基于CHCQPSO-LSSVM的空战目标威胁评估[J].空军工程大学学报（自然科学版）,2017,18(5):30-35. 被引量：2

1孙涛,赵国生,王健.认知网络体系及认知行为模型[J].科技致富向导,2012(36):7-7.
2上网本也要换“芯”华硕EeePC 1015PX[J].微型计算机,2011(13):22-23.
3田书林,王厚军,徐红兵.一种基于CORDIC算法的信号发生器技术研究[J].仪器仪表学报,2002,23(z3):150-153. 被引量：5
4李荣艳,金鑫,王春辉,郑宁,别荣芳.一种新的中文文本分类算法[J].北京师范大学学报（自然科学版）,2006,42(5):501-505. 被引量：6
5周浦城,洪炳镕,韩学东,郭耸.基于多Agent的并行Q-学习算法[J].小型微型计算机系统,2006,27(9):1704-1707. 被引量：3
6鲁宏伟,罗钢.专家系统自适应性应用研究[J].武汉理工大学学报（交通科学与工程版）,2003,27(4):521-524. 被引量：5
7董小龙,童中翔,王学德.DIS与DVR技术结合在战斗机空战仿真中的应用[J].系统仿真学报,2005,17(12):3025-3027. 被引量：5
8张延芝,王以群,李军舰.网络信息安全人因失误行为类型分析[J].情报杂志,2008,27(6):112-113. 被引量：3
9李涛,白剑林,栾前进.基于粗糙集与证据理论的防空作战态势评估方法[J].航空计算技术,2008,38(3):46-48. 被引量：2
10林燕,冯志全,朱德良,尚爱丽,盖伟.以多模型融合为特征的三维手势跟踪算法[J].计算机辅助设计与图形学学报,2013,25(4):450-459. 被引量：3

北京航空航天大学学报

2010年第4期

浏览历史

内容加载中请稍等...

基于强化学习的航空兵认知行为模型被引量：14

参考文献8

同被引文献178

引证文献14

二级引证文献146

相关作者

相关机构

相关主题

浏览历史

基于强化学习的航空兵认知行为模型 被引量：14

参考文献8

同被引文献178

引证文献14

二级引证文献146

相关作者

相关机构

相关主题

浏览历史

基于强化学习的航空兵认知行为模型被引量：14