强化学习在导弹制导中的应用被引量：6

Application of Reinforcement Learning in Missile Guidance

下载PDF

导出

摘要简述了强化学习的基本原理和特点 ,讨论了强化学习中评价函数的神经网络近似问题 ,重点分析了采用多神经网络近似评价函数的学习问题 ,实现了状态空间或任务的自动分解 ,提高了评价函数的推广能力 .网络的学习是离线进行 ,并作为反馈控制器在线应用 .并以A 学习为例 ,将强化学习应用于导弹的制导问题 ,仿真结果表明了强化学习在导弹制导或控制问题中的应用前景和有效性 . Principle and characteristic of reinforcement learning are outlined. The value function approximation of reinforcement learning with neural networks is studied, and the learning algorithm using modular neural networks to approximate the value function is emphatically analyzed, which decomposes the state space automatically and increases the generalizing ability of the neural networks. The neural networks are trained offline, and is used online as a feedback controller. The A learning algorithm is applied in the missile guidance problem, and the simulation results show the good performance and effectiveness of the application of reinforcement learning in those problems of missile guidance and control.

作者周锐陈宗基

机构地区北京航空航天大学自动控制系

出处《控制理论与应用》 EI CAS CSCD 北大核心 2001年第5期748-750,共3页 Control Theory & Applications

基金国家自然科学基金(6990 40 0 2 ) 国防预研基金航天科技创新基金资助项目

关键词神经网络强化学习微分对策导弹制导人工智能 neural networks reinforcement learning differential games missile guidance

分类号 TJ765.3 [兵器科学与技术—武器系统与运用工程] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
2[2]Xu B Z, Zhang B L and Wei G. Neural Networks and Its Applications[M]. Guangz hou: South China University of Technology Press,1994
3[3]Watkins J C H and Dayan P. Technical note: Q-learning [J]. Machine Learning, 1992, 8(4):279-292
4[4]Baird L. Residual algorithms:Reinforcement learming with function approximation [ A]. Proceedings of the Twelfth International Conference on Machining Learning [C], Morgan Kaufman Publishers, SanFrancisco, CA, 1995
5[5]Jacobs R A and Jordan M I. Learning piecewise control strategies in a modular neural network architecture [J]. IEEE Transactions on Systems, Man, and Cybemetics, 1993, 23(2):337-345

二级参考文献6

1Leslie Pack Kaelbling. Associative Reinforcement Learning: Functions in k-DNF[J] 1994,Machine Learning(3):279～298
2Leslie Pack Kaelbling. Associative Reinforcement Learning: A Generate and Test Algorithm[J] 1994,Machine Learning(3):299～319
3Leslie Pack Kaelbling. Associative reinforcement learning: Functions ink-DNF[J] 1994,Machine Learning(3):279～298
4Ronald J. Williams. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] 1992,Machine Learning(3-4):229～256
5Christopher J.C.H. Watkins,Peter Dayan. Technical Note: Q-Learning[J] 1992,Machine Learning(3-4):279～292
6Richard S. Sutton. Learning to predict by the methods of temporal differences[J] 1988,Machine Learning(1):9～44

共引文献29

1王维,王磊,禹建丽.学习控制在机器人路径规划中的应用[J].控制工程,2003,10(z2):193-195.
2袁著祉,陈增强,李翔.联接主义智能控制综述[J].自动化学报,2002,28(S1):38-59. 被引量：3
3郭红霞,吴捷,刘永强,王春茹.基于强化学习算法的静止同步补偿电压控制器[J].电网技术,2004,28(19):9-13. 被引量：25
4王春茹,吴捷,郭红霞.基于强化学习算法的网络拥塞控制[J].计算机工程与应用,2005,41(3):18-20. 被引量：2
5张海渠,陈淑利.塑性加工中的人工智能技术[J].沈阳大学学报,2002,14(4):5-9.
6郭红霞,吴捷,王春茹.基于强化学习的模型参考自适应控制[J].控制理论与应用,2005,22(2):291-294. 被引量：6
7李佳宁,易建强,赵冬斌,西广成.一种基于强化学习的在线神经模糊控制系统[J].中国科学院研究生院学报,2005,22(5):631-638. 被引量：1
8陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150. 被引量：3
9秦政,丁福光,边信黔.强化学习在移动机器人自主导航中的应用[J].计算机工程与应用,2007,43(18):215-217. 被引量：5
10马莉,蔡自兴.基于强化学习的模糊自适应控制器[J].中南工业大学学报,1998,29(2):172-175. 被引量：1

同被引文献86

1滕江川,吴晓燕,陈永兴,吴静,李琳.基于模糊控制理论的脉冲推力器点火算法[J].四川大学学报（工程科学版）,2011,43(S1):194-198. 被引量：9
2黄树采,李为民.目标分配问题的蚁群算法研究[J].系统工程与电子技术,2005,27(1):79-80. 被引量：42
3葛志强,黄培康.基于递推最小模型误差估计的机动目标跟踪[J].航天控制,2001,19(2):20-26. 被引量：1
4杜天军,陈光,刘占辰.多目标攻击空战决策WBG模型及其蚁群算法[J].系统工程与电子技术,2005,27(5):861-865. 被引量：15
5曹小兵,王中原,史金光,靳方留.火箭脉冲矢量控制弹道特性分析[J].弹箭与制导学报,2005,25(3):67-69. 被引量：14
6陶杰武,田晓丽,陈国光.脉冲发动机控制力对修正弹道的影响分析[J].中北大学学报（自然科学版）,2005,26(5):330-333. 被引量：6
7熊伟丽,徐保国,周其明.基于改进粒子群算法的PID参数优化方法研究[J].计算机工程,2005,31(24):41-43. 被引量：21
8路香菊,靳其兵,宋洪法.基于MME非线性系统递推辨识算法改进及仿真[J].计算机仿真,2006,23(2):75-77. 被引量：1
9卢超群,江加和,任章.基于增强学习的空空导弹智能精确制导律研究[J].战术导弹控制技术,2006(4):19-22. 被引量：3
10房启超,徐林,王建辉,顾树生.改进的PSO及其在结晶器液位控制中的应用[J].仪器仪表学报,2006,27(11):1399-1402. 被引量：11

引证文献6

1雷晓云,张志安.二维弹道修正机构方案与修正控制算法综述[J].控制与决策,2019,34(8):1577-1588. 被引量：7
2方科,张庆振,倪昆,崔朗福.飞行时间约束下的再入制导律[J].哈尔滨工业大学学报,2019,51(10):90-97. 被引量：14
3张晚晴,余文斌,李静琳,陈万春.基于纵程解析解的飞行器智能横程机动再入协同制导[J].兵工学报,2021,42(7):1400-1411. 被引量：27
4宋泠澳,刘涛,赵冬梅,董宏扬.强化学习在军事上的应用[J].火力与指挥控制,2023,48(12):8-16. 被引量：2
5吴明雨,何贤军,郑纯,陈志华.基于机器学习的巡飞弹气动优化与制导一体化设计[J].兵器装备工程学报,2024,45(9):38-47.
6谷学静,张明儒,王志良,郭宇承.基于CARLA-PSO组合模型的智能控制器参数学习优化[J].计算机应用研究,2019,36(3):677-680. 被引量：4

二级引证文献47

1霍延军,袁旭华.基于CARLA-PSO组合模型的机器人步态控制系统设计[J].计算机测量与控制,2020,28(9):243-247. 被引量：2
2贾乾罡,陈思捷,李亦言,严正,徐澄科.有限信息环境下基于学习自动机的发电商竞价策略[J].电力系统自动化,2021,45(6):133-139. 被引量：12
3王浩凝,唐胜景,郭杰,黄繁.带有动态攻角剖面的时间约束再入制导[J].空天防御,2021,4(1):71-76. 被引量：8
4肖雨,杜忠华,刘仁杰,马瑞雪,魏远旺.二维修正弹双核控制系统设计[J].机械与电子,2021,39(4):65-69.
5邵静.基于PSO优化PID的造纸定量控制系统设计[J].造纸科学与技术,2021,40(1):45-49. 被引量：4
6王中原,史金光,常思江,李岩,陈琦,易文俊,王旭刚.弹道修正弹技术发展综述[J].弹道学报,2021,33(2):1-12. 被引量：31
7张高巍.考虑建模误差的小型飞行器导航制导控制器设计[J].自动化技术与应用,2021,40(6):25-30.
8潘翔宇,胡小敏,刘琨.基于预测命中点的微分几何制导律[J].电光与控制,2021,28(7):41-47. 被引量：4
9邢炳楠,杜忠华,杜成鑫.二维弹道修正弹及其制导控制技术综述[J].国防科技大学学报,2021,43(4):53-68. 被引量：15
10张晚晴,余文斌,李静琳,陈万春.基于纵程解析解的飞行器智能横程机动再入协同制导[J].兵工学报,2021,42(7):1400-1411. 被引量：27

1胡跃明,周其节.二阶分布参数系统的变结构控制[J].控制理论与应用,1993,10(3):256-262. 被引量：4
2王孝通,刘晓红,张清绵,李玉保.超宽大表分解的理论分析[J].大连理工大学学报,1995,35(1):108-113.
3李建春,王小青.过程文件的自动分解方法[J].新浪潮,1992(6):41-42.
4毛新华,黄婷婷.并行环境中基于AutoCAD的协同设计系统研究[J].组合机床与自动化加工技术,2009(12):38-40. 被引量：1
5胡跃明,周其节,刘永清.广义系统的变结构控制[J].控制理论与应用,1993,10(5):567-571. 被引量：19
6左信,黄海龙,刘建伟.非凸共轭梯度p范数正则化SVM分类算法[J].广西师范大学学报（自然科学版）,2013,31(3):51-58.
7曹春华.MM照片变身巨幅画报[J].电脑爱好者（普及版）,2010(2):28-28.
8孙怀江,杨静宇,沈俊.一种神经模糊系统模型[J].计算机学报,1998,21(S1):121-126.
9凡少强,王国胤,李美争.改进的知识特征驱动的任务分解模型[J].计算机科学,2014,41(3):91-95.
10江敏.基于移动Agent面向SOA架构的工作流引擎设计与实现[J].电脑知识与技术,2009,5(11X):9285-9287. 被引量：1

控制理论与应用

2001年第5期

浏览历史

内容加载中请稍等...

强化学习在导弹制导中的应用被引量：6

参考文献5

二级参考文献6

共引文献29

同被引文献86

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

强化学习在导弹制导中的应用 被引量：6

参考文献5

二级参考文献6

共引文献29

同被引文献86

引证文献6

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

强化学习在导弹制导中的应用被引量：6