Q-learning强化学习制导律被引量：33

Reinforcement learning guidance law of Q-learning

下载PDF

导出

摘要在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。 As the intelligent missile being a major development trend,it is foreseeable that it will become a precise and effective strike weapon in the future battlefields.On the basis of the traditional proportional guidance law,this paper proposes a guidance algorithm based on reinforcement learning with variable proportional coefficient.Taking the line-of-sight rate as the state,this algorithm designs a discretized action space,as well as a reward function based on the miss distance,to determine the correct guidance command for the missile.The simulation results prove the algorithm possesses better guidance accuracy than the traditional proportional guidance law and endows the missile with the ability of autonomous decision-making.

作者张秦浩敖百强张秦雪 ZHANG Qinhao;AO Baiqiang;ZHANG Qinxue(Beijing Institute of Electronic Engineering, Beijing 100854, China;College of Computer Science, North China Institute of Aerospace Engineering, Langfang 065000, China)

机构地区北京电子工程总体研究所北华航天工业学院计算机学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2020年第2期414-419,共6页 Systems Engineering and Electronics

基金中国博士后科学基金(2017M620863)资助课题

关键词比例制导制导律脱靶量机动目标强化学习 Q学习时序差分算法 proportional guidance guidance law miss distance maneuvering target reinforcement learning Q-learning timing difference algorithm

分类号 V448.133 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献12

1聂春雨,祝明,郑泽伟,武哲.基于Q-Learning算法和神经网络的飞艇控制[J].北京航空航天大学学报,2017,43(12):2431-2438. 被引量：5
2谭浪,巩庆海,王会霞.基于深度强化学习的追逃博弈算法[J].航天控制,2018,36(6):3-8. 被引量：14
3Amanda LAMPTON,John VALASEK,Mrinal KUMAR.Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J].控制理论与应用（英文版）,2011,9(3):431-439. 被引量：1
4Shengjun Wu.Illegal Radio Station Localization with UAV-Based Q-Learning[J].China Communications,2018,15(12):122-131. 被引量：10
5张文志,吕恬生.Reactive fuzzy controller design by Q-learning for mobile robot navigation[J].Journal of Harbin Institute of Technology(New Series),2005,12(3):319-324. 被引量：5
6张晶晶,周德云,张堃.一种基于强化学习的UAV目标搜索算法[J].计算机应用研究,2011,28(10):3659-3661. 被引量：4
7史豪斌,徐梦.基于强化学习的旋翼无人机智能追踪方法[J].电子科技大学学报,2019,48(4):553-559. 被引量：6
8葛媛,布朋生,刘强.模糊强化学习在机器人导航中的应用[J].信息技术,2009,33(10):127-130. 被引量：5
9徐小野,李爱军,张丛丛,姚宗信.基于Q学习的变体无人机控制系统设计[J].西北工业大学学报,2012,30(3):340-344. 被引量：3
10聂永芳,周卿吉,张涛.制导规律研究现状及展望[J].飞行力学,2001,19(3):7-11. 被引量：23

二级参考文献64

1乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
2张克,刘永才,关世义.多智能体系统在导弹攻防对抗仿真中应用的可行性研究[J].战术导弹技术,2001(6):59-65. 被引量：8
3陈春林,陈宗海.Reinforcement learning for mobile robot:fromreaction to deliberation[J].Journal of Systems Engineering and Electronics,2005,16(3):611-617. 被引量：1
4董道毅,陈春林,陈宗海,张陈斌.Quantum Mechanics Helps in Learning for More Intelligent Robots[J].Chinese Physics Letters,2006,23(7):1691-1694. 被引量：1
5彭辉,沈林成,霍霄华.多UAV协同区域覆盖搜索研究[J].系统仿真学报,2007,19(11):2472-2476. 被引量：44
6Lin L J. Reinforencement learning for Robots Using Neural Networks [D].Ph.D. Dissertation, CMU, 1993.
7[1]Yuan P J, Chern J S.Analytic study of biased proportion navigation[J].Journal of Guidance, Control and Dynamics,1992,15(1):185-190.
8[2]Bahu K R,Sarma I G,Swamy K N.Switched bias proportion navigation for homing guidance against highly maneuvering targets[J].Journal of Guidance,Control and Dynamics,1994,17(6):1 357-1 362.
9[3]Guelman M,Shinar J.Optimal guidance law in the plane[J].Journal of Guidance,Control and Dynamics,1984,7(6):471-476.
10[4]Imado F.Some aspects of a realistic three-dimensional pursuit-evasion game[J].Journal of Guidance, Control and Dynamics,1993,16(2):289-293.

共引文献80

1方俊逸,陈国良.追捕条件下旋翼无人机逃脱方法研究[J].数字制造科学,2023(2):114-119. 被引量：1
2吴进华,童红俊,李晓东.攻击大机动目标的L2RG研究[J].海军航空工程学院学报,2006,21(5):501-505. 被引量：3
3曾家有,赵红超,潘长鹏.反舰导弹基于虚拟目标的大空域变轨弹道设计[J].航天控制,2005,23(1):69-71. 被引量：5
4顾文锦,赵红超,王凤莲,胡云安.实现大空域变轨的三维虚拟目标比例导引律[J].现代防御技术,2005,33(1):40-43. 被引量：9
5张邦楚,韩子鹏,李臣民.简易制导航弹非线性控制[J].弹道学报,2005,17(1):13-17.
6GU,Wen-jin,顾文锦,赵红超,杨智勇.变结构控制在导弹制导中的应用综述[J].飞行力学,2005,23(1):1-4. 被引量：22
7徐鸣,吴庆宪,姜长生.空空导弹攻击机动目标的三维最优制导律研究[J].航空兵器,2005,12(6):7-12. 被引量：11
8王伟红,唐硕,方慧,张燎.寻的防空导弹的一种弹道优化方法[J].弹道学报,2006,18(3):22-24. 被引量：1
9左斌,李静,胡云安.一种攻击大机动目标的变参数组合导引律[J].飞行力学,2007,25(2):46-49. 被引量：2
10王亚飞,方洋旺,周晓滨.比例导引律研究现状及其发展[J].火力与指挥控制,2007,32(10):8-12. 被引量：34

同被引文献276

1郑成辰,李辉,陶伟,刘思成,吴冯国,何立.基于深度强化学习的导弹末端约束角制导律[J].战术导弹技术,2022(6):93-102. 被引量：6
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020,2(4):314-326. 被引量：64
3崔平远,秦同,朱圣英.火星动力下降自主导航与制导技术研究进展[J].宇航学报,2020,41(1):1-9. 被引量：22
4陈雄,许进升.现代兵器固体火箭动力技术现状与展望[J].前瞻科技,2022(4):99-112. 被引量：3
5倪炜霖,王永海,徐聪,赤丰华,梁海朝.基于强化学习的高超飞行器协同博弈制导方法[J].航空学报,2023,44(S02):55-66. 被引量：8
6黎克波,廖选平,梁彦刚,李超勇,陈磊.基于纯比例导引的拦截碰撞角约束制导策略[J].航空学报,2020(S02):79-88. 被引量：21
7肖惟,于江龙,董希旺,李清东,任章.过载约束下的大机动目标协同拦截[J].航空学报,2020(S01):184-194. 被引量：28
8查旭,崔平远,常伯浚.攻击固定目标的飞行器制导控制一体化设计[J].宇航学报,2005,26(1):13-18. 被引量：21
9杨善林,罗贺,胡小建.基于Q学习的自主Agent模型[J].微电子学与计算机,2006,23(9):203-205. 被引量：5
10周兵,崔桂香,陈乃祥.基于尺度相似假设的大涡模拟动力方法[J].清华大学学报（自然科学版）,2006,46(8):1438-1441. 被引量：3

引证文献33

1方洋旺,邓天博,符文星.智能制导律研究综述[J].无人系统技术,2020,3(6):36-42. 被引量：9
2柳絮润,姚文杰.基于Policy Gradient的自动驾驶仪控制参数设计[J].自动化与仪器仪表,2021(2):1-4. 被引量：1
3岳杰顺,权晓波,叶舒然,王静竹,王一伟.水下发射水动力的多尺度预测网络研究[J].力学学报,2021,53(2):339-351. 被引量：7
4汪韧,惠俊鹏,俞启东,李天任,杨奔.基于LSTM模型的飞行器智能制导技术研究[J].力学学报,2021,53(7):2047-2057. 被引量：11
5朱建文,赵长见,李小平,包为民.基于强化学习的集群多目标分配与智能决策方法[J].兵工学报,2021,42(9):2040-2048. 被引量：36
6侯贤乐,李辉,王壮,吴昭欣,文瀚.基于DDPG算法的导弹末制导律设计[J].战术导弹技术,2021(4):110-116. 被引量：5
7张阳康,孙晨,泮斌峰.行星软着陆GPS有模型强化学习制导方法[J].飞控与探测,2021,4(5):34-43. 被引量：4
8裴培,何绍溟,王江,林德福.一种深度强化学习制导控制一体化算法[J].宇航学报,2021,42(10):1293-1304. 被引量：35
9LIN Xiangyang,XING Qinghua,LIU Fuxian.Choice of discount rate in reinforcement learning with long-delay rewards[J].Journal of Systems Engineering and Electronics,2022,33(2):381-392. 被引量：1
10李博皓,安旭曼,杨晓飞,吴云洁,李国飞.攻击角度约束下的分布式强化学习制导方法[J].宇航学报,2022,43(8):1061-1069. 被引量：11

二级引证文献151

1苗昊春,刘重,王根.协同制导控制技术发展现状及展望[J].前瞻科技,2022(4):40-54. 被引量：3
2唐伟峰,赵敏,张智.耐压器水下出筒碰撞分析与仿真验证[J].机械设计,2024,41(S02):20-24.
3赵西增,徐天宇,谢玉林,吕超凡,姚炎明,解静,常江.基于卷积神经网络的涵洞式直立堤波浪透射预测[J].力学学报,2021,53(2):330-338. 被引量：7
4张珍,叶舒然,岳杰顺,王一伟,黄晨光.基于组合神经网络的雷诺平均湍流模型多次修正方法[J].力学学报,2021,53(6):1532-1542. 被引量：16
5张洺溪,谷丰,何玉庆,狄春雷,褚玲玲,聂虹宇.空中-水面子母无人平台系统设计与协同控制[J].无人系统技术,2021,4(4):85-96. 被引量：4
6袁浩,刘紫燕,梁静,梁水波,孙昊堃.融合LSTM的深度强化学习视觉导航[J].无线电工程,2022,52(1):161-167. 被引量：7
7杜祥波,陈少强,侯靖尧,张帆,胡海豹,任峰.基于卷积神经网络的钝体尾迹识别研究[J].力学学报,2022,54(1):59-67. 被引量：6
8胡任祎,贺彦峰,史丽楠,马洋洋,泮斌峰.改进型模型预测静态规划制导律算法[J].航天控制,2022,40(3):22-27. 被引量：1
9邵会兵,詹韬,付京博.弱模型依赖通用智能姿态控制技术[J].上海航天（中英文）,2022,39(4):66-75. 被引量：5
10庞登浩,胡帆汛,李哲楷,连横.基于截痕法和遗传算法的FAST主动反射面形状调节模型研究[J].淮北师范大学学报（自然科学版）,2022,43(3):31-35. 被引量：1

1彭军,王成龙,蒋富,顾欣,牟玥玥,刘伟荣.一种车载服务的快速深度Q学习网络边云迁移策略[J].电子与信息学报,2020,42(1):58-64. 被引量：8
2王子安,龚正,陈永亮,史志伟,徐锦法.混合动力复合翼应急迫降在线航迹规划与制导[J].航空学报,2019,40(10):207-220. 被引量：2
3张立新.幕阵列天幕立靶测试系统[J].西安工业大学学报,2019,39(6):675-675. 被引量：1
4熊信林,何川,冯坤,王淑珍.阻塞性睡眠呼吸暂停综合征增加急性心肌梗死后心力衰竭再入院[J].临床心血管病杂志,2019,35(11):1025-1028. 被引量：5
5陈鹏.乡村治理的自主性困境及其化解[J].山西农业大学学报（社会科学版）,2020,19(1):47-55.
6杨秀霞,曹唯一,张毅,徐鹏.基于轨道变换法的多无人机跟踪相角修正研究[J].飞行力学,2019,37(6):40-45.
7张旭,张涛,赵汉武.无人机密集编队穿越竞速导引算法[J].空军工程大学学报（自然科学版）,2019,20(6):23-26. 被引量：1
8刘柏均,侯明善,余英.考虑自动驾驶仪动态特性的三维双环制导律[J].控制与决策,2019,34(10):2185-2190.
9张贺,姚杰,隋江华,邓英杰,张国庆.基于DSC的欠驱动船舶路径跟踪神经滑模控制[J].船舶工程,2019,41(10):85-90. 被引量：9
10戴志京,孙蓉,钱小建.多层螺旋CT联合磁共振扩散加权成像在肺部结节良恶性病变鉴别诊断中的应用[J].中国CT和MRI杂志,2019,17(12):62-64. 被引量：25

系统工程与电子技术

2020年第2期

浏览历史

内容加载中请稍等...

Q-learning强化学习制导律被引量：33

参考文献12

二级参考文献64

共引文献80

同被引文献276

引证文献33

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

Q-learning强化学习制导律 被引量：33

参考文献12

二级参考文献64

共引文献80

同被引文献276

引证文献33

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

Q-learning强化学习制导律被引量：33