基于Q-Learning算法和神经网络的飞艇控制被引量：5

Airship control based on Q-Learning algorithm and neural network

导出

摘要针对现代飞艇控制中动力学模型不确定性带来的系统建模和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和在线学习机制的控制策略。设计了一种在分析实际运动的基础上建立飞艇控制马尔可夫决策过程(MDP)模型的方法,具有自适应性。采用Q-Learning算法进行在线学习并利用小脑模型关节控制器(CMAC)神经网络对动作值函数进行泛化加速。对本文方法进行仿真并与经过参数整定的PID控制器对比,验证了该控制策略的有效性。结果表明,在线学习过程能够在数小时内收敛,通过自适应方法建立的MDP模型能够满足常见飞艇控制任务的需求。本文所提控制器能够获得与PID控制器精度相当且更为智能的控制效果。 An autonomous on-line learning control strategy based on adaptive modeling mechanism was proposed aimed at system modeling and parameter identification problems resulting from dynamic model uncertainties in modern airship control. An adaptive method to establish airship control Markov decision process（ MDP） model was introduced on the foundation of analyzing airship＇s actual motion. On-line learning was carried out by Q-Learning algorithm,and cerebellar model articulation controller（ CMAC） network was brought in for generalization of action value functions to accelerate algorithm convergence speed. Simulations of this autonomous on-line learning controller and comparisons with parameters turned PID controllers in normal control tasks were presented to demonstrate Q-Learning controller＇s effectiveness. The results show that the controller＇s on-line learning processes can converge in a few hours and the airship control MDP model established by the adaptive method satisfies the need of normal control tasks. The controller designed in this paper obtains similar precision as PID controllers and performs even more intelligently.

作者聂春雨祝明郑泽伟武哲

机构地区北京航空航天大学航空科学与工程学院北京航空航天大学自动化科学与电气工程学院

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2017年第12期2431-2438,共8页 Journal of Beijing University of Aeronautics and Astronautics

基金国家自然科学基金(61503010) 中央高校基本科研业务费专项资金(YWF-14-RSC-103)~~

关键词飞艇马尔可夫决策过程(MDP) 机器学习 Q-LEARNING 小脑模型关节控制器(CMAC) airship Markov decision process （MDP） machine learning Q-Learning cerebellar model articulation controller （CMAC）

分类号 V274 [航空宇航科学与技术—飞行器设计] V249.22 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献1

1赵达,刘东旭,孙康文,陶国权,祝明,武哲.平流层飞艇研制现状、技术难点及发展趋势[J].航空学报,2016,37(1):45-56. 被引量：85

二级参考文献53

1方丽娟,屈卫东.平流层飞艇多能源的优化管理系统[J].控制工程,2008,15(S1):172-175. 被引量：2
2李晓阳.变体飞艇创新技术及其科学意义[J].前沿科学,2008,2(2):53-62. 被引量：9
3王海峰,宋笔锋,王海平.高空飞艇定点控制关键技术及解决途径[J].飞行力学,2005,23(4):5-8. 被引量：15
4刘丹,王晓亮,单雪雄.平流层飞艇的附加质量及其对飞艇运动的影响[J].计算机仿真,2006,23(6):52-56. 被引量：21
5宋世栋,张华民,马霄平,张益宁,衣宝廉.一体式可再生燃料电池[J].化学进展,2006,18(10):1375-1380. 被引量：15
6李智斌,张芸香,倪茂林.平流层飞艇控制与推进技术[J].航天控制,2007,25(1):21-25. 被引量：10
7王海峰,宋笔锋,刘斌,安伟刚.高空飞艇总体设计方法研究[J].西北工业大学学报,2007,25(1):56-60. 被引量：15
8曹旭,顾正铭,王志伟,杨庆.美国ISIS平流层飞艇概述[C]//2011年中国浮空器大会论文集.航空工业出版社.2011:113-118.
9赵攀峰,王永林,刘传超.平流层飞艇放飞、回收过程初步分析[J].航空科学技术,2007(4):25-30. 被引量：5
10MASAHIKO O. Design and applications of a stratospheric long endurance LTA platform: AIAA-2001-5266[R]. Re- ston: AIAA, 2001.

共引文献84

1曹天赐,聂营,王苏宁,温昊驹,马洪强.基于管式应变天平的飞艇螺旋桨飞行测力系统[J].机械工程学报,2022,58(16):301-308. 被引量：1
2朱李芳,王显达,乔陟,刘平平.热合工艺对热合布材料性能的影响[J].合成材料老化与应用,2022,51(6):17-18. 被引量：1
3余建新,卫剑征,谭惠丰.飞艇骨架结构动态损伤识别方法[J].航空学报,2016,37(11):3385-3394. 被引量：3
4李朋辉,吕明云,孟军辉.考虑组分相互作用的飞艇蒙皮材料力学模型[J].科学技术与工程,2016,16(36):93-98.
5何攀峰,程乃平,倪淑燕.高空平台通信系统中基于预测的小区切换算法[J].北京航空航天大学学报,2017,43(3):551-558.
6夏明华,朱又敏,陈二虎,邢成文,杨婷婷,温文坤.海洋通信的发展现状与时代挑战[J].中国科学：信息科学,2017,47(6):677-695. 被引量：57
7田枫影,沈静波.基于Qt的气球集群显示控制系统[J].空军预警学院学报,2018,32(2):123-126.
8徐雷,王雪明.飞艇柔性蒙皮材料梯形撕裂性能研究[J].科学技术创新,2018(4):56-57.
9冯凯,赵达,孟小君,张小俊,刘东旭.带辅助安定面平流层飞艇的航向静稳定性分析[J].宇航学报,2018,39(7):715-723. 被引量：2
10周利霖,廉永正,刘财芝,李道奎.大型复合材料空间刚架缩比模型设计方法[J].国防科技大学学报,2018,40(3):55-60. 被引量：7

同被引文献46

1Amanda LAMPTON,John VALASEK,Mrinal KUMAR.Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J].控制理论与应用（英文版）,2011,9(3):431-439. 被引量：1
2张文志,吕恬生.Reactive fuzzy controller design by Q-learning for mobile robot navigation[J].Journal of Harbin Institute of Technology(New Series),2005,12(3):319-324. 被引量：5
3王帅.煤矿井下基于Q-learning算法的移动机器人路径规划[J].现代电子技术,2008,31(24):106-108. 被引量：3
4余涛,周斌,陈家荣.基于Q学习的互联电网动态最优CPS控制[J].中国电机工程学报,2009,29(19):13-19. 被引量：37
5朱文英,马天山.零库存管理理论在制造企业中的应用[J].物流技术,2009,28(8):140-142. 被引量：11
6黄文杰,黄奕.零库存可行性分析和风险防范措施[J].企业经济,2009,28(9):38-40. 被引量：6
7葛媛,布朋生,刘强.模糊强化学习在机器人导航中的应用[J].信息技术,2009,33(10):127-130. 被引量：5
8胡雨亭.库存的弊端与实现零库存的方法[J].湖北社会科学,2011(3):87-89. 被引量：4
9胡亮,顾明,李黎.基于本征正交分解的谱表示法模拟风场的误差[J].振动与冲击,2011,30(4):12-15. 被引量：5
10张晶晶,周德云,张堃.一种基于强化学习的UAV目标搜索算法[J].计算机应用研究,2011,28(10):3659-3661. 被引量：4

引证文献5

1卫玉梁,靳伍银.基于神经网络Q-learning算法的智能车路径规划[J].火力与指挥控制,2019,44(2):46-49. 被引量：19
2闫军威,黄琪,周璇.基于Double-DQN的中央空调系统节能优化运行[J].华南理工大学学报（自然科学版）,2019,47(1):135-144. 被引量：15
3汪黎明.制造企业零库存管理物资调度方法研究[J].价值工程,2019,38(23):126-129. 被引量：1
4张秦浩,敖百强,张秦雪.Q-learning强化学习制导律[J].系统工程与电子技术,2020,42(2):414-419. 被引量：33
5龙远,邓小龙,杨希祥,侯中喜.基于PSO-BP神经网络的平流层风场短期快速预测[J].北京航空航天大学学报,2022,48(10):1970-1978. 被引量：18

二级引证文献86

1杨琳.高层建筑空调节能设计及室内热舒适性研究[J].江西建材,2023(2):97-99. 被引量：1
2史小康,胡艳冰,王攀峰,张文军,刘博.平流层准零风层的研究进展[J].地球科学进展,2023,38(9):916-930. 被引量：1
3甘智超,郭硕昌,陶盈盈,荆瑞江,余波.基于PCA-BP神经网络的管道内壁几何形状识别[J].固体力学学报,2023,44(5):622-636. 被引量：6
4杨洋,张建敏,刘艺林,宋馨.基于改进蚁群算法的无人仓的多AGV避碰路径优化策略[J].数学的实践与认识,2020,50(16):1-9. 被引量：9
5随博文,黄志坚,姜宝祥,郑欢,温家一.基于深度Q网络的水面无人艇路径规划算法[J].上海海事大学学报,2020,41(3):1-5. 被引量：9
6方洋旺,邓天博,符文星.智能制导律研究综述[J].无人系统技术,2020,3(6):36-42. 被引量：9
7屈瑜,张航.企业物资管理中“零库存”管理模式的应用[J].石油石化物资采购,2021(4):8-9.
8柳絮润,姚文杰.基于Policy Gradient的自动驾驶仪控制参数设计[J].自动化与仪器仪表,2021(2):1-4. 被引量：1
9郑永玲,白宇,杨楠,蒋顺英.基于Bi-A^(*)的ACO算法的最快路径推荐[J].现代信息科技,2020,4(22):74-80. 被引量：1
10任学干,葛英飞.基于改进势场蚁群算法的AGV路径规划[J].南京工程学院学报（自然科学版）,2021,19(1):36-41. 被引量：3

1张继东.基于情景化偏好的移动社交网络信息服务自适应建模研究[J].现代情报,2017,37(12):70-73. 被引量：4
2宋蕾.社区教育助推学习型社会建设的实践探索[J].中国成人教育,2017(23):136-138. 被引量：6
3Meredith拟收购《财富》母公司时代集团[J].经营管理者,2017,0(34):9-9.
4王通,段泽文,李琨.基于改进AdaBoost的油井动液面自适应集成建模[J].电子测量与仪器学报,2017,31(8):1342-1348. 被引量：10
5刘阳,耿娜.面向多检查的门诊患者调度研究[J].运筹与管理,2017,26(9):78-87. 被引量：6
6覃志武,谢晋雄,蔡伊娜,闫毅宣.基于环境与神经网络的软件自适应建模[J].深圳大学学报（理工版）,2017,34(6):570-576. 被引量：1
7叶兴.扬州市江都区：“订制”远程教育服务[J].党的生活（江苏）,2017,0(12):40-40.
8杜斌,刘亚慧,姚善化.基于AEKF的永磁同步电机容错控制研究[J].电力电子技术,2017,51(10):121-124. 被引量：1
9陈炎冬,杨敏,许轰烈,刘洁.采用遗传算法参数整定的车辆ABS分数阶PID控制[J].制造业自动化,2018,40(1):24-27. 被引量：4
10侯利民,任一夫.基于滑模ESO转速辨识的永磁同步电机滑模自抗扰控制[J].计算机应用,2017,37(A02):274-278. 被引量：1

北京航空航天大学学报

2017年第12期

浏览历史

内容加载中请稍等...

基于Q-Learning算法和神经网络的飞艇控制被引量：5

参考文献1

二级参考文献53

共引文献84

同被引文献46

引证文献5

二级引证文献86

相关作者

相关机构

相关主题

浏览历史

基于Q-Learning算法和神经网络的飞艇控制 被引量：5

参考文献1

二级参考文献53

共引文献84

同被引文献46

引证文献5

二级引证文献86

相关作者

相关机构

相关主题

浏览历史

基于Q-Learning算法和神经网络的飞艇控制被引量：5