基于深度强化学习的状态分解避障被引量：1

State Decomposition Obstacle Avoidance Based on Deep Reinforcement Learning

下载PDF

导出

摘要无人机近些年来发展迅速,但无人机自主导航由于难以同时观测、定位、决策和行动而面临重大挑战。针对无人机三维环境下的自主导航决策,提出了一种高效的状态分解深度确定性策略梯度算法。基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,根据自身状态提出了一种新的状态分解方法,即对感知相关状态和自身相关状态分别使用两个子网络,以建立更合适的行动者网络,并分化经验池的PM(Prioritized Memory)DDPG方法。通过虚拟引擎中的airsim平台下进行三维环境搭建并训练。实验证明,提出的PM DDPG算法能有效提高无人机在三维复杂环境中的导航性能,较传统DDPG,TD3算法在收敛速度,训练无人机到达目标点的效率方面均有更好表现。 Unmanned Aerial Vehicles(UAVs)have developed rapidly in recent years,but autonomous navigation of UAVs faces significant challenges due to the difficulty of simultaneous observation,positioning,decision,making,and action.An efficient state decomposition deep deterministic strategy gradient algorithm is proposed for autonomous navigation decision making in the three dimensional environment of UAVs.Based on the Deep Deterministic Policy Gradient(DDPG)algorithm,a new state decomposition method is proposed according to the self state,which uses two sub networks for the perception related state and the self related state respectively to establish a more suitable actor network,and divides the experience pool into PM(Prioritized Memory)DDPG methods.By using the airsim platform in the virtual engine to build and train a 3D environment,experiments have shown that the proposed PM DDPG algorithm can effectively improve the navigation performance of UAVs in complex 3D environments.Compared to traditional DDPG,TD3 algorithm performs better in terms of convergence speed and efficiency in training UAVs to reach the target point.

作者程擎曾嘉诚 CHEN Qing;ZENG Jia cheng(Civil Aviation Flight University of China,Guanghan 618000,China)

机构地区中国民用航空飞行学院

出处《航空计算技术》 2025年第1期1-6,共6页 Aeronautical Computing Technique

基金交通运输工程一流学科建设项目资助(CZYL2024002) 导航工程新工科人才培养实践创新平台建设探索与实践项目资助(MHJT2023043)。

关键词深度强化学习 DDPG 无人机避障 deep reinforcement learning DDPG UAVs obstacle avoidance

分类号 V279 [航空宇航科学与技术—飞行器设计] V249 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献8

1全权,李刚,柏艺琴,付饶,李梦芯,柯晨旭,蔡开元.低空无人机交通管理概览与建议[J].航空学报,2020,41(1):1-29. 被引量：111
2张宏宏,甘旭升,毛亿,杨春林,谢晓伟.无人机避障算法综述[J].航空兵器,2021,28(5):53-63. 被引量：32
3李安醍,武丁杰,李诚龙.低空无人机自主避障算法综述[J].电光与控制,2021,28(8):59-64. 被引量：19
4焦卫东,刘爽,张思远.基于速度障碍-近端策略优化的无人机避障方法[J].航空计算技术,2024,54(3):16-19. 被引量：1
5吕东超,李少波,蒲睿强,张黔富,陈光林,旷华聪.旋翼无人机的双目视觉避障技术综述[J].电光与控制,2023,30(11):67-75. 被引量：6
6张云燕,魏瑶,刘昊,杨尧.基于深度强化学习的端到端无人机避障决策[J].西北工业大学学报,2022,40(5):1055-1064. 被引量：18
7魏瑶,刘志成,蔡彬,陈家新,杨尧,张凯.基于深度循环双Q网络的无人机避障算法研究[J].西北工业大学学报,2022,40(5):970-979. 被引量：7
8胡子剑,高晓光,万开方,张乐天,汪强龙,NERETIN Evgeny.异策略深度强化学习中的经验回放研究综述[J].自动化学报,2023,49(11):2237-2256. 被引量：11

二级参考文献68

1胡明华,徐肖豪,陈爱民,袁卫东.空中交通流量管理中的多元受限地面等待策略问题研究[J].航空学报,1998,19(1):78-82. 被引量：37
2张进,胡明华,张晨.空中交通管理中的复杂性研究[J].航空学报,2009,30(11):2132-2142. 被引量：71
3丁水汀,鲍梦瑶,杜发荣.无人机系统适航与安全性分析方法[J].航空动力学报,2012,27(1):233-240. 被引量：23
4黄文刚,张怡,姜文毅,廉晶晶.变步长稀疏A~＊算法的无人机航路规划[J].计算机工程与应用,2012,48(29):206-209. 被引量：16
5陈侠,刘冬.应用D~* Lite算法的目标移动时无人机三维航迹规划[J].电光与控制,2013,20(7):1-5. 被引量：8
6梁宵,王宏伦,李大伟,吕文涛.基于流水避石原理的无人机三维航路规划方法[J].航空学报,2013,34(7):1670-1681. 被引量：23
7金安,程承旗.基于全球剖分网格的空间数据编码方法[J].测绘科学技术学报,2013,30(3):284-287. 被引量：31
8陈伟锋,邵之江.基于析取关系直接变换的冲突解脱方法[J].航空学报,2014,35(4):1122-1133. 被引量：4
9李华,吴福朝,胡占义.一种新的线性摄像机自标定方法[J].计算机学报,2000,23(11):1121-1129. 被引量：46
10王渊,孙秀霞,刘树光,徐光智,常允刚.基于改进人工蜂群算法的多机飞行冲突解脱策略[J].空军工程大学学报（自然科学版）,2014,15(3):10-14. 被引量：12

共引文献191

1王庆,邓小芳,朋静,秦真,廖勇.基于人工智能的无人机自组网路由算法研究进展[J].新一代信息技术,2023,6(20):34-40. 被引量：3
2张旭,焦庆宇.无人机空中交通管理体系架构研究[J].武汉理工大学学报,2020,42(9):29-37. 被引量：4
3廖小罕,徐晨晨,叶虎平,谭翔,房世峰,黄耀欢,林静.无人机应用发展关键基础设施与低空公共航路网规划[J].中国科学院院刊,2022,37(7):977-988. 被引量：30
4王羿,叶辉,杨晓飞.基于无源性与势场法的四旋翼避障与位置控制[J].航空学报,2023,44(S01):225-235. 被引量：2
5王春艳,张成谦,王祥,许宁.改进YOLOv7-tiny网络的多尺度无人机航拍小目标检测[J].测绘科学,2023,48(11):189-199. 被引量：10
6聂立清.深化学生教育管理适应高校发展趋势[J].思想教育研究,2000(1):42-44. 被引量：3
7韩将星.5G时代无线电监测站无人机云平台建设方案研究[J].通信技术,2020,53(2):345-352. 被引量：13
8邓琦.集成塔台自动化技术和空管场景应用[J].今日自动化,2019,0(11):91-92.
9韩将星.5G时代无线电监测站智能互联网平台技术研究[J].通信技术,2020,53(5):1191-1201. 被引量：11
10张大卫,衣美霖.无人机风险管控研究——以大型群众性活动安保为例[J].北京警察学院学报,2020(2):36-44. 被引量：7

同被引文献11

1张欣,陈玉权,张星炜,王海楠,孟悦.基于双目视觉算法的无人机电力线路检测避障研究[J].制造业自动化,2023,45(9):22-25. 被引量：10
2梁云,张宇晴,郑晋图,张勇.联合吸收马尔可夫链和骨架映射的视频分割[J].软件学报,2024,35(3):1552-1568. 被引量：2
3陈凯,朱建军,李汶翰,王远新,竺子淞,付坤.基于无人机携带自主避障功能研究[J].现代工业经济和信息化,2024,14(5):79-81. 被引量：1
4王思琪,关巍,佟敏,赵盛烨.基于ATMADDPG算法的多水面无人航行器编队导航[J].吉林大学学报（信息科学版）,2024,42(4):588-599. 被引量：3
5梁承宇,张民,张莹.复杂环境下无人机盘旋跟踪地面目标三维航迹规划[J].航空科学技术,2024,35(9):19-28. 被引量：2
6李宁,何义良,赵建辉,刘兆威,田志.基于双DQN算法的机器人手臂带电作业精准导航研究[J].电网与清洁能源,2024,40(11):9-15. 被引量：2
7姚翀,冷治江,魏兴宇,吕耀东,周锐.基于蒙特卡罗采样的侦察无人机轨迹规划冲突研究[J].电脑编程技巧与维护,2025(1):127-129. 被引量：1
8杨健健,程琪,章腾,黄先诚,韩子毅.基于KP-DDPG的矿山运载机器人路径规划实验平台设计[J].实验技术与管理,2025,42(1):143-151. 被引量：1
9王家亮,董楷,顾兆军,陈辉,韩强.小型无人机视觉传感器避障方法综述[J].西安电子科技大学学报,2025,52(1):60-79. 被引量：5
10曹凯,李宁,王立志,李波,赵娜娜.基于单眼视觉的巡检无人机避障策略研究[J].电子器件,2025,48(1):86-90. 被引量：2

引证文献1

1张明航,韩翃,杨依凡.一种基于EDDPG算法的无人机自主导航方法研究[J].云南师范大学学报(自然科学版),2025,45(3):43-48. 被引量：1

二级引证文献1

1罗晓刚,朱志鹏,叶嘉信,田洋,张琛.面向智能巡检的无人机自主导航与任务调度系统设计[J].计算机应用文摘,2025,41(24):151-153.

1邢琰,滕宝毅,黄煌,高明星,龚健,余成武,刘磊,杨孟飞.自主智能微小机器人技术及其月面应用[J].空间控制技术与应用,2024,50(6):64-72. 被引量：4
2陈光源,李洪宇,张启升,张文,杜立彬.投弃式电磁海流计测试系统设计与实现[J].实验技术与管理,2025,42(1):52-58.
3刘悦,李化义,张世杰,张超,赵祥天.面向视觉惯导的导航系统初始化技术综述[J].计算机工程与应用,2025,61(2):1-18. 被引量：3
4张宸威,黄平,张国恒,金志华,陈钰杰,宗蔓祺,迟家俊,邱志川.基于改进A^(*)算法的自适应路径规划研究[J].通信与信息技术,2025(1):43-45. 被引量：4
5关渝媖,赵秉英,曹菊琴,马浩浩,冯彦伟.基于Unity 3D的泥浆泵循环系统虚拟仿真研究与实现[J].山西电子技术,2025(1):10-13. 被引量：2
6程建华,程思翔,齐兵,范世龙,赵国晶,陈思成.电离层闪烁环境下PPP/INS组合导航性能分析[J].航空学报,2024,45(S1):290-298.

航空计算技术

2025年第1期

浏览历史

内容加载中请稍等...

基于深度强化学习的状态分解避障被引量：1

参考文献8

二级参考文献68

共引文献191

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的状态分解避障 被引量：1

参考文献8

二级参考文献68

共引文献191

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的状态分解避障被引量：1