基于深度强化学习的无人机三维场景导航方法研究被引量：1

Research on UAV three-dimensional scene navigation based on deep reinforcement learning

下载PDF

导出

摘要近年来,无人机产业规模与应用需求不断扩大,实现无人机的自主化和智能化成为了行业内亟待解决的核心问题。无人机导航作为无人机自主控制领域的基础技术,已然成为无人机应用研究的重中之重。目前大多数无人机导航方法依赖于环境信息的重建,消耗过多的计算和内存,无法满足日益复杂的场景与实时性要求。因此,基于深度学习卓越的表征学习能力与强化学习的自主学习决策能力,提出无人机自主导航方法,通过不断自主学习优化决策策略,更好地完成导航任务。首先构造连续性动作空间以及非稀疏性奖励函数,用来引导无人机的学习过程;并设计特征提取模块与决策模块来提高无人机感知能力和决策能力。实验结果表明,在仿真三维场景下,该算法表现出最优的导航避障性能,在所设计的三维场景下导航成功率可达到87%,平均累计奖励收敛值较同期方法提高33%,同时缩短训练时长,提高训练稳定性。 In recent years,with the UAV industry and application demands expanding,the realization of UAV autonomy and intelligence has been identified as a critical challenge As a foundational technology in the field of autonomous control of UAVs,UAV navigation and exploration have become a top priority in UAV application research.Currently,most UAV navigation and exploration methods rely on the reconstruction of environmental information,consuming excessive computation and memory,thus failing to meet the increasingly complex scenarios and real-time requirements.Therefore,based on the excellent representation learning ability of deep learning and the self-learning decision-making ability of reinforcement learning,an autonomous navigation method for unmanned aerial vehicles was proposed.By continuously optimizing decision-making strategies through self-learning,the navigation task could be better completed.The method first constructed a continuous action space and a non-sparse reward function to guide the learning process of the drone;then designed feature-extraction and decision-making modules to enhance the perception and decision-making capabilities of the UAV.The experimental results demonstrated that the algorithm exhibited the best navigation and obstacle avoidance performance in the simulated 3D scene.The navigation success rate in the designed 3D scene reached 87%,a 33%increase in average cumulative reward convergence value over that of the same period method,reduced the training time,and improved training stability.

作者刘伯凯殷雪峰孙传昱葛慧林魏子麒姜雨彤朴海音周东生杨鑫 LIU Bokai;YIN Xuefeng;SUN Chuanyu;GE Huilin;WEI Ziqi;JIANG Yutong;PIAO Haiyin;ZHOU Dongsheng;YANG Xin(Key Laboratory of Social Computing and Cognitive Intelligence,School of Computer Science,Dalian University of Technology,Dalian Liaoning 116024,China;School of Automation,Jiangsu University of Science and Technology,Zhenjiang Jiangsu 212100,China;Nstitute of Automation,Chinese Academy of Sciences,Beijing 100190,China;National Key Laboratory of Advanced Off-road System Technology,China North Vehicle Research Institute,Beijing 100072,China;Shenyang Aircraft Design and Research Institute,Aviation Industry Corporation of China,Shenyang Liaoning 110035,China;School of Software Engineering,Dalian University,Shenyang Liaoning 116024,China)

机构地区大连理工大学计算机学院社会计算与认知智能教育部重点实验室江苏科技大学自动化学院中国科学院自动化研究所中国北方车辆研究所先进越野系统技术全国重点实验室中国航空工业集团公司沈阳飞机设计研究所大连大学软件工程学院

出处《图学学报》北大核心 2025年第5期1010-1017,共8页 Journal of Graphics

基金国家自然科学基金(62441216) 科技部“脑科学与类脑研究”重大项目(2022ZD0210500)。

关键词深度强化学习注意力机制无人机导航避障三维场景 deep reinforcement learning attention mechanism unmanned aerial vehicle navigation and obstacle avoidance 3D scene

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391.41 [自动化与计算机技术—计算机应用技术] V279 [航空宇航科学与技术—飞行器设计] V249.3 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献2

1丁建川,肖金桐,赵可新,贾冬青,崔炳德,杨鑫.基于脉冲神经网络的复杂场景导航避障算法[J].图学学报,2023,44(6):1121-1129. 被引量：2
2伍一鹤,张振宁,仇栋,李蔚清,苏智勇.基于深度强化学习的虚拟手自适应抓取研究[J].图学学报,2021,42(3):462-469. 被引量：5

二级参考文献8

1张巧荣,崔明义.基于改进Dijkstra算法的机器人路径规划方法[J].微计算机信息,2007(01Z):286-287. 被引量：11
2付宜利,刘诚.虚拟装配中基于生理约束的虚拟手建模与抓持规划[J].计算机集成制造系统,2009,15(4):681-684. 被引量：4
3蔡娴娟,程成,Alhazmi Marwah,Mostafa Hamdy Salem,MongHeng Ear.虚拟制造环境中虚拟手的行为构造[J].计算机辅助设计与图形学学报,2015,27(3):499-507. 被引量：8
4方伟,黄增强,徐建斌,黄羿,马新强.基于Spark的分布式机器人强化学习训练框架[J].图学学报,2019,40(5):852-857. 被引量：2
5周宇杭,王文明,李泽彬,代宇浩,徐宇豪,柳晨阳.基于A星算法的移动机器人路径规划应用研究[J].电脑知识与技术,2020,16(13):1-3. 被引量：11
6王晓媛,田浩,王长波.虚拟手自然抓取动作生成研究[J].计算机辅助设计与图形学学报,2020,32(9):1502-1508. 被引量：7
7张军军.基于注意力机制卷积脉冲神经网络的目标识别方法[J].计算机与数字工程,2022,50(9):1956-1961. 被引量：2
8刘乃军,鲁涛,蔡莹皓,王硕.机器人操作技能学习方法综述[J].自动化学报,2019,45(3):458-470. 被引量：43

共引文献5

1杨曦中,万华根.一种基于LeapMotion的灵巧虚拟手抓取交互方法[J].航空电子技术,2021,52(3):1-8. 被引量：3
2王铮,成尔卓,史建新,杨博,廖浩添.一种脑卒中手部康复设备研究[J].物联网技术,2022,12(6):74-77. 被引量：2
3陈立家,张子健,郝国柱,李世刚,王凯,黄立文.面向VR航海模拟器的虚拟手交互方法研究[J].中国航海,2023,46(3):135-144. 被引量：3
4刘晓德,郭宇飞,黄旭辉,马喆.基于脉冲神经网络的智能控制研究进展[J].控制理论与应用,2024,41(12):2189-2206. 被引量：2
5张旭辉,郭宇,黄少华,郑冠冠,汤鹏洲,马旭升.融合知识迁移的灵巧手抓取姿态生成[J].图学学报,2025,46(2):358-368.

同被引文献12

1王福.基于物联网的水稻生长环境智能监测与控制系统研究[J].北方水稻,2024,54(5):61-63. 被引量：9
2高卫斌,叶允英.基于深度学习的水稻病虫害智能识别系统研究[J].北方水稻,2024,54(6):63-66. 被引量：4
3李萍.虚拟现实环境下的水稻栽培技术培训系统研究[J].北方水稻,2024,54(6):76-78. 被引量：3
4田然.园林景观与水稻农业融合设计的生态系统服务优化[J].北方水稻,2024,54(6):82-84. 被引量：7
5项昌乐,徐彬,唐寿星,樊伟,孙寒,刘润江,文行健,芮超.特种无人机创新应用与关键技术发展研究[J].中国工程科学,2025,27(2):62-72. 被引量：7
6梅雨琳,曲良东,饶爽.多策略改进蜣螂优化算法的无人机航迹规划[J].电子测量技术,2025,48(11):67-77. 被引量：1
7李晓信,刘志宏,王冠政,王祥科.基于深度强化学习的四旋翼无人机双向推力控制[J].机器人,2025,47(3):305-314. 被引量：2
8陈运翔,张建平,王致远,邹翔,赵嶷飞,赖庭峰.基于机动避撞策略的低空多旋翼无人机安全间隔计算模型[J].航空学报,2025,46(11):342-358. 被引量：1
9刘芳,卢晨阳,路言,王鑫.基于自适应模板更新的Transformer无人机目标跟踪算法[J].航空学报,2025,46(16):285-296. 被引量：3
10韩誉,刘浩然,林文树.基于改进YOLOv10和无人机影像的树种识别[J].森林工程,2025,41(5):922-935. 被引量：4

引证文献1

1高成吉.基于语音识别技术的水稻田无人机自主巡检系统开发[J].北方水稻,2025,55(6):194-196.

1吴双.基于激光SLAM的动态适应性移动机器人自主导航方法[J].河北水利电力学院学报,2025,35(3):30-36.
2崔柳青.Bauma 2025:电动化与智能化成焦点[J].商用汽车,2025(2):18-21.

图学学报

2025年第5期

浏览历史

内容加载中请稍等...

基于深度强化学习的无人机三维场景导航方法研究被引量：1

参考文献2

二级参考文献8

共引文献5

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的无人机三维场景导航方法研究 被引量：1

参考文献2

二级参考文献8

共引文献5

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的无人机三维场景导航方法研究被引量：1