一种基于改进深度确定性策略梯度的移动机器人路径规划算法

A Path Planning Algorithm for Mobile Robots Based on an Improved Deep Deterministic Policy Gradient

下载PDF

导出

摘要深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法采用Actor-Critic框架结构,保证移动机器人运动的连续性。但Critic网络在计算值函数(Q值)时,没有充分考虑各种状态和动作的差异,导致Q值估计不准确;其次,DDPG奖励函数设置过于稀疏,容易导致模型训练时收敛慢;另外,随机均匀采样方式无法高效且充分地利用样本数据。针对上述问题,该文在DDPG的基础上,引入决斗网络来提高Q值的估计精度;优化设计奖励函数以引导移动机器人更加高效合理地运动;将单一经验池分离为双经验池,并采用动态自适应采样机制来提高经验回放的效率。最后,利用机器人操作系统和Gazebo平台搭建的仿真环境进行实验,结果表明,所提算法与DDPG算法相比,训练时间缩短了17.8%,收敛速度提高了57.46%,成功率提高了3%;与其他算法相比,该文所提算法提高了模型训练过程的稳定性,大大提升了移动机器人路径规划的效率和成功率。 The deep deterministic policy gradient(DDPG)algorithm utilizes an actorcritic framework to ensure smooth motion of mobile robots.However,the critic network tends to fail to distinguish effectively between different states and actions,leading to inaccurate Q-value estimates.Additionally,the sparse reward function in DDPG slows down convergence during model training,while the random uniform sampling approach utilizes the sample data inefficiently.To address these challenges,this paper introduces dueling networks to improve Q-value estimation accuracy within DDPG framework.The reward function is optimized to guide the mobile robot toward more efficient and effective movement.Furthermore,the single experience replay buffer is split into two parts,and a dynamic adaptive sampling mechanism is adopted to enhance replay efficiency.Finally,the proposed algorithm is evaluated in a simulation environment built with the robot operating system(ROS)system and Gazebo platform.Experimental results demonstrate that compared to the standard DDPG algorithm,the proposed approach reduces training time by 17.8%,improves convergence speed by 57.46%,and increases the success rate by 3%.Moreover,the proposed method outperforms other algorithms in terms of stability during model training,significantly improving the efficiency and success rate of mobile robot path planning.

作者张庆玲倪翠王朋巩慧 ZHANG Qingling;NI Cui;WANG Peng;GONG Hui(School of Information Science and Electric Engineering,Shandong Jiaotong University,Jinan 250357,Shandong,China;Institute of Automation,Shandong Academy of Sciences,Jinan 250013,Shandong,China)

机构地区山东交通学院信息科学与电气工程学院山东省科学院自动化研究所

出处《应用科学学报》北大核心 2025年第3期415-436,共22页 Journal of Applied Sciences

基金中国博士后科学基金(No.2021M702030) 山东省交通运输厅科技计划项目基金(No.2021B120)。

关键词路径规划深度确定性策略梯度决斗网络经验池分离动态自适应采样 path planning deep deterministic policy gradient(DDPG) dueling network experience pool separation dynamic adaptive sampling

分类号 P751.1 [交通运输工程—港口、海岸及近海工程]

引文网络
相关文献

参考文献3

1鲁毅,高永平,龙江腾.A*算法在移动机器人路径规划中的研究[J].湖北师范大学学报（自然科学版）,2022,42(2):59-65. 被引量：16
2方城亮,杨飞生,潘泉.基于MASAC强化学习算法的多无人机协同路径规划[J].中国科学：信息科学,2024,54(8):1871-1883. 被引量：6
3Bo Li,Zhi-peng Yang,Da-qing Chen,Shi-yang Liang,Hao Ma.Maneuvering target tracking of UAV based on MN-DDPG and transfer learning[J].Defence Technology（防务技术）,2021,17(2):457-466. 被引量：17

二级参考文献15

1史久根,李凯业.基于分层改进D^＊算法的室内路径规划[J].计算机应用研究,2015,32(12):3609-3612. 被引量：28
2樊质军,杨朋英,孙玉霞.基于A星算法的游戏路径优化的仿真分析[J].电脑知识与技术,2018,14(1):195-196. 被引量：2
3申超,李磊,吴洋,刘都群.美国空中有人/无人自主协同作战能力发展研究[J].战术导弹技术,2018(1):16-21. 被引量：45
4吕志刚,李琳,宇文超朋,郜辉.启发式搜索算法路径规划研究[J].国外电子测量技术,2018,37(6):16-21. 被引量：8
5干建松,陆其邦.基于Unity2017 NavMesh的智能寻路设计与实现[J].淮阴工学院学报,2018,27(5):11-14. 被引量：6
6吴宏.增维启发式搜索路径规划算法[J].电脑知识与技术,2016,12(12X):188-191. 被引量：3
7孙梅.移动机器人路径规划技术综述[J].山东工业技术,2016(21):164-164. 被引量：8
8B.K. Patle,Ganesh Babu L,Anish Pandey,D.R.K. Parhi,A. Jagadeesh.A review:On path planning strategies for navigation of mobile robot[J].Defence Technology（防务技术）,2019,15(4):582-606. 被引量：100
9宛博文,陈洁,朱瑞晨,朱大伟,潘子宇.改进的A^*算法在游戏寻路功能中的应用与研究[J].信息化研究,2019,45(6):51-55. 被引量：3
10Gan-lin Shan,Gong-guo Xu,Cheng-lin Qiao.A non-myopic scheduling method of radar sensors for maneuvering target tracking and radiation control[J].Defence Technology（防务技术）,2020,16(1):242-250. 被引量：16

共引文献36

1高敬鹏,胡欣瑜,江志烨.改进DDPG无人机航迹规划算法[J].计算机工程与应用,2022,58(8):264-272. 被引量：11
2华夏,王新晴,芮挺,邵发明,王东.视觉感知的无人机端到端目标跟踪控制技术[J].浙江大学学报（工学版）,2022,56(7):1464-1472. 被引量：4
3朱娜,刘春明.一种基于轮胎独立转向的跨运车变道轨迹规划方法[J].港口装卸,2022(6):34-38.
4宋鑫鹏,赵倩.基于ROS和SLAM的无人消杀机器人系统设计[J].自动化仪表,2023,44(1):61-65. 被引量：9
5文超,董文瀚,解武杰,蔡鸣,胡多修.基于解耦型MADDPG的无人机集群自主跟踪与避障[J].飞行力学,2022,40(6):24-31. 被引量：3
6成旭明,丛玉华,欧阳权,王志胜.基于IMM-PPO的无人机机动目标追踪[J].弹箭与制导学报,2022,42(6):46-54. 被引量：2
7李永丰,吕永玺,史静平,李卫华.深度确定性策略梯度和预测相结合的无人机空战决策研究[J].西北工业大学学报,2023,41(1):56-64. 被引量：9
8徐万福,孙渊(指导),马志鸿.基于改进A^(*)算法的移动机器人路径规划[J].上海电机学院学报,2023,26(2):63-68. 被引量：2
9吴亚晖,刘子豪,曹飞,陈见奇,程杰.基于信号感知的5G无人机实时路径规划方法[J].江苏通信,2023,39(3):10-15.
10陈钰,宗群,张秀云,窦立谦.直升机旋翼振动主动控制方法研究进展[J].哈尔滨工业大学学报,2023,55(8):1-17. 被引量：5

1张子豪.基于DDQN算法的单点交叉口信号控制[J].长江信息通信,2025,38(3):53-56.
2王慧栋,潘杨,朱磊,王白阳.基于细节信息提取与增强的红外与可见光图像融合方法[J].长江信息通信,2025,38(4):43-45.
3吴浩,符玺,崔雄文,王正宁,敬辉,邹翔,高子然,江莉.运动约束下结合区域提议网络的无人机孪生网络跟踪方法[J].信号处理,2025,41(5):924-935. 被引量：1
4向征,吴秋玥,储同,岳伊杨.基于深度强化学习的停机位分配[J].科学技术与工程,2025,25(16):6977-6984.
5王锋,王赛.基于Dueling DQN+PER的单交叉口信号优化方法[J].中国人民公安大学学报(自然科学版),2025,31(2):50-58.

应用科学学报

2025年第3期

浏览历史

内容加载中请稍等...

一种基于改进深度确定性策略梯度的移动机器人路径规划算法

参考文献3

二级参考文献15

共引文献36

相关作者

相关机构

相关主题

浏览历史