基于改进深度Q网络的移动机器人路径规划算法

Mobile Robot Path Planning Algorithm Based on Improved Deep Q-network

下载PDF

导出

摘要随着自动化技术和机器人领域的快速发展,移动机器人路径规划的精确性要求日益提高.针对深度强化学习在复杂环境下路径规划存在的收敛稳定性差、样本效率低及环境适应性不足等问题,提出了一种改进的基于决斗深度双Q网络的路径规划算法(R-D3QN).通过构建双网络架构解耦动作选择与价值估计过程,有效缓解Q值过估计问题,提高收敛稳定性;设计时序优先经验回放机制,结合长短期记忆网络(LSTM)的时空特征提取能力,改进样本利用效率;提出基于模拟退火的多阶段探索策略,平衡了探索与利用,增强环境适应性.实验结果表明,与传统DQN算法相比, R-D3QN算法在简单环境下平均奖励值提高了9.25%,收敛次数减少了24.39%,碰撞次数减少了41.20%;在复杂环境下,平均奖励值提升了12.98%,收敛次数减少了11.86%,碰撞次数减少了42.14%.同时与其他改进的DQN算法对比也具有明显的优势,验证了所提算法的有效性. The rapid advancement of automation technology and robotics requires more precision in mobile robot path planning.To address the problems of poor convergence stability,low sample efficiency,and insufficient environmental adaptability in deep reinforcement learning for path planning in complex environments,this study proposes an enhanced path planning algorithm based on dueling double deep Q-network(R-D3QN).By constructing a dual-network architecture to decouple the action selection and value estimation processes,this method effectively alleviates the Q-value overestimation problem,thereby improving convergence stability.In addition,this method designs a temporal-prioritized experience replay mechanism combined with the spatiotemporal feature extraction capabilities of long short-term memory(LSTM)networks to improve sample utilization efficiency.Finally,this method proposes a multi-stage exploration strategy based on simulated annealing to balance exploration and exploitation,thereby enhancing environmental adaptability.Experimental results demonstrate that,compared to the traditional DQN algorithm,the R-D3QN algorithm achieves a 9.25%increase in average reward value,a 24.39%reduction in convergence iterations,and a 41.20%decrease in collision frequency in simple environments.In complex environments,it shows a 12.98%increase in average reward value,an 11.86%reduction in convergence iterations,and a 42.14%decrease in collision frequency.Furthermore,the effectiveness of the proposed algorithm is validated when compared with other enhanced DQN algorithms.

作者谢天周毅邱宇峰 XIE Tian;ZHOU Yi;QIU Yu-Feng(School of Artificial Intelligence and Automation,Wuhan University of Science and Technology,Wuhan 430081,China;Baosight Software(Wuhan)Co.Ltd.,Wuhan 430080,China)

机构地区武汉科技大学人工智能与自动化学院宝信软件武汉有限公司

出处《计算机系统应用》 2025年第7期37-47,共11页 Computer Systems & Applications

基金国家自然科学基金(62372343)。

关键词移动机器人路径规划深度Q网络强化学习 mobile robot path planning deep Q-network(DQN) reinforcement learning

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献14

1闫皎洁,张锲石,胡希平.基于强化学习的路径规划技术综述[J].计算机工程,2021,47(10):16-25. 被引量：60
2郭建,杨朋,曾志豪,黄颖驹,王家淳.融合改进Dijkstra算法和动态窗口法的移动机器人路径规划[J].组合机床与自动化加工技术,2024(3):36-40. 被引量：23
3喻蝶,鲍柏仲,司言,段暕,詹小斌,史铁林.基于搜索步优化A^(*)算法的移动机器人路径规划[J].系统仿真学报,2025,37(4):1041-1050. 被引量：1
4鲜斌,宋宁.基于模型预测控制与改进人工势场法的多无人机路径规划[J].控制与决策,2024,39(7):2133-2141. 被引量：16
5曾胜,王兵,戴贤君.基于改进的蚁群算法的目标物流车辆路径优化[J].现代电子技术,2024,47(7):181-186. 被引量：7
6肖金壮,余雪乐,周刚,孙可可,周振.一种面向室内AGV路径规划的改进蚁群算法[J].仪器仪表学报,2022,43(3):277-285. 被引量：60
7黄荣杰,王亚刚.基于可视图与改进遗传算法的机器人平滑路径规划[J].控制工程,2024,31(4):678-686. 被引量：14
8赵迪,何克勤,赵祖高.基于改进粒子群优化算法的移动机器人路径规划[J].传感器与微系统,2023,42(6):150-153. 被引量：31
9马天,席润韬,吕佳豪,曾奕杰,杨嘉怡,张杰慧.基于深度强化学习的移动机器人三维路径规划方法[J].计算机应用,2024,44(7):2055-2064. 被引量：10
10董永峰,杨琛,董瑶,屈向前,肖华昕,王子秋.基于改进的DQN机器人路径规划[J].计算机工程与设计,2021,42(2):552-558. 被引量：30

二级参考文献140

1迟旭,李花,费继友.基于改进A^(*)算法与动态窗口法融合的机器人随机避障方法研究[J].仪器仪表学报,2021,42(3):132-140. 被引量：107
2李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：17
3戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
4于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：64
5孙波,陈卫东,席裕庚.基于粒子群优化算法的移动机器人全局路径规划[J].控制与决策,2005,20(9):1052-1055. 被引量：80
6宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
7岳恒,张海军,柴天佑.PSO算法在多模型自校正动态矩阵控制中的应用[J].东北大学学报（自然科学版）,2008,29(2):153-156. 被引量：2
8葛媛,布朋生,刘强.模糊强化学习在机器人导航中的应用[J].信息技术,2009,33(10):127-130. 被引量：5
9朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：348
10张广林,胡小梅,柴剑飞,赵磊,俞涛.路径规划算法及其应用综述[J].现代机械,2011(5):85-90. 被引量：141

共引文献263

1王昊,林远山,李然,于红,王芳.面向养殖网箱巡检任务的强化学习训练系统[J].计算机与数字工程,2023,51(1):103-111. 被引量：1
2罗国攀,张国良,徐佳宝.基于SPE-ICM的移动机器人内在动机避障规划[J].电子测量与仪器学报,2023,37(2):21-27. 被引量：3
3冉宁,杨宏飞,张家明,郝晋渊.基于改进蚁群算法的无人机三维航迹规划[J].电子测量技术,2023,46(20):41-49. 被引量：5
4刘礼,刘勇,孙云权,郭涛.基于自适应蚁群算法的AGV路径规划优化[J].电子测量技术,2023,46(18):100-107. 被引量：2
5邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：18
6曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：4
7林韩熙,向丹,欧阳剑,兰晓东.移动机器人路径规划算法的研究综述[J].计算机工程与应用,2021,57(18):38-48. 被引量：133
8李兆凯,李龙勇,李泽晖,孔德成,宋绪丁.基于RGB-D SLAM的智能车自主避障与路径规划试验研究[J].汽车技术,2021(9):55-62. 被引量：13
9张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：40
10罗琴凤,贾坤泽,殷允强.灾后人道主义物流运营管理研究综述和展望[J].电子科技大学学报（社科版）,2022,24(1):82-91. 被引量：4

1赵威,张万枝,侯加林,侯瑞,李玉华,赵乐俊,程进.基于改进深度强化学习算法的农业机器人路径规划[J].浙江大学学报(工学版),2025,59(7):1492-1503.
2方自强,李乐,金州丽,张良,何思宇,彭松林.基于离散元仿真的椭圆柱状筒体长宽比变化对球磨机研磨效率的影响研究[J].机械,2025,52(6):15-22.
3曾德民,杨昊志,曾志斌,刘欢,杜志超.主余震作用下简支梁桥动力响应的参数敏感性研究[J].铁道建筑,2025,65(6):75-82.
4王文军,陈勇,李婷雪,张艳珠,张泓.结合动态约束采样的RRT*机械臂路径规划[J].通信与信息技术,2025(4):36-41.
5张宏图,叶红燕,刘勇,魏建平,李志平.磨料参数对低压磨料空气射流喷嘴磨损影响研究[J].河南理工大学学报(自然科学版),2025,44(4):94-103.
6赵佳豪,钱德猛,汤传业.基于改进人工势场法的AGV路径规划算法研究[J].黑龙江工业学院学报(综合版),2025,25(6):121-128.

计算机系统应用

2025年第7期

浏览历史

内容加载中请稍等...

基于改进深度Q网络的移动机器人路径规划算法

参考文献14

二级参考文献140

共引文献263

相关作者

相关机构

相关主题

浏览历史