融合模仿学习的深度强化学习自动驾驶路径规划方法研究

Researchon Deep Reinforcement Learning-Based Autonomous Driving Path Planning Methods Integrating Imitation Learning

下载PDF

导出

摘要针对自动驾驶汽车在稀疏奖励、高维连续动作空间下的路径规划难题,本文提出一种融合模仿学习的深度强化学习算法(TD3D)。该方法以TD3为骨架,在Actor-Critic框架中引入“学生—教师”式训练机制:利用专家演示数据构建独立专家经验池,通过离线计算的高质量Q值与动作标签,对Critic与Actor网络进行混合监督;设计随训练进程自适应衰减的演示权重,实现“早期模仿为主、后期探索为主”的平滑过渡。高速公路汇入与变道场景的实验结果表明,TD3D在成功率、平均回合奖励、收敛速度及策略稳定性方面均显著优于原始TD3与行为克隆(BC)基线,且对专家数据规模与来源具有良好的鲁棒性。本研究为稀疏奖励条件下的端到端自动驾驶策略训练提供了一种可落地的工程化思路。 Addressing the path planning challenges faced by autonomous vehicles in sparse reward scenarios and high-dimensional continuous action spaces,this paper proposes a deep reinforcement learning algorithm(TD3D)that integrates imitation learning.This method uses TD3 as its backbone and introduces a“student-teacher”training mechanism within the Actor-Critic framework:an independent expert experience pool is constructed using expert demonstration data,and both the Critic and Actor networks receive mixed supervision through high-quality Q-values and action labels computed offline.A demonstration weight,which adapts and decays during training,enables a smooth transition from“early imitation-dominated”to“late exploration-dominated”learning.Experimental results on highway merge and lane-change scenarios demonstrate that TD3D significantly outperforms both the original TD3 and Behavior Cloning(BC)baselines in success rate,average round reward,convergence speed,and policy stability.It also exhibits strong robustness to the scale and source of expert data.This research provides a practical engineering approach for training end-to-end autonomous driving policies under sparse reward conditions.

作者杨烈奔 YANG Lieben(Chongqing Electric Power College,Chongqing 400053,China)

机构地区重庆电力高等专科学校

出处《科学研究与应用》 2025年第6期35-38,共4页

基金 Science and Technology Research Program of Chongqing Electric Power College“End-to-End Autonomous Driving Based on Safety Constraintsin Dynamic Environments”(D-KY202515)。

关键词自动驾驶路径规划强化学习模仿学习 autonomous driving path planning reinforcement learning imitation learning

分类号 U463.6 [机械工程—车辆工程] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1许宏鑫,吴志周,梁韵逸.基于强化学习的自动驾驶汽车路径规划方法研究综述[J].计算机应用研究,2023,40(11):3211-3217. 被引量：26
2宋晓琳,盛鑫,曹昊天,李明俊,易滨林,黄智.基于模仿学习和强化学习的智能车辆换道行为决策[J].汽车工程,2021,43(1):59-67. 被引量：24
3高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：300
4闫皎洁,张锲石,胡希平.基于强化学习的路径规划技术综述[J].计算机工程,2021,47(10):16-25. 被引量：62

二级参考文献28

1李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：17
2戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
3葛媛,布朋生,刘强.模糊强化学习在机器人导航中的应用[J].信息技术,2009,33(10):127-130. 被引量：5
4蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
5张广林,胡小梅,柴剑飞,赵磊,俞涛.路径规划算法及其应用综述[J].现代机械,2011(5):85-90. 被引量：141
6高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
7姜岩,龚建伟,熊光明,陈慧岩.基于运动微分约束的无人车辆纵横向协同规划算法的研究[J].自动化学报,2013,39(12):2012-2020. 被引量：34
8王子强,武继刚.基于RDC-Q学习算法的移动机器人路径规划[J].计算机工程,2014,40(6):211-214. 被引量：7
9李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
10王珂,卜祥津,李瑞峰,赵立军.景深约束下的深度强化学习机器人路径规划[J].华中科技大学学报（自然科学版）,2018,46(12):77-82. 被引量：22

共引文献407

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9
3王昊,林远山,李然,于红,王芳.面向养殖网箱巡检任务的强化学习训练系统[J].计算机与数字工程,2023,51(1):103-111. 被引量：1
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：11
5罗国攀,张国良,徐佳宝.基于SPE-ICM的移动机器人内在动机避障规划[J].电子测量与仪器学报,2023,37(2):21-27. 被引量：3
6王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
7邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：18
8马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
9曹红倩.应用改进Q-learning算法解决柔性作业车间调度问题[J].国外电子测量技术,2022,41(4):164-169. 被引量：4
10赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.

1余智敏,向诗清.初中道德与法治课堂教学多元化评价探论[J].中学政治教学参考,2025(47):48-50.
2尹文笋,秦德文,李键,王文军,魏赟,姜秀萍,谭军,赵波.基于时域变换道的曲波域多次波自适应衰减[J].中国海洋大学学报(自然科学版),2026,56(1):87-93.
3孙博天,李文涵,柳月,王雪峰.基于路面几何约束的履带车辆动力学约化建模[J].动力学与控制学报,2025,23(11):44-52. 被引量：1
4王瑞,董枫,向明,汪伟星.基于深度强化学习算法的机械臂点位运动控制研究[J].机械管理开发,2025,40(12):286-290.
5杨少波,李宇.基于光纤通信技术的电力系统继电保护定值优化[J].通信电源技术,2025,42(23):49-51.
6张姣姣,白亚洁.误差补偿机制在汽车复杂曲面零部件数控铣削加工中的应用[J].汽车测试报告,2025(19):64-66.

科学研究与应用

2025年第6期

浏览历史

内容加载中请稍等...

融合模仿学习的深度强化学习自动驾驶路径规划方法研究

参考文献4

二级参考文献28

共引文献407

相关作者

相关机构

相关主题

浏览历史