基于强化学习的载人月球车轨迹跟踪及稳定控制

Path Tracking and Stability Control of Lunar Rover Vehicles Based on Reinforcement Learning

下载PDF

导出

摘要面向载人月球车自动驾驶任务需求,为解决月面低重力、低附着环境下的轨迹跟踪与稳定控制问题,提出一种基于强化学习的线性二次调节控制(LQRC)参数优化策略。首先,基于车辆动力学模型设计线性二次调节(LQR)控制器,对前后轮转向角和附加横摆力矩进行控制,融合预瞄点误差模型以适应月球车转向机构动态响应约束;其次,设计基于柔性动作-评价(SAC)算法的强化学习框架,构造以最优跟踪精度和质心侧偏角为目标的奖励函数,通过训练得到了实时优化LQR权重系数和预瞄点距离的智能体;最后,在Simulink环境中搭建了整车仿真模型和不同曲率的双移线测试工况。结果表明:强化学习方法相比固定参数控制,其横向位置误差分别减小28.1%和59.2%,质心侧偏角分别减小6.2%和29.8%,表示强化学习策略能够显著提升载人月球车跟踪精度和整车稳定性,为在月面复杂环境中实现自动驾驶提供了一种解决方案。 To meet the requirements of autonomous driving tasks of lunar rover vehicles and address the issues of path tracking and stability control in the lunar surface environment with low gravity and low adhesion,a strategy for optimizing linear quadratic regulator control(LQRC)parameters based on reinforcement learning is proposed.First,an linear quadratic regulator(LQR)controller is designed based on the vehicle dynamics model to control the front and rear wheel steering angles and additional yaw moment,and the preview point error model is integrated to adapt to the dynamic response constraints of the steering mechanism of lunar rover vehicles.Second,a reinforcement learning framework based on the soft actor-critic(SAC)algorithm is developed,and a reward function for achieving the optimal tracking accuracy and the sideslip angle is constructed.Through training,an intelligent agent capable of optimizing the LQR weight coefficients and preview point distance is obtained.Finally,a full-vehicle simulation model and double lane change test conditions with different curvatures are built in the Simulink environment.The results show that,compared with fixed parameter control,the reinforcement learning method reduces the lateral position errors by 28.1%and 59.2%and the sideslip angles by 6.2%and 29.8%,respectively.This indicates that the reinforcement learning strategy proposed in this paper can significantly improve the path tracking accuracy and stability control of lunar rover vehicles,providing a solution for realizing autonomous driving in the complex lunar surface environment.

作者谷程鹏张文奇寿星王卫军施飞舟 GU Chengpeng;ZHANG Wenqi;SHOU Xing;WANG Weijun;SHI Feizhou(National Key Laboratory of Aerospace Mechanism,Shanghai 201108,China;Shanghai Institute of Aerospace System Engineering,Shanghai 201109,China)

机构地区宇航空间机构全国重点实验室上海宇航系统工程研究所

出处《上海航天(中英文)》 2026年第1期159-168,共10页 Aerospace Shanghai(Chinese&English)

关键词载人月球车轨迹跟踪稳定控制线性二次调节(LQR) 强化学习 lunar rover vehicle path tracking stability control linear quadratic regulator(LQR) reinforcement learning

分类号 V476.3 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献18

1罗小桃,张崇峰,胡震宇,王卫军,刘殿富,袁勇,杨晓青.我国首次载人月球车任务需求分析[J].载人航天,2019,25(5):693-698. 被引量：20
2谷程鹏,张文奇,韩亮亮,施飞舟,张崇峰.面向载人月球探测的航天员-多机异构群联合探测方案[J].载人航天,2024,30(5):693-702. 被引量：1
3MENG Yu,GAN Xin,WANG Yu,GU Qing.LQR-GA Controller for Articulated Dump Truck Path Tracking System[J].Journal of Shanghai Jiaotong university(Science),2019,24(1):78-85. 被引量：12
4谢宪毅,王禹涵,金立生,赵鑫,郭柏苍,廖亚萍,周彬,李克强.基于改变控制时域时间步长的智能车轨迹跟踪控制[J].吉林大学学报（工学版）,2024,54(3):620-630. 被引量：8
5吴西涛,魏超,翟建坤,苑士华.考虑横摆稳定性的无人车轨迹跟踪控制优化研究[J].机械工程学报,2022,58(6):130-142. 被引量：35
6黄迎港,罗文广,黄丹,蓝红莉.Cascade Optimization Control of Unmanned Vehicle Path Tracking Under Harsh Driving Conditions[J].Journal of Shanghai Jiaotong university(Science),2023,28(1):114-125. 被引量：1
7付翔,刘毅,万佳琦,刘泽轩.基于MPC的轮毂电机驱动车辆轨迹跟踪控制[J].汽车工程学报,2025,15(1):81-94. 被引量：2
8林歆悠,叶卓明,周斌豪.基于DQN强化学习的自动驾驶转向控制策略[J].机械工程学报,2023,59(16):315-324. 被引量：11
9温佳,梁喜凤,王永维.基于DDPG+MPC的水稻授粉机器人路径跟踪控制[J].农机化研究,2025,47(6):18-25. 被引量：3
10谢宪毅,赵鑫,金立生,郭柏苍,李克强.融合深度强化学习与滚动时域优化的智能车辆轨迹跟踪控制[J].交通运输工程学报,2024,24(6):259-272. 被引量：7

二级参考文献130

1徐兴,汤赵,王峰,陈龙.基于变权重系数的分布式驱动无人车轨迹跟踪[J].中国公路学报,2019,32(12):36-45. 被引量：26
2迟瑞娟,熊泽鑫,姜龙腾,马悦琦,黄修炼,朱晓龙.基于模型预测的插秧机路径跟踪控制算法[J].农业机械学报,2022,53(11):22-30. 被引量：31
3袁洪良,郭锐,薛梦琦,卢潇潇,杨浚宇,徐立鸿.基于状态空间建模的智能农机模型辨识与柔化控制[J].农业机械学报,2022,53(10):405-411. 被引量：10
4李韶华,杨泽坤,王雪玮.基于T-S模糊变权重MPC的智能车轨迹跟踪控制[J].机械工程学报,2023,59(4):199-212. 被引量：25
5杜荣华,胡鸿飞,高凯,黄浩.基于变预测时域MPC的自动驾驶汽车轨迹跟踪控制研究[J].机械工程学报,2022,58(24):275-288. 被引量：32
6樊晓平,李双艳,陈特放.基于新人工势场函数的机器人动态避障规划[J].控制理论与应用,2005,22(5):703-707. 被引量：41
7刘金琨,孙富春.滑模变结构控制理论及其算法研究与进展[J].控制理论与应用,2007,24(3):407-418. 被引量：604
8战凯,顾洪枢,周俊武,石峰,郭鑫,刘力,冯茂林.地下遥控铲运机遥控技术和精确定位技术研究[J].有色金属,2009,61(1):107-112. 被引量：39
9熊波,曲仕茹.基于模糊控制的智能车辆自主行驶方法研究[J].交通运输系统工程与信息,2010,10(2):70-75. 被引量：35
10王涛,江进丰,林佑廷,林秋丰,张文明.基于CarSim软件的闪避障碍物驾驶者模型[J].农业工程学报,2010,26(5):159-163. 被引量：2

共引文献150

1谢宪毅,金立生,杜军彪,胡涛,马祥生.基于MPC的自动驾驶汽车轨迹跟踪控制[J].机械设计,2024,41(S01):20-26. 被引量：9
2黄绍帅,杨建国,苟志明.载人月球车设计研究——以“乂”号载人月球车为例[J].工业设计,2020(5):159-160. 被引量：2
3李贺,王禹,杜小振,曾庆良.一种可跳跃的月面移动机器人系统设计[J].深空探测学报（中英文）,2020,7(3):304-310. 被引量：3
4江磊,齐迎春,邓秦丹,贺连彬,金敬福,邹猛.轮履复合式载人月球车移动性能仿真分析[J].车辆与动力技术,2020(3):1-6. 被引量：5
5白国星,罗维东,刘立,孟宇,顾青,李凯伦.矿用铰接式车辆路径跟踪控制研究现状与进展[J].工程科学学报,2021,43(2):193-204. 被引量：17
6武柏安,龙海洋,李耀刚,纪宏超,回学文,郑直.基于遗传算法的磁流变半主动悬架最优控制[J].机床与液压,2021,49(9):109-114. 被引量：12
7彭维锋,周烨康,谭丽芬,唐子涵,李会军,徐宝国.基于力反馈手柄的移动载人月球车操作控制系统[J].南京信息工程大学学报（自然科学版）,2021,13(3):340-348. 被引量：2
8井忠祥,漆磊,杨承龙.月球营地机械爪设计[J].设计,2021,34(12):125-127. 被引量：3
9邵斌澄,缪天缘,周永辉,李会军,宋爱国.一种面向4WID-4WIS载人月球车的控制系统[J].载人航天,2021,27(3):350-358. 被引量：2
10王月红,蒋涛,李平,周楠.智能车路径跟踪控制器的设计[J].成都信息工程大学学报,2022,37(1):21-27. 被引量：4

1陈红发,吕鸿斌,赵飞,吴建军.“煤改电”中汽车起重机可变跨距与稳定性的关系[J].电工技术,2025(18):225-226.
2李豪坤,常新宇,蔺秋弘.线控转向双电机的控制策略设计与仿真研究[J].传动技术(中英文),2025,39(3):33-42.
3任学进,王玉泽,鞠飞飞.云计算平台技术在绿色施工项目管理中的应用研究[J].新潮电子,2026(5):13-15.
4周兵,韦文豪,潘倩兮,姜笑坤,崔庆佳.考虑制动时滞的智能汽车稳定性控制方法[J].湖南大学学报(自然科学版),2026,53(2):1-13.
5史青录,阴红伟,智晋宁,任亚峰.基于参数化建模的混凝土泵车整车稳定性研究[J].太原科技大学学报,2025,46(5):447-452.
6陈晓明,刘祺岳,刘欣.发电机的AI故障诊断与实时优化策略分析[J].集成电路应用,2025,42(11):406-407.
7邓颖.通信电源系统防雷保护中多级SPD配置与参数优化策略[J].通信电源技术,2026,43(3):234-236.
8王鑫.智能建造技术在建设工程运行模式中的应用[J].中国住宅设施,2026(1):10-12.
9冯贝贝,孟萌萌.养殖水温调控系统的模糊控制仿真研究[J].农机使用与维修,2026(2):65-68.
10吴钟涛,沈利霖,李兵兵,殷国栋,陈波立.转矩分配的多轴重载车辆主动抗侧翻控制策略[J].汽车安全与节能学报,2026,17(1):40-49.

上海航天(中英文)

2026年第1期

浏览历史

内容加载中请稍等...

基于强化学习的载人月球车轨迹跟踪及稳定控制

参考文献18

二级参考文献130

共引文献150

相关作者

相关机构

相关主题

浏览历史