基于KL散度和迁移强化学习的AMR路径规划算法

An AMR Path Planning Method Based on KL Divergence and Transfer Reinforcement Learning

下载PDF

导出

摘要在军事或民用仓库进行货物搬运和仓储物流时,重点是解决自主移动机器人(AMR)的路径规划问题。为了更快地得到最优路径,提出了一种基于KL散度的迁移强化学习(KL-TRL)算法。KL-TRL算法通过计算源任务与目标任务之间的Kullback-Leibler(KL)散度,将此散度与一项衰减因子整合进目标任务的Q值更新过程中,以此来引导目标任务的学习。这种算法更充分地利用了先前任务的经验,加快了目标任务的学习速度,从而更快地得到最优路径。KL-TRL算法的有效性在AMR协作搬运任务仿真中得到了证实。相比其他传统迁移强化学习算法,该算法具有更快的启动速度和收敛速度。通过快速找到最优路径,AMR可以在军事领域中快速部署装备,在民用领域提高物流效率。 In the context of military or civilian warehouse cargo handling and warehousing logistics,addressing the path planning issue for Autonomous Mobile Robots(AMR)is a key focus.To obtain the optimal path more rapidly,a Kullback Leibler-Transfer Reinforcement Learning(KL-TRL)algorithm is proposed based on Kullback Leibler(KL)divergence.The KL-TRL algorithm calculates the KL divergence between the source task and the target task,integrating this divergence with a decay factor into the Q-value update process of the target task.This approach fully leverages the experience of previous tasks,accelerates the learning speed of the target task and thereby obtains the optimal path more rapidly.The effectiveness of the KL-TRL algorithm is demonstrated in simulations of AMR collaborative handling tasks.Compared with other traditional transfer reinforcement learning algorithms,this algorithm has faster start-up and convergence speeds.By rapidly finding the optimal path,the AMRs can quickly deploy equipment in the military fields and improve logistics efficiency in the civilian fields.

作者李聪张震刘鹏昌 LI Cong;ZHANG Zhen;LIU Pengchang(School of Automation,Qingdao University,Qingdao 266000,China;Shandong Key Laboratory of Industrial Control Technology,Qingdao 266000,China;Third Operation Center,Qingdao Metro Operation Co.,Ltd.,Qingdao 266000,China)

机构地区青岛大学自动化学院山东省工业控制技术重点实验室青岛地铁运营有限公司运营三中心

出处《电光与控制》北大核心 2026年第1期78-83,90,共7页 Electronics Optics & Control

基金国家自然科学基金(61903209)。

关键词自主移动机器人机器人控制迁移学习强化学习 KL散度 autonomous mobile robot robot control transfer learning reinforcement learning KL divergence

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1王乐,齐尧,何滨兵,章永进,徐友春.机器人自主探索算法综述[J].计算机应用,2023,43(S01):314-322. 被引量：8
2李大东,孙秀霞,彭建亮,孙彪.基于可视图法的改进Dijkstra算法[J].电光与控制,2010,17(3):40-43. 被引量：12
3宋雪倩,胡士强.基于Dubins路径的A~*算法的多无人机路径规划[J].电光与控制,2018,25(11):25-29. 被引量：26
4张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：51
5刘明阳,张震,宋婷婷,周维庆.一种基于策略迁移和强化学习的AMR路径规划方法[J].控制工程,2024,31(7):1195-1202. 被引量：1
6杨姝慧,郝子鑫,李彬.机器人路径规划算法研究分析与综述[J].齐鲁工业大学学报,2024,38(5):37-46. 被引量：10

二级参考文献36

1王栎斐,边防,侯宝,闫飞,郑仁成.基于前沿评估的移动机器人自主环境探索[J].控制工程,2020,27(S01):25-31. 被引量：3
2胡晓磊,胡朝晖,江洋溢.基于Dijkstra算法的水平航迹规划[J].火力与指挥控制,2004,29(4):86-88. 被引量：24
3严平,丁明跃,周成平,郑昌文.飞行器多任务在线实时航迹规划[J].航空学报,2004,25(5):485-489. 被引量：28
4杜萍,杨春.飞行器航迹规划算法综述[J].飞行力学,2005,23(2):10-14. 被引量：62
5WELZL E. Constructing the visibility graph of n line segments in O(n^2) time[ J]. Process Lett, 1985 (6):534-554.
6BELLINGHA J S. Coordination and control of UAV fleets using mix-integer linear programming [ D ]. MIT,2002.
7KUWATA Y. Real-time trajectory design for Unmanned Aerial Vehicles using receding horizon control[ D]. MIT, 2003.
8任波,于雷,韩李勋.自适应蚁群算法的无人机航迹规划方法[J].电光与控制,2007,14(6):36-39. 被引量：18
9蔡凯,管明露,张天明,孙国志.使用Dijkstra算法的攻击机初始航迹研究[J].电光与控制,2008,15(11):22-25. 被引量：2
10王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27

共引文献102

1周瑜,张金聪,曾诗研.基于改进A^(*)算法的行车自动路径规划[J].冶金自动化,2022,46(S01):297-302. 被引量：2
2金翔,王天霖,于鹏垚,赵勇.基于值迭代网络的路径规划算法[J].华中科技大学学报（自然科学版）,2020,48(2):91-96. 被引量：1
3高双,柳春平,张瞳,陈坤.可行状态包络下欠驱动水面船全时可跟踪轨迹规划方法[J].船舶工程,2022,44(S01):459-466. 被引量：3
4纪海宾,徐敏,王红梅.基于矢量场的移动机器人路径规划算法研究[J].中小企业管理与科技,2013(33):288-289.
5武文越,宿海芬.Dijkstra算法在露天矿运输中的应用[J].现代矿业,2015,31(9):14-15. 被引量：4
6宋雪倩,胡士强.基于Dubins路径的A~*算法的多无人机路径规划[J].电光与控制,2018,25(11):25-29. 被引量：26
7王自亮,罗德林,吴顺祥.凹多边形区域覆盖无人机航迹规划方法[J].航空兵器,2019,26(1):95-100. 被引量：15
8李凤玲,陈珊,范兴江,刘源.基于萤火虫算法动态未知环境的路径规划[J].自动化与仪表,2019,34(6):53-58. 被引量：11
9朱泽凡,曾碧.基于多线激光雷达的无人车路径规划算法[J].机电工程技术,2019,48(5):11-14. 被引量：4
10刘亚京,吕文红,王国娟,梁璐莉.末端无人机物流路径规划研究综述[J].物流技术,2019,38(6):135-140. 被引量：5

1汪明华.遵循“三重逻辑”:小学语文单篇课文学习任务结构化设计路径[J].小学语文,2025(12):72-75.
2严华银.例说任务群教学的几个重要问题[J].复印报刊资料(高中语文教与学),2024(10):41-44.
3王娜,王子从,刘佳林.基于联合特征匹配的风电机组轴承故障诊断方法[J].可再生能源,2025,43(12):1619-1629.
4赵智信,陈杰,辛斌,李莉,丁玉隆,郑逸凡.面向多无人机对抗的强化学习并行化仿真平台[J].陆军工程大学学报,2025,4(5):1-10.
5龙云.任务型教学法在小学数学大单元教学中的路径重构[J].华夏教师,2025(31):74-76.
6岳程斐,张枭,曹喜滨.多航天器非严格守序并行装配任务规划方法[J].航空学报,2025,46(14):299-315. 被引量：4
7陈昊,黄振威,齐万涛,金鑫.软管-锥套组合体动力学建模与拖曳动态仿真[J].航空科学技术,2025,36(8):105-110.
8张永晋,瞿崇晓,范长军,褚进琦,刘硕.基于蚁群优化算法的多无人机侦察打击任务仿真系统设计与实现[J].现代电子技术,2025,48(15):18-26.
9何冰玉.对于县域医共体财务管理一体化模式的探索与思考[J].首席财务官,2025,21(21):66-68.
10吉莉.初中篮球教学任务驱动法培养合作能力的作用[J].读报参考,2023(21):124-124.

电光与控制

2026年第1期

浏览历史

内容加载中请稍等...

基于KL散度和迁移强化学习的AMR路径规划算法

参考文献6

二级参考文献36

共引文献102

相关作者

相关机构

相关主题

浏览历史