基于多层注意力机制—柔性AC算法的机器人路径规划被引量：6

Robot path planning based on soft AC algorithm for multilayer attention mechanism

下载PDF

导出

摘要针对行动者—评论家算法存在的经验学习样本维度高、策略梯度模型鲁棒性低等问题,依据多代理系统的信息协作优势,构建注意力机制网络并作为代理体,引入多层并行注意力机制网络模型对AC算法进行改进,提出一种基于多层并行注意力机制的柔性AC算法。将其用于解决动态未知环境下的机器人路径规划问题,可增强行动者的策略梯度鲁棒性并降低评论家的回归误差,实现机器人路径规划最优方案的快速收敛。实验结果表明,该算法有效克服机器人路径规划的局部最优,具有计算速度快、稳定收敛的优点。 Aiming at the high dimensionality of the empirical learning sample and the low robustness of the strategy gradient model in the actor-critic algorithm,this paper constructed the attention mechanism network and acted as a proxy based on the information cooperation advantages of the multi-agent systems,introducing a multi-layer parallel attention mechanism.By adding the network model and the soft function to the actor-critic algorithm,this paper proposed a soft actor-critic algorithm based on multi-layer parallel attention mechanism to solve the problem of robot path planning,enhance the actors’strategy gradient robustness and reduce regression error of the critics,and achieved the fast convergence of robot path planning.The experimental results show that this method can effectively overcome the local optimization problem of robot path planning,and has the advantages of fast computation speed and stable convergence.

作者韩金亮任海菁吴淞玮蒋欣欣刘凤凯 Han Jinliang;Ren Haijing;Wu Songwei;Jiang Xinxin;Liu Fengkai(School of Mathematics,China University of Mining&Technology,Xuzhou Jiangsu 221116,China;School of Environment&Spatial Informatics,China University of Mining&Technology,Xuzhou Jiangsu 221116,China;School of Safety Engineering,China University of Mining&Technology,Xuzhou Jiangsu 221116,China;School of Information&Control Engineering,China University of Mining&Technology,Xuzhou Jiangsu 221116,China)

机构地区中国矿业大学数学学院中国矿业大学环境与测绘学院中国矿业大学安全工程学院中国矿业大学信息与控制工程学院

出处《计算机应用研究》 CSCD 北大核心 2020年第12期3650-3655,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61501465) 国家大学生创新训练项目(201910290053Z)。

关键词行动者—评论家算法注意力机制深度强化学习机器人路径规划 actor-critic algorithm attention mechanism deep reinforcement learning robot path planning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：144
2陈永建,周艳,崔海宁.基于双向强化学习与动态码率调节的无线mesh网络协议[J].计算机应用研究,2017,34(7):2118-2122. 被引量：3
3王军红,江虹,黄玉清,伍晓利.基于RPkNN-Sarsa(λ)强化学习的机器人路径规划方法[J].计算机应用研究,2013,30(1):199-201. 被引量：4
4杨文臣,张轮,Zhu Feng.多智能体强化学习在城市交通网络信号控制方法中的应用综述[J].计算机应用研究,2018,35(6):1613-1618. 被引量：32

二级参考文献24

1王健,张汝波.基于POMDP模型的机器人导航控制方法[J].华中科技大学学报（自然科学版）,2008,36(S1):12-15. 被引量：2
2吴峰.基于决策理论的多智能体系统规划问题研究[D].合肥:中国科学技术大学,2011.
3CHAKRABORTY I G, DAS P K, KONAR A, et al. Extended Q-lear ning algorithm for path-planning of a mobile robot [ C ]//Proe of the 8th International Conference on Simulated Evolution and Learning. Berlin : Springer-Verlag,2010 : 379- 383.
4MOHAMMAD A K J, MOHAMMAD A R, LARA Q. Reinforcement based mobile robot navigation in dynamic environment [ J : Robotics and Computer-lntngrated Manufacturing ,2011,27( 1 ) : 135-149.
5ViET H H, KYAW PH, CHUNG T C. Simulation-based evaluations of reinforcement learning algorithms for autonomous mobile robot path planningl Cl//Proc of the 3rd FTRA Intemati0rm:l Conference onIn- formation Technology Convergence and Services. 2012:467-476.
6SANTOS M, MARTIN H J A, LOPEZ V,et a/. Dyna-H: a heuristia planning reinforcement learning algorithm applied to role-playing game strategy decision systems [ J ]. Knowledge-Based Systems, 2012, 32:28:36.
7VIET H H ,AN S H,CHUNG T C. Extended Dyna-Q algorithm for path planning of mobile robots[ J]. Journal of rernent Science and !nstrumentation :2011,2 (3) 283-287. .
8MARTIN H J A, LOPE J D, MARAVALL D. The kNN.TD reinforce- ment learning algorithmi C ]//Proc of the 3rd International Work-Con- ference on the Interplay Between Natural and Artificial Computation. Berlin : Spfinger-Verlag, 2009 : 305- 312.
9符云清,王松健,吴中福.基于链路状态加权的无线Mesh网络路由协议[J].计算机研究与发展,2009,46(1):137-143. 被引量：9
10赵冬斌,刘德荣,易建强.基于自适应动态规划的城市交通信号优化控制方法综述[J].自动化学报,2009,35(6):676-681. 被引量：44

共引文献179

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：62
2张克,张文俊,朱蕴文,邢毅雪.基于内联关系的方面级情感分析方法[J].上海大学学报（自然科学版）,2022,28(1):157-169.
3王光,李鸿宇,邱云飞,郁博文,柳厅文.基于图卷积记忆网络的方面级情感分类[J].中文信息学报,2021,35(8):98-106. 被引量：19
4彭正辉.摩天大楼里的复仇女郎[J].传奇故事（百家讲堂）,2000(8):4-24.
5杜慧,俞晓明,刘悦,余智华,程学旗.融合词性和注意力的卷积神经网络对象级情感分类方法[J].模式识别与人工智能,2018,31(12):1120-1126. 被引量：10
6赵硕.多机器人强化学习的防碰撞方法仿真[J].计算机仿真,2016,33(5):389-392.
7朱斐,吴文,刘全,伏玉琛.一种最大置信上界经验采样的深度Q网络方法[J].计算机研究与发展,2018,55(8):1694-1705. 被引量：14
8宗玉英,段晓芳.面向手机动画的基于注意力机制和卷积神经网络的短信情感分析[J].计算机系统应用,2018,27(8):226-231.
9纪荣嵘,林绍辉,晁飞,吴永坚,黄飞跃.深度神经网络压缩与加速综述[J].计算机研究与发展,2018,55(9):1871-1888. 被引量：62
10冯其明.高校多功能体育馆周边路网应急疏散定量研究[J].计算机与数字工程,2018,46(9):1744-1748.

同被引文献68

1高劲松,邹庆元,陈哨东.无人机自主性概念研究[J].电光与控制,2007,14(5):58-61. 被引量：21
2段玉倩,贺家李.遗传算法及其改进[J].电力系统及其自动化学报,1998,10(1):39-52. 被引量：181
3赵娟平,高宪文,符秀辉.改进蚁群优化算法求解移动机器人路径规划问题[J].南京理工大学学报,2011,35(5):637-641. 被引量：30
4彭志红,孙琳,陈杰.基于改进差分进化算法的无人机在线低空突防航迹规划[J].北京科技大学学报,2012,34(1):96-101. 被引量：22
5方群,徐青.基于改进粒子群算法的无人机三维航迹规划[J].西北工业大学学报,2017,35(1):66-73. 被引量：75
6张一豆,赵剡,魏彤.基于改进A~*算法的导盲避障路径规划策略研究[J].航空兵器,2017,24(3):86-92. 被引量：6
7丁青锋,尹晓宇.差分进化算法综述[J].智能系统学报,2017,12(4):431-442. 被引量：135
8刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：563
9Guangsheng LI,Wusheng CHOU.Path planning for mobile robot using self-adaptive learning particle swarm optimization[J].Science China(Information Sciences),2018,61(5):263-280. 被引量：54
10冯辉,刘梦佳,徐海祥.基于AHPSO算法的无人艇多目标路径规划[J].华中科技大学学报（自然科学版）,2018,46(6):59-64. 被引量：15

引证文献6

1蒋元陈,刘宏伟,刘满禄,张俊俊.基于力觉引导的机械臂自适应开门旋拧方法[J].计算机应用研究,2021,38(6):1804-1808.
2郭启敏,张鹏,王应洋,王石.无人机自主航迹规划智能算法综述[J].航空兵器,2023,30(3):29-40. 被引量：25
3孙滨.深度神经网络下机器人滑移量检测与路径规划[J].机械设计与制造,2023(10):134-138. 被引量：1
4陈至栩,张荣芬,刘宇红,王子鹏,黄继辉.结合注意力机制与好奇心驱动的近端策略优化算法[J].计算机应用与软件,2024,41(3):258-265.
5杨南禹,时正华.基于PBRS-SAC算法的无人车路径规划研究[J].计算技术与自动化,2024,43(2):82-87. 被引量：2
6冯芳芳.超声波传感扫描下供水水池清洗机器人遍历路径栅格地图规划[J].传感器世界,2025,31(11):39-44.

二级引证文献28

1康冰冰,姜涛,曹建,魏晓晴.基于强化学习的带落角约束的制导律研究[J].航空兵器,2023,30(6):44-49. 被引量：2
2雷刚,李云舒,张宏强,罗炜,赖灿辉.改进麻雀搜索算法的飞行器航迹规划[J].电光与控制,2024,31(3):41-47. 被引量：3
3王瑶,任安虎,任洋洋.改进蚁群算法的无人机航迹规划[J].电光与控制,2024,31(4):43-48. 被引量：11
4王菡,梁晓龙,王宁,张佳强.有人/无人机协同空战研究进展综述[J].电光与控制,2024,31(5):11-17. 被引量：13
5郭启敏,张鹏,姜俊,王应洋.基于改进蚁群算法的凹区域无人侦察机覆盖航线规划[J].电光与控制,2024,31(8):23-31. 被引量：6
6朱孝山,刘伟伟.融合多策略改进黑猩猩优化算法的UAV航迹规划[J].电光与控制,2024,31(8):50-57. 被引量：1
7孙曦,刘峰,薛晓.基于透镜成像对立学习TSO算法的无人机三维航迹规划[J].电光与控制,2024,31(9):45-51. 被引量：1
8李徐,董伟,杜泽弘.复杂环境约束下的飞行航路规划研究[J].空天防御,2024,7(4):99-105.
9吴建,冯君,何佶哲,赵卓雅.考虑任务场景的无人机航迹规划算法综述[J].航空计算技术,2024,54(5):130-134. 被引量：1
10赖志超,黄钿捷,邹维福,林丽速,连宇瀚.多旋翼无人机围绕杆塔精细化自主巡检航迹的优化技术[J].电气技术与经济,2024(10):76-78. 被引量：1

1康骏,郑睿.基于EKF的机器人捕捉轨迹未知的抛物方法[J].传感器与微系统,2020,39(1):13-17. 被引量：2
2魏立新,吴绍坤,孙浩,郑剑.基于多行为的移动机器人路径规划[J].控制与决策,2019,34(12):2721-2726. 被引量：27
3成怡,肖宏图.融合改进A*算法和Morphin算法的移动机器人动态路径规划[J].智能系统学报,2020,15(3):546-552. 被引量：18
4王洪平.基于支持向量机的我国货币供应量预测[J].金融理论与教学,2020(5):12-15. 被引量：2

计算机应用研究

2020年第12期

浏览历史

内容加载中请稍等...

基于多层注意力机制—柔性AC算法的机器人路径规划被引量：6

参考文献4

二级参考文献24

共引文献179

同被引文献68

引证文献6

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于多层注意力机制—柔性AC算法的机器人路径规划 被引量：6

参考文献4

二级参考文献24

共引文献179

同被引文献68

引证文献6

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于多层注意力机制—柔性AC算法的机器人路径规划被引量：6