场景图谱驱动目标搜索的多智能体强化学习被引量：2

Multi-agent reinforcement learning for scene graph-driven target search

下载PDF

导出

摘要针对强化学习在视觉语义导航任务中准确率低,导航效率不高,容错率太差,且部分只适用于单智能体等问题,提出一种基于场景先验的多智能体目标搜索算法。该算法利用强化学习,将单智能体系统拓展到多智能体系统上将场景图谱作为先验知识辅助智能体团队进行视觉探索,利用集中式训练分布式探索的多智能体强化学习的方法以大幅度提升智能体团队的准确率和工作效率。通过在AI2THOR中进行训练测试,并与其他算法进行对比证明此方法无论在目标搜索的准确率还是效率上都优先于其他算法。 To solve the problems of reinforcement learning in the visual semantic navigation task,such as low accuracy,low navigation efficiency,poor fault tolerance rate,and the suitability of only some problems for a single agent,we propose a multi-agent target search algorithm based on scene prior.This algorithm extends the single-agent system to a multi-agent system through reinforcement learning.It mainly includes two aspects:first,a scene atlas is used as prior knowledge to assist the agent team in visual exploration;second,the multi-agent reinforcement learning method of centralized training and distributed exploration is used to greatly improve the accuracy and work efficiency of the agent team.Training tests in AI2THOR and comparison with other algorithms prove that this method is superior to other algorithms in target search accuracy and efficiency.

作者陆升阳赵怀林刘华平 LU Shengyang;ZHAO Huailin;LIU Huaping(School of electrical and Electronic Engineering,Shanghai Institute of Technology,Shanghai 201418,China;Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China)

机构地区上海应用技术大学电气与电子工程学院清华大学计算机科学与技术系

出处《智能系统学报》 CSCD 北大核心 2023年第1期207-215,共9页 CAAI Transactions on Intelligent Systems

基金国家自然科学基金项目(U1613212)。

关键词多智能体强化学习视觉语义导航场景图谱先验知识分布式探索集中式训练目标搜索 multi-agent reinforcement learning visual semantic navigation scene graph prior knowledge distributed exploration centralized training target search

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1方维维,王云鹏,张昊,孟娜.基于多智能体深度强化学习的车联网通信资源分配优化[J].北京交通大学学报,2022,46(2):64-72. 被引量：19
2陈新元,谢晟祎,陈庆强,刘羽.结合卷积特征提取和路径语义的知识推理[J].智能系统学报,2021,16(4):729-738. 被引量：4
3连传强,徐昕,吴军,李兆斌.面向资源分配问题的Q-CF多智能体强化学习[J].智能系统学报,2011,6(2):95-100. 被引量：1
4张文旭,马磊,贺荟霖,王晓东.强化学习的地–空异构多智能体协作覆盖研究[J].智能系统学报,2018,13(2):202-207. 被引量：7

二级参考文献22

1CHONGJIE Z, LESSER V, SHENOY P. A multi-Agent learning approach to resource sharing across computing clusters [R]. Computer Science Department, University of Massachusetts Computer Science Amherst UMass, UM-CS- 20084)35, 2008.
2KO P C, LIN P C, YOU J A, et al. Multi-layer allocated learning based neural network for resource allocation optimization[ C]// Proceedings of the 9th Joint Conference on Information Sciences(JCIS 2006). Taibei, China, 2006 : 35-41.
3TESAURO G. Online resource allocation using decompositional reinforcement learning [ C ]//Proceedings of AAAI 2005. Pittsburgh, USA, 2005: 886-891.
4LI3TMAN M L, STONE P. Leading best-response strategies in repeated games [C]//The 17th Annual International Joint Conference on Artificial Intelligence Workshop on Economic Agents, Models, and Mechanism. Seattle, Washington, USA, 2001: 745-756.
5HU J, WELLMAN M P. Multiagent reinforcement learning in stochastic games [OL]. Citeseer. ist. psu. edu/ hu99multiagent. Html, 1999.
6BUSONIU L, De SCHUTTER B, BABUSKA R. Multiagent reinforcement learning with adaptive state focus [C]//Proceedinga of the 17th Belgium-Nethedands Conference on Artificial Intelligence. Brussels, Belgium, 2005: 35-42.
7KOK J R, VLASSIS N. Collaborative muhiagent reinforcement learning by payoff propagation[J]. Journal of Machine Learning Research, 2006, 7: 1789-1828.
8HU J, WELLMAN M P. Nash Q-learning for general-sum stochastic games [ J ]. Journal of Machine Learning Research, 2003, 4 : 1039-1069.
9ALPAYDN E.机器学习导论[M].范明,等译.北京:北京工业出版社,2009:244-255.
10LAGOUDAKIS M G, PARR R. Least-squares policy iteration [ J ]. Journal of Machine Learning Research, 2003 (4) : 1107-1149.

共引文献27

1何逻辑,谢广明,文家燕,罗文广.通信时滞下事件驱动多智能体系统环形编队控制[J].计算机应用研究,2020,37(6):1661-1665. 被引量：5
2周运腾,张雪英,李凤莲,刘书昌,焦江丽,田豆.Q-learning算法优化的SVDPP推荐算法[J].计算机工程,2021,47(2):46-51. 被引量：4
3刘荆欣,王妍,韩笑,夏长清,宋宝燕.基于Stackelberg博弈的边缘云资源定价机制研究[J].计算机科学与探索,2022,16(1):153-162. 被引量：3
4赵月,沈博,武文亮,周兴社.集群机器人空间协作行为模型构建方法综述[J].计算机科学与探索,2022,16(8):1706-1726. 被引量：7
5姚颖,张典锋,吴昭景.基于强化学习的输入受限多智能体系统的同步最优控制[J].烟台大学学报（自然科学与工程版）,2023,36(1):1-11.
6吴国栋,刘涵伟,何章伟,李景霞,王雪妮.知识图谱补全技术研究综述[J].小型微型计算机系统,2023,44(3):471-482. 被引量：16
7郑丽萍,赵玉娟,费选.基于改进MOEA/D的车联网通信资源分配算法[J].计算机工程,2023,49(5):191-197. 被引量：4
8王雷,降华.基于移动边缘计算的车联网信息分发方法设计[J].信息与电脑,2023,35(4):215-217. 被引量：1
9林能波,陈青霞,郭俊滨,陈柱,方玉,叶绍雄.基于强化学习天地一体化网络无线资源管理研究[J].移动通信,2023,47(7):85-91. 被引量：3
10孙彦景,余政达,陈瑞瑞,李松.车联网中基于深度强化学习的高可靠资源分配算法[J].重庆邮电大学学报（自然科学版）,2023,35(4):706-714. 被引量：3

同被引文献28

1刘佳,陈增强,刘忠信.多智能体系统及其协同控制研究进展[J].智能系统学报,2010,5(1):1-9. 被引量：33
2宋佳蓉,杨忠,张天翼,韩家明,朱家远.基于卷积神经网络和多类SVM的交通标志识别[J].应用科技,2018,45(5):71-75. 被引量：3
3马秋琳,金开军,李疆.基于ABB工业机器人的智能曲面雕刻辅助系统的设计及实现[J].贵阳学院学报（自然科学版）,2019,14(2):3-7. 被引量：2
4殷昌盛,杨若鹏,朱巍,邹小飞,李峰.多智能体分层强化学习综述[J].智能系统学报,2020,15(4):646-655. 被引量：30
5雷捷维,王嘉旸,任航,闫天伟,黄伟.基于Expectimax搜索与Double DQN的非完备信息博弈算法[J].计算机工程,2021,47(3):304-310. 被引量：7
6疏利生,李桂芳,嵇胜.基于强化学习的航空器机场智能静态路径规划[J].航空工程进展,2021,12(3):65-70. 被引量：8
7苏子美,董红斌.面向无人机路径规划的多目标粒子群优化算法[J].应用科技,2021,48(3):12-20. 被引量：10
8齐小刚,陈春绮,熊伟,刘立芳.基于博弈论的预警卫星系统抗毁性研究[J].智能系统学报,2021,16(2):338-345. 被引量：1
9谭晓阳,张哲.元强化学习综述[J].南京航空航天大学学报,2021,53(5):653-663. 被引量：8
10汪晨曦,赵学艳,郭新.基于权重值的竞争深度双Q网络算法[J].南京信息工程大学学报（自然科学版）,2021,13(5):564-570. 被引量：5

引证文献2

1李霞丽,王昭琦,刘博,吴立成.麻将博弈AI构建方法综述[J].智能系统学报,2023,18(6):1143-1155. 被引量：7
2邱建铭.AI强化学习算法在陶瓷雕刻机器设备中的应用研究[J].自动化与仪器仪表,2023(12):192-196.

二级引证文献7

1代君学,李霞丽,刘博,王昭琦.国标麻将的多尺度骨干神经网络模型[J].重庆理工大学学报（自然科学）,2024,38(5):137-144. 被引量：1
2衣御寒,王亚杰,吴燕燕,刘松,张兴慧,蒋传禹.结合A2C和手牌估值方法的麻将博弈研究[J].重庆理工大学学报（自然科学）,2024,38(5):154-161.
3向芳悦,孙毓方,朱虹锦,田金沙,许珊珊.大语言模型辅助教学的探讨——以“强化学习”课程为例[J].成都工业学院学报,2025,28(1):107-112.
4程和祥,王善江.论真实概率游戏中的效果随机性——基于中国彩票业2008年开奖数据的考察[J].贵州工程应用技术学院学报,2025,43(1):75-83.
5王璐瑶,吴蕾.基于深度神经网络的桥牌叫牌策略研究[J].应用科技,2025,52(1):198-204.
6王璐瑶,李学俊,吴蕾.分步协同的桥牌智能博弈策略研究[J].重庆理工大学学报(自然科学),2025,39(8):105-110.
7周娴玮,王宇翔,罗仕鑫,余松森.基于自适应分位数的离线强化学习算法[J].智能系统学报,2025,20(5):1093-1102.

1马成宇,刘华平,葛泉波.场景感知的分布式多智能体目标搜索方法[J].智能系统学报,2022,17(6):1244-1253. 被引量：1
2华为:新型冠状病毒蛋白同源建模及超大规模计算机辅助抗病毒药物筛选平台[J].杭州科技,2020,41(1):54-55.
3刘经南,罗亚荣,郭迟,高柯夫.PNT智能与智能PNT[J].测绘学报,2022,51(6):811-828. 被引量：26
4郝淼,倪泰乐.数字化图像动态目标搜索眼动特征增强仿真[J].计算机仿真,2022,39(9):182-185.
5司马双霖,黄岩,何科技,安东,袁辉,王亮.视觉语言导航研究进展[J].自动化学报,2023,49(1):1-14. 被引量：5
6云门张凝.扇形空间的视觉探索——“对望”系列作品的自我解读[J].美术观察,2022(11):138-139.
7张杨,颜鹏,谢旭东,白成超.基于多智能体强化学习的月面极端区域协同探测方法[J].载人航天,2023,29(1):78-87. 被引量：2
8邓晖奕,李勇振,尹奇跃.引入通信与探索的多智能体强化学习QMIX算法[J].计算机应用,2023,43(1):202-208. 被引量：7
9蒋飞勇.基于多智能体强化学习的水电机组标准化检修管控[J].中国新技术新产品,2022(22):72-74.
10刘佩林,陈祥,牛小明.无人系统自主性技术研究现状与发展趋势[J].兵工自动化,2022,41(12):61-65. 被引量：6

智能系统学报

2023年第1期

浏览历史

内容加载中请稍等...

场景图谱驱动目标搜索的多智能体强化学习被引量：2

参考文献4

二级参考文献22

共引文献27

同被引文献28

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

场景图谱驱动目标搜索的多智能体强化学习 被引量：2

参考文献4

二级参考文献22

共引文献27

同被引文献28

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

场景图谱驱动目标搜索的多智能体强化学习被引量：2