期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进QMIX算法的远洋捕捞多无人艇全覆盖路径规划策略研究
1
作者 吴清云 王东 +2 位作者 陶军 李志坚 殷奕杰 《农业机械学报》 北大核心 2025年第10期63-70,共8页
在远洋捕捞任务中,需要在特定水域内进行多无人艇全覆盖巡航以探测鱼群分布情况,但传统多智能体强化学习路径规划方法缺乏考虑自身与相邻智能体状态的能力,且反馈机制不够明确,导致路径覆盖效率较低、重复率过高。本文提出了一种基于改... 在远洋捕捞任务中,需要在特定水域内进行多无人艇全覆盖巡航以探测鱼群分布情况,但传统多智能体强化学习路径规划方法缺乏考虑自身与相邻智能体状态的能力,且反馈机制不够明确,导致路径覆盖效率较低、重复率过高。本文提出了一种基于改进QMIX算法(LH-QMIX)的远洋捕捞多无人艇全覆盖路径规划策略。由一个混合网络和多个智能体网络组成多智能体强化学习结构,通过混合网络将每个智能体网络的局部Q值融合成全局Q值,以指导各智能体行动。考虑到在远洋捕捞环境中无人艇通信和感知范围受限,为每个智能体网络引入一个局部损失函数,提供更明确的反馈机制,同时,引入混合注意力机制以加强无人艇之间的协作能力。在简单障碍物环境和复杂障碍物环境中,将提出的LH-QMIX算法与IQL算法、QMIX算法进行对比仿真。结果表明,LH-QMIX算法在简单障碍物环境下覆盖效率分别提升14.2%、6.9%,在复杂障碍物环境下覆盖效率分别提升22.3%、10.6%,奖励曲线在收敛后也更加稳定。研究结果为多无人艇远洋捕捞全覆盖探测任务提供了一个高效可行的解决方案,能够提升远洋捕捞效率。 展开更多
关键词 多无人艇路径规划 LH-qmix算法 多智能体强化学习 覆盖效率 模型稳定性
在线阅读 下载PDF
基于注意力机制的改进QMIX算法
2
作者 关云鹏 张国 王华川 《指挥信息系统与技术》 2025年第3期28-35,62,共9页
为改善传统QMIX算法在复杂多智能体协作环境中的局限性,提出了一种基于注意力机制的改进QMIX算法。针对智能体间信息共享和协作能力不足的问题,引入了自注意力机制和逆注意力机制。在局部Q值网络中添加自注意力(SA)模块,使智能体能够从... 为改善传统QMIX算法在复杂多智能体协作环境中的局限性,提出了一种基于注意力机制的改进QMIX算法。针对智能体间信息共享和协作能力不足的问题,引入了自注意力机制和逆注意力机制。在局部Q值网络中添加自注意力(SA)模块,使智能体能够从局部观测中提取关键信息,提升了Q值准确性;同时,逆注意力(IA)机制通过优化智能体间的协作关系,增强了协作效能;进一步地,将生成的全局注意力特征引入混合网络,提升了算法在多智能体协作中的建模能力。试验结果表明,该算法在资源采集和目标搜索等任务中的表现显著优于传统算法,特别是在目标搜索任务中成功率可达90%。 展开更多
关键词 qmix算法 注意力机制 多智能体协作
在线阅读 下载PDF
SC2LE场景下基于QMIX算法的多智能体协同控制 被引量:1
3
作者 方星辰 崔鹏 王庆领 《指挥信息系统与技术》 2021年第2期21-26,共6页
为了解决多智能体协同控制中高维状态空间与环境部分可观测的问题,研究了中心式训练分布式执行框架在多智能体强化学习中的实现方法,以及复杂场景下传统强化学习算法,并采用带注意力机制的QMIX算法实现了协同控制。以星际争霸2学习环境(... 为了解决多智能体协同控制中高维状态空间与环境部分可观测的问题,研究了中心式训练分布式执行框架在多智能体强化学习中的实现方法,以及复杂场景下传统强化学习算法,并采用带注意力机制的QMIX算法实现了协同控制。以星际争霸2学习环境(SC2LE)为基础的小场景中,将多个作战单位作为多智能体进行协同控制并加以试验验证。试验结果表明,与其他多智能体强化学习算法相比,带注意力机制的QMIX算法能够得到收敛的训练模型,可获得较好的协同控制效果。 展开更多
关键词 多智能体强化学习 qmix算法 注意力机制 SC2LE
在线阅读 下载PDF
基于QMix的车辆云计算资源动态分配方法 被引量:4
4
作者 刘金石 Manzoor Ahmed 林青 《计算机工程》 CAS CSCD 北大核心 2022年第11期284-290,298,共8页
城市交通智能化和通信技术的进步会产生大量基于车辆的应用,但目前车辆有限的计算资源无法满足车辆应用的计算需求与延迟性约束。车辆云(VC)可以高效地调度资源,从而显著降低任务请求的延迟与传输成本。针对VC环境下任务卸载与计算资源... 城市交通智能化和通信技术的进步会产生大量基于车辆的应用,但目前车辆有限的计算资源无法满足车辆应用的计算需求与延迟性约束。车辆云(VC)可以高效地调度资源,从而显著降低任务请求的延迟与传输成本。针对VC环境下任务卸载与计算资源分配问题,提出一个考虑异质车辆和异质任务的计计资源分配算法。对到达的任务构建M/M/1队列模型与计算模型,并定义一个效用函数以最大化系统整体效用。针对环境中车辆地理分布的高度动态系统变化,提出基于双时间尺度的二次资源分配机制(SRA),使用两个不同时间尺度的资源分配决策动作,对其分别构建部分可观测马尔可夫决策过程。两个决策动作通过执行各自的策略获得的奖励进行连接,将问题建模为两层计算资源分配问题。在此基础上提出基于二次资源分配机制的多智能体算法SRA-QMix求解最优策略。仿真结果表明,与深度确定性策略梯度算法对比,该算法的整体效用值和任务完成率分别提高了70%、6%,对于QMix和MADDPG算法分别应用SRA后的任务完成率分别提高了13%与15%,可适用于动态的计算资源分配环境。 展开更多
关键词 车辆云 多智能体强化学习 qmix算法 任务卸载 排队理论
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部