期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于MADDPG的多无人机协同攻击方法 被引量:1
1
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(maddpg) 无人机集群
在线阅读 下载PDF
改进MADDPG算法的未知环境下多智能体单目标协同探索
2
作者 韩慧妍 石树熙 +2 位作者 况立群 韩燮 熊风光 《计算机工程与应用》 北大核心 2025年第22期320-328,共9页
针对多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)在未知环境下探索效率低下的问题,提出多智能体深度强化学习算法RE-MADDPG-C。利用残差网络(residual network,ResNet)缓解网络中的梯度消... 针对多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)在未知环境下探索效率低下的问题,提出多智能体深度强化学习算法RE-MADDPG-C。利用残差网络(residual network,ResNet)缓解网络中的梯度消失和梯度爆炸问题,提高算法的收敛速度。为解决未知环境下单目标探索中奖励稀疏导致的收敛困难问题,引入多智能体内在好奇心模块(intrinsic curiosity module,ICM),将好奇心奖励作为智能体的内在奖励,为其提供额外的探索动机。通过设计合理的探索奖励函数,使得多智能体能够在未知环境下完成单目标探索任务。仿真实验结果表明,该算法在训练阶段获得的奖励提升更快,能够快速完成探索任务,相比MADDPG及其他算法训练时间缩短,且获得的全局平均奖励更高。 展开更多
关键词 深度强化学习 RE-maddpg-C 残差网络 内在好奇心模块(ICM) 奖励稀疏
在线阅读 下载PDF
基于MADDPG的再入飞行器协同制导方法
3
作者 王嘉磊 郭建国 《弹道学报》 北大核心 2025年第4期30-37,47,共9页
临近空间再入阶段的多飞行器协同制导任务面临强气动耦合、剧烈非线性特性以及复杂任务与威胁约束。传统制导方法大多依赖解析模型或单体优化策略,在实时决策、复杂约束处理及协同能力方面均存在不足,难以满足未来高动态集群作战场景的... 临近空间再入阶段的多飞行器协同制导任务面临强气动耦合、剧烈非线性特性以及复杂任务与威胁约束。传统制导方法大多依赖解析模型或单体优化策略,在实时决策、复杂约束处理及协同能力方面均存在不足,难以满足未来高动态集群作战场景的需求。针对这一问题,提出了一种基于多智能体深度确定性策略梯度(MADDPG)的主-从式协同制导方法。首先,在视线坐标系下构建主-从相对动力学模型,为构建多飞行器协同编队模型提供了理论支撑;其次,为提升智能体在多约束环境下的策略学习能力,设计了以视线角变化率、相对距离保持误差与编队偏差为核心的复合奖励函数,并引入雷达威胁区惩罚项,以实现对编队保持、终端需求满足及威胁规避等多目标的统一描述;最后,结合残差网络结构框架进行主-从飞行器的策略学习与训练,实现了多飞行器的协同控制。仿真结果表明,所提出的方法在控制精度、稳定性及计算效率方面均显著优于传统制导策略。该方法能够在高动态环境下保持从飞行器对主飞行器的稳定编队跟随,显著降低相对距离误差与视线角抖动,并有效规避雷达威胁区,提高了整体协同制导的完成质量与任务成功率。研究内容为临近空间再入阶段多飞行器协同制导,提供了一种可扩展、智能化、高可靠性的技术路径,提高了多飞行器协同制导的稳定性与决策能力。 展开更多
关键词 多飞行器编队 maddpg算法 再入段 协同制导
在线阅读 下载PDF
基于LDE-MADDPG算法的无人机集群编队集结控制策略
4
作者 肖玮 高甲博 柯学良 《系统仿真学报》 北大核心 2025年第9期2335-2351,共17页
针对MADDPG算法用于无人机集群编队集结控制的局限性,提出基于LDE-MADDPG算法的无人机集群编队集结控制策略。通过设计状态特征学习网络和解耦式Critic网络提出LDEMADDPG算法,用以改善MADDPG算法的泛化性、可扩展性及集群训练效率。将... 针对MADDPG算法用于无人机集群编队集结控制的局限性,提出基于LDE-MADDPG算法的无人机集群编队集结控制策略。通过设计状态特征学习网络和解耦式Critic网络提出LDEMADDPG算法,用以改善MADDPG算法的泛化性、可扩展性及集群训练效率。将该算法结合构建的解耦式奖励函数、集群状态空间和无人机动作空间等要素,生成了能够适应不同队形和不同数量的无人机集群编队集结策略。仿真实验表明:较MADDPG算法,LDE-MADDPG算法提升了19.6%的训练效率;生成的集群编队集结控制策略能够在60 s内完成包括“菱形”在内的6种无人机队形集结,80 s内实现从6~21架次的无人机集群编队集结,表现出了良好的泛化性和可扩展性。 展开更多
关键词 LDE-maddpg算法 状态特征学习网络 解耦式Critic网络 编队集结
原文传递
基于MADDPG-R的行人路径规划算法研究
5
作者 许莉 何开晟 +3 位作者 刘海容 向进 杨婷 陈思凡 《智能计算机与应用》 2025年第12期107-112,共6页
随着城市化进程的加速,城市交通堵塞问题日益显著,尤其是在人口密集的城市中心区域,如何实现行人路径的有效规划,是一个亟待解决的问题。将强化学习算法应用于多智能体协同路径规划中,可以解决传统智能体路径规划方法在复杂环境场景下... 随着城市化进程的加速,城市交通堵塞问题日益显著,尤其是在人口密集的城市中心区域,如何实现行人路径的有效规划,是一个亟待解决的问题。将强化学习算法应用于多智能体协同路径规划中,可以解决传统智能体路径规划方法在复杂环境场景下应用的局限性,本文提出了一种基于改进奖励机制下的多智能体确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient with Reward Enhancement,MADDPG-R),在多智能体深度确定性策略梯度算法的基础上,设计一个新的奖励机制,能够有效应对多智能体环境中的复杂情况,保障系统运行的实时性。同时,本文还设计了一个动态的仿真场景,并在二维环境中进行了仿真实验,验证了该算法的有效性。 展开更多
关键词 强化学习 maddpg-R 路径规划 多智能体
在线阅读 下载PDF
PMADDPG:面向电子对抗智能决策的多智能体强化学习训练方法
6
作者 甘茗瑀 焦逊 孔维思 《信息对抗技术》 2025年第6期77-87,共11页
现有基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)的方法在电子对抗中展现出连续动作空间处理能力和异构智能体协同优势,为无人机协同干扰、动态频谱感知等任务提供了有效解决方案。然而,... 现有基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)的方法在电子对抗中展现出连续动作空间处理能力和异构智能体协同优势,为无人机协同干扰、动态频谱感知等任务提供了有效解决方案。然而,该算法采用的单环境串行采样机制导致严重效率瓶颈(样本采集速率受限造成训练周期漫长,CPU多核计算资源利用率不足,策略更新时序依赖引发的奖励方差增加),难以满足电子对抗场景的实时决策需求。为此,提出了并行环境采样MADDPG(parallel-sampling MADDPG,PMADDPG)算法。该方法通过构建多实例环境容器实现并行交互采样,设计线程安全经验回放机制确保多线程数据一致性,并采用异步梯度更新策略解耦训练流程。在OpenAI多智能体粒子环境中的实验表明,当并行环境数为8时,PMADDPG的样本采集速率相比原版提升88%,CPU利用率稳定提高41%以上,奖励值方差降低34.4%。该方法显著提升了电子对抗动态决策任务的训练效率,为频谱对抗、无人机突防等实战场景提供了高效可靠的智能决策支持。 展开更多
关键词 电子对抗 多智能体强化学习 maddpg 并行采样 训练效率
在线阅读 下载PDF
Dynamic Task Offloading and Resource Allocation for Air-Ground Integrated Networks Based on MADDPG
7
作者 Jianbin Xue Peipei Mao +2 位作者 Luyao Wang Qingda Yu Changwang Fan 《Journal of Beijing Institute of Technology》 2025年第3期243-267,共25页
With the rapid growth of connected devices,traditional edge-cloud systems are under overload pressure.Using mobile edge computing(MEC)to assist unmanned aerial vehicles(UAVs)as low altitude platform stations(LAPS)for ... With the rapid growth of connected devices,traditional edge-cloud systems are under overload pressure.Using mobile edge computing(MEC)to assist unmanned aerial vehicles(UAVs)as low altitude platform stations(LAPS)for communication and computation to build air-ground integrated networks(AGINs)offers a promising solution for seamless network coverage of remote internet of things(IoT)devices in the future.To address the performance demands of future mobile devices(MDs),we proposed an MEC-assisted AGIN system.The goal is to minimize the long-term computational overhead of MDs by jointly optimizing transmission power,flight trajecto-ries,resource allocation,and offloading ratios,while utilizing non-orthogonal multiple access(NOMA)to improve device connectivity of large-scale MDs and spectral efficiency.We first designed an adaptive clustering scheme based on K-Means to cluster MDs and established commu-nication links,improving efficiency and load balancing.Then,considering system dynamics,we introduced a partial computation offloading algorithm based on multi-agent deep deterministic pol-icy gradient(MADDPG),modeling the multi-UAV computation offloading problem as a Markov decision process(MDP).This algorithm optimizes resource allocation through centralized training and distributed execution,reducing computational overhead.Simulation results show that the pro-posed algorithm not only converges stably but also outperforms other benchmark algorithms in han-dling complex scenarios with multiple devices. 展开更多
关键词 air-ground integrated network(AGIN) resource allocation dynamic task offloading multi-agent deep deterministic policy gradient(maddpg) non-orthogonal multiple access(NOMA)
暂未订购
基于融合课程思想MADDPG的无人机编队控制
8
作者 吴凯峰 刘磊 +1 位作者 刘晨 梁成庆 《计算机工程》 北大核心 2025年第5期73-82,共10页
多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变... 多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变的环境中的性能和稳定性。基于MADDPG算法框架,设计算法的网络结构、状态空间、动作空间和奖励函数,实现无人机编队控制。为解决多智能体算法收敛困难的问题,训练过程中使用课程强化学习将任务进行阶段分解,针对每次任务不同,设计层次递进的奖励函数,并使用人工势场思想设计稠密奖励,使得训练难度大大降低。在自主搭建的软件在环(SITL)仿真环境中,通过消融、对照实验,验证了MADDPG算法在多智能体环境中的有效性和稳定性。最后进行实机实验,在现实环境中进一步验证了所设计算法的实用性。 展开更多
关键词 无人机编队 深度强化学习 多智能体深度确定性策略梯度 课程学习 神经网络
在线阅读 下载PDF
面向多机协同的Att-MADDPG围捕控制方法设计 被引量:6
9
作者 刘峰 魏瑞轩 +2 位作者 丁超 姜龙亭 李天 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第3期9-14,共6页
多无人机对动态目标的围捕是无人机集群作战中的重要问题。针对面向动态目标的集群围捕问题,通过分析基于MADDPG算法的围捕机制的不足,借鉴Google机器翻译团队使用的注意力机制,将注意力机制引入围捕过程,设计基于注意力机制的协同围捕... 多无人机对动态目标的围捕是无人机集群作战中的重要问题。针对面向动态目标的集群围捕问题,通过分析基于MADDPG算法的围捕机制的不足,借鉴Google机器翻译团队使用的注意力机制,将注意力机制引入围捕过程,设计基于注意力机制的协同围捕策略,构建了相应的围捕算法。基于AC框架对MADDPG进行改进,首先,在Critic网络加入Attention模块,依据不同注意力权重对所有围捕无人机进行信息处理;然后,在Actor网络加入Attention模块,促使其他无人机进行协同围捕。仿真实验表明,Att-MADDPG算法较MADDPG算法的训练稳定性提高8.9%,任务完成耗时减少19.12%,经学习后的围捕无人机通过协作配合使集群涌现出更具智能化围捕行为。 展开更多
关键词 协同围捕 强化学习 maddpg 智能性涌现
在线阅读 下载PDF
改进MADDPG算法的非凸环境下多智能体自组织协同围捕 被引量:3
10
作者 张红强 石佳航 +5 位作者 吴亮红 王汐 左词立 陈祖国 刘朝华 陈磊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2080-2090,共11页
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程... 针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。 展开更多
关键词 深度强化学习 RW-maddpg 残差网络 经验池 围捕奖励函数
在线阅读 下载PDF
基于DE-MADDPG的多无人机协同追捕策略 被引量:32
11
作者 符小卫 王辉 徐哲 《航空学报》 EI CAS CSCD 北大核心 2022年第5期522-535,共14页
针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,... 针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,训练后的多无人机能够有效地执行协同追捕任务。通过设置快速目标的多种逃逸控制策略,仿真验证了所设计的方法能够利用追捕无人机的数量优势,通过协作完成对快速目标的协同围捕,并且通过比较,验证本文所提出的算法相比MADDPG算法更快地取得了收敛效果。 展开更多
关键词 多无人机 协同追捕 DE-maddpg 多智能体强化学习 对抗策略
原文传递
面向指挥决策的DRA-MADDPG协同控制方法
12
作者 苑司宇 康国钦 +1 位作者 郑学强 周强强 《无线电工程》 2025年第11期2218-2226,共9页
随着人工智能等技术的发展,多智能体如无人机群等的实际应用领域逐渐广泛。多智能体深度确定性策略(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法旨在解决多智能体在协作环境中的协同配合问题,凭借其独特的Actor-Criti... 随着人工智能等技术的发展,多智能体如无人机群等的实际应用领域逐渐广泛。多智能体深度确定性策略(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法旨在解决多智能体在协作环境中的协同配合问题,凭借其独特的Actor-Critic架构已成为多智能体领域主流的应用算法之一。针对指挥决策中多智能体协同任务存在的角色分工模糊、信息过载导致的算法策略收敛较慢等问题,提出了一种引入动态角色注意力(Dynamic Role Attention, DRA)机制的改进MADDPG算法——DRA-MADDPG。该算法在Actor-Critic架构中嵌入了DRA模块,通过动态调整智能体对不同角色同伴的关注权重,来实现分工协作的精准优化。具体而言,定义了指挥任务的角色集合与阶段划分,进而构建角色协同矩阵和阶段调整系数;在Critic网络中设计DRA模块,依托角色相关性与任务阶段来计算权重并筛选关键信息;改进了Actor网络,结合角色职责生成针对性的动作。仿真实验表明,与MADDPG相比,DRA-MADDPG的训练累积回报曲线下面积(Area Under the Curve, AUC)提升了2.4%,任务完成耗时降低了19.3%,且通过训练回报曲线对比分析可知,DRA-MADDPG对于短期训练拥有更好的学习效率。证明了该方法适用于复杂指挥决策场景,为多智能体协同提供了一种相对高效的解决方案。 展开更多
关键词 指挥决策 多智能体强化学习 多智能体深度确定性策略 动态角色注意力 协同控制
在线阅读 下载PDF
MADDPG算法经验优先抽取机制 被引量:13
13
作者 何明 张斌 +2 位作者 柳强 陈希亮 杨铖 《控制与决策》 EI CSCD 北大核心 2021年第1期68-74,共7页
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽... 针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性. 展开更多
关键词 多智能体 深度强化学习 maddpg 经验优先抽取
原文传递
基于ATMADDPG算法的多水面无人航行器编队导航 被引量:2
14
作者 王思琪 关巍 +1 位作者 佟敏 赵盛烨 《吉林大学学报(信息科学版)》 CAS 2024年第4期588-599,共12页
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略... 为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略,并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将4艘相同的“百川号”无人船作为实验对象。实验结果表明,基于ATMADDPG算法的队形保持策略能实现稳定的多无人船编队导航,并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG:Multi-Agent Depth Deterministic Policy Gradient)算法,所提出的ATMADDPG算法在收敛速度、队形保持能力和对环境变化的适应性等方面表现出更优越的性能,综合导航效率可提高约80%,具有较大的应用潜力。 展开更多
关键词 多无人船编队导航 maddpg算法 注意力机制 深度强化学习
在线阅读 下载PDF
基于DE-MADDPG多智能体强化学习机械臂装配 被引量:3
15
作者 王晶 苏工兵 +2 位作者 袁梦 曾文豪 于楚飞 《组合机床与自动化加工技术》 北大核心 2023年第12期183-187,192,共6页
为了提高机械臂在复杂装配任务中智能程度,提出了一种基于深度强化学习的多智能体装配策略。以六自由度机械臂Pieper准则构型为基础,将末端的位置和姿态分开独立控制,应用解耦多智能体深度确定性策略梯度算法(DE-MADDPG),依据其不同的... 为了提高机械臂在复杂装配任务中智能程度,提出了一种基于深度强化学习的多智能体装配策略。以六自由度机械臂Pieper准则构型为基础,将末端的位置和姿态分开独立控制,应用解耦多智能体深度确定性策略梯度算法(DE-MADDPG),依据其不同的结构装配特性设计了全局奖励函数和局部奖励函数,并在Gezebo仿真平台上进行了圆孔和方孔装配的仿真实验,同时对DDPG算法和MADDPG算法进行对比实验。结果表明DE-MADDPG算法比DDPG提升了13.2%的装配效率,比MADDPG装配更加稳定。通过搭建装配实验平台,验证了该算法在实体装配过程中具有可行性和较强的泛化能力。 展开更多
关键词 深度强化学习 DE-maddpg 轴孔装配 奖励函数
在线阅读 下载PDF
基于MADDPG的无人机群空中拦截作战决策研究 被引量:3
16
作者 蔺向阳 邢清华 邢怀玺 《计算机科学》 CSCD 北大核心 2023年第S01期88-94,共7页
基于未来现代化作战需求,构建作战想定,研究在此想定条件下,使用强化学习解决关于红蓝双方无人机编队空中拦截任务的多目标智能决策问题。根据作战模式和应用需求,选择多智能体确定性梯度算法,并对算法原理进行简要介绍;按照想定,编程... 基于未来现代化作战需求,构建作战想定,研究在此想定条件下,使用强化学习解决关于红蓝双方无人机编队空中拦截任务的多目标智能决策问题。根据作战模式和应用需求,选择多智能体确定性梯度算法,并对算法原理进行简要介绍;按照想定,编程搭建了完备的模拟作战训练平台;设计智能体网络模型、网络参数和训练方法;经过训练,初步达到预期效果。实验证明了所选用算法能够有效地解决该类问题,不仅为该类问题的现实应用提供了技术支撑,也为更复杂作战场景和作战任务条件下智能决策的研究提供了理论基础和实验参考。 展开更多
关键词 maddpg 无人机群 智能决策 空中拦截作战 多智能体强化学习
在线阅读 下载PDF
引入混合超网络改进MADDPG的双机编队空战自主机动决策 被引量:1
17
作者 李文韬 方峰 +2 位作者 王振亚 朱奕超 彭冬亮 《航空学报》 EI CAS CSCD 北大核心 2024年第17期214-228,共15页
针对局部信息可观测的双机编队空战协同奖励难以量化设计、智能体协同效率低、机动决策效果欠佳的问题,提出了一种引入混合超网络改进多智能体深度确定性策略梯度(MADDPG)的空战机动决策方法。采用集中式训练-分布式执行架构,满足单机... 针对局部信息可观测的双机编队空战协同奖励难以量化设计、智能体协同效率低、机动决策效果欠佳的问题,提出了一种引入混合超网络改进多智能体深度确定性策略梯度(MADDPG)的空战机动决策方法。采用集中式训练-分布式执行架构,满足单机智能体在局部观测数据下对于全局最优机动决策的训练需求。在为各单机设计兼顾局部快速引导和全局打击优势的奖励函数基础上,引入混合超网络将各单机估计的Q值进行单调非线性混合得到双机协同的全局策略Q值,指导分布式Actor网络更新参数,解决多智能体深度强化学习中信度分配难的问题。大量仿真结果表明,相较于典型的MADDPG方法,该方法能够更好地引导各单机做出符合全局协同最优的机动决策指令,且拥有更高的对抗胜率。 展开更多
关键词 无人作战飞机 空战机动决策 多智能体深度确定性策略梯度(maddpg) 混合超网络 集中式训练-分布式执行
原文传递
基于MADDPG算法的匝道合流区多车协同控制 被引量:1
18
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(maddpg) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于MADDPG的散装物料输送多智能体协同控制 被引量:1
19
作者 朱奇奇 李敬兆 +2 位作者 石晴 刘继超 胡迪 《自动化技术与应用》 2024年第3期10-13,34,共5页
为提升带式输送系统的智能化决策,提高生产效率,降低能耗,应用多智能体深度确定性策略梯度(MADDPG)算法,构建多输送机智能体协同控制系统。系统采用集中式结构控制多输送机,由输送机运行能耗模型,结合MADDPG算法结构,构建多智能体协同... 为提升带式输送系统的智能化决策,提高生产效率,降低能耗,应用多智能体深度确定性策略梯度(MADDPG)算法,构建多输送机智能体协同控制系统。系统采用集中式结构控制多输送机,由输送机运行能耗模型,结合MADDPG算法结构,构建多智能体协同控制模型。通过训练模型,寻优输送机运行速度与煤流量最佳匹配关系,得出节能最优速度控制策略。与深度确定性策略梯度(DDPG)算法进行实验对比。结果表明,提出的多输送机智能体算法模型学习效率高,收敛速度快,具有较强的稳定性。 展开更多
关键词 物料输送 多智能体 协同控制 maddpg算法
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部