期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
基于MADDPG的多无人机协同攻击方法 被引量:1
1
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(maddpg) 无人机集群
在线阅读 下载PDF
基于LDE-MADDPG算法的无人机集群编队集结控制策略
2
作者 肖玮 高甲博 柯学良 《系统仿真学报》 北大核心 2025年第9期2335-2351,共17页
针对MADDPG算法用于无人机集群编队集结控制的局限性,提出基于LDE-MADDPG算法的无人机集群编队集结控制策略。通过设计状态特征学习网络和解耦式Critic网络提出LDEMADDPG算法,用以改善MADDPG算法的泛化性、可扩展性及集群训练效率。将... 针对MADDPG算法用于无人机集群编队集结控制的局限性,提出基于LDE-MADDPG算法的无人机集群编队集结控制策略。通过设计状态特征学习网络和解耦式Critic网络提出LDEMADDPG算法,用以改善MADDPG算法的泛化性、可扩展性及集群训练效率。将该算法结合构建的解耦式奖励函数、集群状态空间和无人机动作空间等要素,生成了能够适应不同队形和不同数量的无人机集群编队集结策略。仿真实验表明:较MADDPG算法,LDE-MADDPG算法提升了19.6%的训练效率;生成的集群编队集结控制策略能够在60 s内完成包括“菱形”在内的6种无人机队形集结,80 s内实现从6~21架次的无人机集群编队集结,表现出了良好的泛化性和可扩展性。 展开更多
关键词 LDE-maddpg算法 状态特征学习网络 解耦式Critic网络 编队集结
原文传递
Dynamic Task Offloading and Resource Allocation for Air-Ground Integrated Networks Based on MADDPG
3
作者 Jianbin Xue Peipei Mao +2 位作者 Luyao Wang Qingda Yu Changwang Fan 《Journal of Beijing Institute of Technology》 2025年第3期243-267,共25页
With the rapid growth of connected devices,traditional edge-cloud systems are under overload pressure.Using mobile edge computing(MEC)to assist unmanned aerial vehicles(UAVs)as low altitude platform stations(LAPS)for ... With the rapid growth of connected devices,traditional edge-cloud systems are under overload pressure.Using mobile edge computing(MEC)to assist unmanned aerial vehicles(UAVs)as low altitude platform stations(LAPS)for communication and computation to build air-ground integrated networks(AGINs)offers a promising solution for seamless network coverage of remote internet of things(IoT)devices in the future.To address the performance demands of future mobile devices(MDs),we proposed an MEC-assisted AGIN system.The goal is to minimize the long-term computational overhead of MDs by jointly optimizing transmission power,flight trajecto-ries,resource allocation,and offloading ratios,while utilizing non-orthogonal multiple access(NOMA)to improve device connectivity of large-scale MDs and spectral efficiency.We first designed an adaptive clustering scheme based on K-Means to cluster MDs and established commu-nication links,improving efficiency and load balancing.Then,considering system dynamics,we introduced a partial computation offloading algorithm based on multi-agent deep deterministic pol-icy gradient(MADDPG),modeling the multi-UAV computation offloading problem as a Markov decision process(MDP).This algorithm optimizes resource allocation through centralized training and distributed execution,reducing computational overhead.Simulation results show that the pro-posed algorithm not only converges stably but also outperforms other benchmark algorithms in han-dling complex scenarios with multiple devices. 展开更多
关键词 air-ground integrated network(AGIN) resource allocation dynamic task offloading multi-agent deep deterministic policy gradient(maddpg) non-orthogonal multiple access(NOMA)
暂未订购
基于融合课程思想MADDPG的无人机编队控制
4
作者 吴凯峰 刘磊 +1 位作者 刘晨 梁成庆 《计算机工程》 北大核心 2025年第5期73-82,共10页
多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变... 多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变的环境中的性能和稳定性。基于MADDPG算法框架,设计算法的网络结构、状态空间、动作空间和奖励函数,实现无人机编队控制。为解决多智能体算法收敛困难的问题,训练过程中使用课程强化学习将任务进行阶段分解,针对每次任务不同,设计层次递进的奖励函数,并使用人工势场思想设计稠密奖励,使得训练难度大大降低。在自主搭建的软件在环(SITL)仿真环境中,通过消融、对照实验,验证了MADDPG算法在多智能体环境中的有效性和稳定性。最后进行实机实验,在现实环境中进一步验证了所设计算法的实用性。 展开更多
关键词 无人机编队 深度强化学习 多智能体深度确定性策略梯度 课程学习 神经网络
在线阅读 下载PDF
改进MADDPG算法的非凸环境下多智能体自组织协同围捕 被引量:1
5
作者 张红强 石佳航 +5 位作者 吴亮红 王汐 左词立 陈祖国 刘朝华 陈磊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2080-2090,共11页
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程... 针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。 展开更多
关键词 深度强化学习 RW-maddpg 残差网络 经验池 围捕奖励函数
在线阅读 下载PDF
面向指挥决策的DRA-MADDPG协同控制方法
6
作者 苑司宇 康国钦 +1 位作者 郑学强 周强强 《无线电工程》 2025年第11期2218-2226,共9页
随着人工智能等技术的发展,多智能体如无人机群等的实际应用领域逐渐广泛。多智能体深度确定性策略(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法旨在解决多智能体在协作环境中的协同配合问题,凭借其独特的Actor-Criti... 随着人工智能等技术的发展,多智能体如无人机群等的实际应用领域逐渐广泛。多智能体深度确定性策略(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法旨在解决多智能体在协作环境中的协同配合问题,凭借其独特的Actor-Critic架构已成为多智能体领域主流的应用算法之一。针对指挥决策中多智能体协同任务存在的角色分工模糊、信息过载导致的算法策略收敛较慢等问题,提出了一种引入动态角色注意力(Dynamic Role Attention, DRA)机制的改进MADDPG算法——DRA-MADDPG。该算法在Actor-Critic架构中嵌入了DRA模块,通过动态调整智能体对不同角色同伴的关注权重,来实现分工协作的精准优化。具体而言,定义了指挥任务的角色集合与阶段划分,进而构建角色协同矩阵和阶段调整系数;在Critic网络中设计DRA模块,依托角色相关性与任务阶段来计算权重并筛选关键信息;改进了Actor网络,结合角色职责生成针对性的动作。仿真实验表明,与MADDPG相比,DRA-MADDPG的训练累积回报曲线下面积(Area Under the Curve, AUC)提升了2.4%,任务完成耗时降低了19.3%,且通过训练回报曲线对比分析可知,DRA-MADDPG对于短期训练拥有更好的学习效率。证明了该方法适用于复杂指挥决策场景,为多智能体协同提供了一种相对高效的解决方案。 展开更多
关键词 指挥决策 多智能体强化学习 多智能体深度确定性策略 动态角色注意力 协同控制
在线阅读 下载PDF
基于ATMADDPG算法的多水面无人航行器编队导航 被引量:2
7
作者 王思琪 关巍 +1 位作者 佟敏 赵盛烨 《吉林大学学报(信息科学版)》 CAS 2024年第4期588-599,共12页
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略... 为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略,并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将4艘相同的“百川号”无人船作为实验对象。实验结果表明,基于ATMADDPG算法的队形保持策略能实现稳定的多无人船编队导航,并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG:Multi-Agent Depth Deterministic Policy Gradient)算法,所提出的ATMADDPG算法在收敛速度、队形保持能力和对环境变化的适应性等方面表现出更优越的性能,综合导航效率可提高约80%,具有较大的应用潜力。 展开更多
关键词 多无人船编队导航 maddpg算法 注意力机制 深度强化学习
在线阅读 下载PDF
引入混合超网络改进MADDPG的双机编队空战自主机动决策 被引量:1
8
作者 李文韬 方峰 +2 位作者 王振亚 朱奕超 彭冬亮 《航空学报》 EI CAS CSCD 北大核心 2024年第17期214-228,共15页
针对局部信息可观测的双机编队空战协同奖励难以量化设计、智能体协同效率低、机动决策效果欠佳的问题,提出了一种引入混合超网络改进多智能体深度确定性策略梯度(MADDPG)的空战机动决策方法。采用集中式训练-分布式执行架构,满足单机... 针对局部信息可观测的双机编队空战协同奖励难以量化设计、智能体协同效率低、机动决策效果欠佳的问题,提出了一种引入混合超网络改进多智能体深度确定性策略梯度(MADDPG)的空战机动决策方法。采用集中式训练-分布式执行架构,满足单机智能体在局部观测数据下对于全局最优机动决策的训练需求。在为各单机设计兼顾局部快速引导和全局打击优势的奖励函数基础上,引入混合超网络将各单机估计的Q值进行单调非线性混合得到双机协同的全局策略Q值,指导分布式Actor网络更新参数,解决多智能体深度强化学习中信度分配难的问题。大量仿真结果表明,相较于典型的MADDPG方法,该方法能够更好地引导各单机做出符合全局协同最优的机动决策指令,且拥有更高的对抗胜率。 展开更多
关键词 无人作战飞机 空战机动决策 多智能体深度确定性策略梯度(maddpg) 混合超网络 集中式训练-分布式执行
原文传递
基于MADDPG算法的匝道合流区多车协同控制 被引量:1
9
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(maddpg) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于MADDPG的多AGVs路径规划算法 被引量:2
10
作者 尹华一 尤雅丽 +1 位作者 黄新栋 段青娜 《厦门理工学院学报》 2024年第1期37-46,共10页
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函... 针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。 展开更多
关键词 自动导引车系统(AGVs) 路径规划 多智能体深度确定性策略梯度(maddpg)算法 深度强化学习 多智能体
在线阅读 下载PDF
基于MADDPG的散装物料输送多智能体协同控制
11
作者 朱奇奇 李敬兆 +2 位作者 石晴 刘继超 胡迪 《自动化技术与应用》 2024年第3期10-13,34,共5页
为提升带式输送系统的智能化决策,提高生产效率,降低能耗,应用多智能体深度确定性策略梯度(MADDPG)算法,构建多输送机智能体协同控制系统。系统采用集中式结构控制多输送机,由输送机运行能耗模型,结合MADDPG算法结构,构建多智能体协同... 为提升带式输送系统的智能化决策,提高生产效率,降低能耗,应用多智能体深度确定性策略梯度(MADDPG)算法,构建多输送机智能体协同控制系统。系统采用集中式结构控制多输送机,由输送机运行能耗模型,结合MADDPG算法结构,构建多智能体协同控制模型。通过训练模型,寻优输送机运行速度与煤流量最佳匹配关系,得出节能最优速度控制策略。与深度确定性策略梯度(DDPG)算法进行实验对比。结果表明,提出的多输送机智能体算法模型学习效率高,收敛速度快,具有较强的稳定性。 展开更多
关键词 物料输送 多智能体 协同控制 maddpg算法
在线阅读 下载PDF
基于MADDPG算法协同预测的多智能体节能制热饮水机的能效提升
12
作者 严安 杨雨琪 +2 位作者 蒋鑫阳 王佳玺 关志涛 《自动化应用》 2024年第1期1-4,共4页
为提升公共场所制热饮水机的群体性能,降低整体能耗,设计了多智能体协同预测的节能制热饮水机。利用季节性ARIMA模型预测饮水机使用人数,结合决策树及遗传算法设定单台饮水机的临界阈值,应用多智能体协同MADDPG算法建立多台饮水机协同... 为提升公共场所制热饮水机的群体性能,降低整体能耗,设计了多智能体协同预测的节能制热饮水机。利用季节性ARIMA模型预测饮水机使用人数,结合决策树及遗传算法设定单台饮水机的临界阈值,应用多智能体协同MADDPG算法建立多台饮水机协同控制。通过构建用电成本回归模型测试样机性能,实验结论表明,与市面的商用饮水机相比,新设计的饮水机可节约55%的电费,在提高饮水机能源利用效率方面具有潜在应用价值。 展开更多
关键词 制热饮水机 多智能体协同预测 maddpg算法 季节性ARIMA
在线阅读 下载PDF
规则耦合下的多异构子网络MADDPG博弈对抗算法
13
作者 张钰欣 赵恩娇 赵玉新 《智能系统学报》 CSCD 北大核心 2024年第1期190-208,共19页
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模... 针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。 展开更多
关键词 深度强化学习 多无人机 博弈对抗 maddpg Actor-Critic 规则耦合 经验回放 稀疏奖励
在线阅读 下载PDF
基于EPF-MADDPG算法的多导弹机动策略研究
14
作者 聂文川 樊志强 《计算机测量与控制》 2024年第2期156-161,212,共7页
随着人工智能研究的进一步加深以及在俄乌战场上相关技术的大放异彩,其在军事领域扮演的角色越来越重要;针对日益复杂的战场环境,当前的导弹突防领域存在着信息维度高、指挥反应缓慢、突防机动战术不够灵活等问题;提出了一种基于多智能... 随着人工智能研究的进一步加深以及在俄乌战场上相关技术的大放异彩,其在军事领域扮演的角色越来越重要;针对日益复杂的战场环境,当前的导弹突防领域存在着信息维度高、指挥反应缓慢、突防机动战术不够灵活等问题;提出了一种基于多智能体深度确定性策略梯度(MADDPG)的训练方法,用以快速制定导弹攻击机动方案,协助军事指挥官进行战场决策;同时改进算法的经验回放策略,添加经验池筛选机制缩短训练的时长,达到现实场景中的快速反应需求;通过设置多目标快速拦截策略,仿真验证了所设计的方法能够突防的机动策略优势,通过协作智能地对目标进行突防打击,并通过比较,验证了该方法相较其他算法可以提升8%的收敛速度以及10%的成功率。 展开更多
关键词 多智能体 maddpg 强化学习 协同机动突防 导弹机动
在线阅读 下载PDF
面向多机协同的Att-MADDPG围捕控制方法设计 被引量:6
15
作者 刘峰 魏瑞轩 +2 位作者 丁超 姜龙亭 李天 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第3期9-14,共6页
多无人机对动态目标的围捕是无人机集群作战中的重要问题。针对面向动态目标的集群围捕问题,通过分析基于MADDPG算法的围捕机制的不足,借鉴Google机器翻译团队使用的注意力机制,将注意力机制引入围捕过程,设计基于注意力机制的协同围捕... 多无人机对动态目标的围捕是无人机集群作战中的重要问题。针对面向动态目标的集群围捕问题,通过分析基于MADDPG算法的围捕机制的不足,借鉴Google机器翻译团队使用的注意力机制,将注意力机制引入围捕过程,设计基于注意力机制的协同围捕策略,构建了相应的围捕算法。基于AC框架对MADDPG进行改进,首先,在Critic网络加入Attention模块,依据不同注意力权重对所有围捕无人机进行信息处理;然后,在Actor网络加入Attention模块,促使其他无人机进行协同围捕。仿真实验表明,Att-MADDPG算法较MADDPG算法的训练稳定性提高8.9%,任务完成耗时减少19.12%,经学习后的围捕无人机通过协作配合使集群涌现出更具智能化围捕行为。 展开更多
关键词 协同围捕 强化学习 maddpg 智能性涌现
在线阅读 下载PDF
基于DE-MADDPG的多无人机协同追捕策略 被引量:30
16
作者 符小卫 王辉 徐哲 《航空学报》 EI CAS CSCD 北大核心 2022年第5期522-535,共14页
针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,... 针对多无人机协同对抗快速目标的追逃博弈问题,研究了多无人机的协同追捕策略。基于解耦多智能体深度确定性策略梯度算法DE-MADDPG研究了多无人机协同对抗快速目标的追捕策略,设计了多无人机协同追捕的全局奖励和局部奖励两种奖励函数,训练后的多无人机能够有效地执行协同追捕任务。通过设置快速目标的多种逃逸控制策略,仿真验证了所设计的方法能够利用追捕无人机的数量优势,通过协作完成对快速目标的协同围捕,并且通过比较,验证本文所提出的算法相比MADDPG算法更快地取得了收敛效果。 展开更多
关键词 多无人机 协同追捕 DE-maddpg 多智能体强化学习 对抗策略
原文传递
MADDPG算法经验优先抽取机制 被引量:12
17
作者 何明 张斌 +2 位作者 柳强 陈希亮 杨铖 《控制与决策》 EI CSCD 北大核心 2021年第1期68-74,共7页
针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽... 针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性. 展开更多
关键词 多智能体 深度强化学习 maddpg 经验优先抽取
原文传递
基于MADDPG的无人机群空中拦截作战决策研究 被引量:3
18
作者 蔺向阳 邢清华 邢怀玺 《计算机科学》 CSCD 北大核心 2023年第S01期88-94,共7页
基于未来现代化作战需求,构建作战想定,研究在此想定条件下,使用强化学习解决关于红蓝双方无人机编队空中拦截任务的多目标智能决策问题。根据作战模式和应用需求,选择多智能体确定性梯度算法,并对算法原理进行简要介绍;按照想定,编程... 基于未来现代化作战需求,构建作战想定,研究在此想定条件下,使用强化学习解决关于红蓝双方无人机编队空中拦截任务的多目标智能决策问题。根据作战模式和应用需求,选择多智能体确定性梯度算法,并对算法原理进行简要介绍;按照想定,编程搭建了完备的模拟作战训练平台;设计智能体网络模型、网络参数和训练方法;经过训练,初步达到预期效果。实验证明了所选用算法能够有效地解决该类问题,不仅为该类问题的现实应用提供了技术支撑,也为更复杂作战场景和作战任务条件下智能决策的研究提供了理论基础和实验参考。 展开更多
关键词 maddpg 无人机群 智能决策 空中拦截作战 多智能体强化学习
在线阅读 下载PDF
基于DE-MADDPG多智能体强化学习机械臂装配 被引量:2
19
作者 王晶 苏工兵 +2 位作者 袁梦 曾文豪 于楚飞 《组合机床与自动化加工技术》 北大核心 2023年第12期183-187,192,共6页
为了提高机械臂在复杂装配任务中智能程度,提出了一种基于深度强化学习的多智能体装配策略。以六自由度机械臂Pieper准则构型为基础,将末端的位置和姿态分开独立控制,应用解耦多智能体深度确定性策略梯度算法(DE-MADDPG),依据其不同的... 为了提高机械臂在复杂装配任务中智能程度,提出了一种基于深度强化学习的多智能体装配策略。以六自由度机械臂Pieper准则构型为基础,将末端的位置和姿态分开独立控制,应用解耦多智能体深度确定性策略梯度算法(DE-MADDPG),依据其不同的结构装配特性设计了全局奖励函数和局部奖励函数,并在Gezebo仿真平台上进行了圆孔和方孔装配的仿真实验,同时对DDPG算法和MADDPG算法进行对比实验。结果表明DE-MADDPG算法比DDPG提升了13.2%的装配效率,比MADDPG装配更加稳定。通过搭建装配实验平台,验证了该算法在实体装配过程中具有可行性和较强的泛化能力。 展开更多
关键词 深度强化学习 DE-maddpg 轴孔装配 奖励函数
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部