期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于多目标规划的MO-MATD3算法的多无人机编队控制
1
作者 李俊泽 梁成庆 +1 位作者 闫冬梅 刘磊 《云南民族大学学报(自然科学版)》 2025年第6期713-722,共10页
针对复杂动态障碍环境下多无人机编队保持与目标导航协同控制问题,提出基于虚拟中心控制架构的多目标多智能体双延迟深度确定性策略梯度算法(multi-objective multi-agent twin delayed deep deterministic policy gradient,MO-MATD3).... 针对复杂动态障碍环境下多无人机编队保持与目标导航协同控制问题,提出基于虚拟中心控制架构的多目标多智能体双延迟深度确定性策略梯度算法(multi-objective multi-agent twin delayed deep deterministic policy gradient,MO-MATD3).首先,基于人工势场理论构建连续稠密奖励函数,提升智能体对复杂行为策略的学习效率与训练收敛速度.其次,基于多目标规划的思想设计了编队导航和避障的模式切换,当智能体检测到障碍物时,优先采取避障策略,使得多智能体在同时面对编队、导航和避障等多个相互冲突的目标时能够切换策略,在保证安全的前提下完成编队导航任务.最后,通过对照实验验证算法有效性,利用泛化环境测试算法泛化性,并通过参数扰动验证系统鲁棒性. 展开更多
关键词 多智能体强化学习 人工势场法 多目标规划 编队控制 matd3
在线阅读 下载PDF
引入经验加权回放机制的MATD3改进算法
2
作者 蒙贤哲 张国 王华川 《指挥信息系统与技术》 2025年第3期21-27,共7页
在多智能体强化学习领域,多智能体系统样本利用效率低,多智能体双延迟深度确定性策略梯度(MATD3)算法收敛慢且鲁棒性差。针对上述问题,创新地将经验加权回放(EWR)机制融入MATD3算法。通过剖析相关原理,阐释了该机制提升算法性能的逻辑,... 在多智能体强化学习领域,多智能体系统样本利用效率低,多智能体双延迟深度确定性策略梯度(MATD3)算法收敛慢且鲁棒性差。针对上述问题,创新地将经验加权回放(EWR)机制融入MATD3算法。通过剖析相关原理,阐释了该机制提升算法性能的逻辑,并设计出融合后的算法MATD3-EWR。案例分析表明,与经典的MATD3算法相比,改进后的MATD3-EWR算法在多机器人协作场景中训练迭代次数减少了50%,决策准确率从70%提升至85%,且环境扰动下的性能波动标准差从0.08降至0.03,从而提高了稳定性。该算法为多智能体系统在复杂环境中的应用提供有力支持。 展开更多
关键词 多智能体系统 多智能体双延迟深度确定性策略梯度(matd3)算法 经验加权回放(EWR)机制 训练效率 稳定性
在线阅读 下载PDF
基于MATD3的视距内协同空战机动决策 被引量:5
3
作者 张栋 唐俊林 +2 位作者 熊威 任智 杨书恒 《航空兵器》 CSCD 北大核心 2023年第3期20-28,共9页
为提升多无人作战飞机空战的协同作战能力,提出一种基于多智能体双延迟深度确定性策略梯度(MATD3)的协同空战机动决策方法。首先,基于无人作战飞机的三自由度动力学模型构建空战环境,并结合飞行员的操纵方式,设计以控制量的变化量表示... 为提升多无人作战飞机空战的协同作战能力,提出一种基于多智能体双延迟深度确定性策略梯度(MATD3)的协同空战机动决策方法。首先,基于无人作战飞机的三自由度动力学模型构建空战环境,并结合飞行员的操纵方式,设计以控制量的变化量表示的动作空间。其次,优化了状态空间和奖励函数的设计,将友机与敌机的相对关系引入状态空间,根据相对角度、相对距离等空战态势因素建立连续型奖励函数,将飞行约束条件融入离散型奖励函数,提升机动决策的准确性和机动飞行的安全性;采用分阶段训练、启发式引导、双探索机制、交替冻结博弈等训练方法,提高算法的收敛速度和机动策略的鲁棒性。最后,构建了二对一空战的仿真场景,结果表明我方双机能够展现出明显的配合行为,提高了对空战态势的感知能力。 展开更多
关键词 无人作战飞机 协同空战 机动决策 多智能体 深度强化学习 matd3
在线阅读 下载PDF
基于PER-MATD3的多无人机攻防对抗机动决策 被引量:13
4
作者 符小卫 徐哲 +1 位作者 朱金冬 王楠 《航空学报》 EI CAS CSCD 北大核心 2023年第7期191-204,共14页
以障碍物随机分布的复杂环境下多无人机攻防对抗机动决策为研究背景,构建了攻防双方运动模型及雷达探测模型,将双延迟深度确定性策略梯度(TD3)算法扩展到多智能体领域中以解决多智能体深度确定性策略梯度(MADDPG)算法存在值函数高估的问... 以障碍物随机分布的复杂环境下多无人机攻防对抗机动决策为研究背景,构建了攻防双方运动模型及雷达探测模型,将双延迟深度确定性策略梯度(TD3)算法扩展到多智能体领域中以解决多智能体深度确定性策略梯度(MADDPG)算法存在值函数高估的问题;在此基础上,为了提升算法学习效率,结合优先经验回放机制提出了优先经验回放多智能体双延迟深度确定性策略算法(PER-MATD3)。通过仿真实验表明本文所设计的方法在多无人机攻防对抗机动决策问题中具有较好的对抗效果,并通过对比验证了(PER-MATD3)算法相较其他算法在收敛速度和稳定性方面的优势。 展开更多
关键词 多无人机 多智能体强化学习 PER-matd3 攻防对抗 机动决策
原文传递
Research on UAV-MEC Cooperative Scheduling Algorithms Based on Multi-Agent Deep Reinforcement Learning
5
作者 Yonghua Huo Ying Liu +1 位作者 Anni Jiang Yang Yang 《Computers, Materials & Continua》 2026年第3期1823-1850,共28页
With the advent of sixth-generation mobile communications(6G),space-air-ground integrated networks have become mainstream.This paper focuses on collaborative scheduling for mobile edge computing(MEC)under a three-tier... With the advent of sixth-generation mobile communications(6G),space-air-ground integrated networks have become mainstream.This paper focuses on collaborative scheduling for mobile edge computing(MEC)under a three-tier heterogeneous architecture composed of mobile devices,unmanned aerial vehicles(UAVs),and macro base stations(BSs).This scenario typically faces fast channel fading,dynamic computational loads,and energy constraints,whereas classical queuing-theoretic or convex-optimization approaches struggle to yield robust solutions in highly dynamic settings.To address this issue,we formulate a multi-agent Markov decision process(MDP)for an air-ground-fused MEC system,unify link selection,bandwidth/power allocation,and task offloading into a continuous action space and propose a joint scheduling strategy that is based on an improved MATD3 algorithm.The improvements include Alternating Layer Normalization(ALN)in the actor to suppress gradient variance,Residual Orthogonalization(RO)in the critic to reduce the correlation between the twin Q-value estimates,and a dynamic-temperature reward to enable adaptive trade-offs during training.On a multi-user,dual-link simulation platform,we conduct ablation and baseline comparisons.The results reveal that the proposed method has better convergence and stability.Compared with MADDPG,TD3,and DSAC,our algorithm achieves more robust performance across key metrics. 展开更多
关键词 UAV-MEC networks multi-agent deep reinforcement learning matd3 task offloading
在线阅读 下载PDF
M-DRL的低轨道卫星网络计算卸载和任务迁移 被引量:1
6
作者 徐飞 宁辛 +2 位作者 安朔 申奥祥 王泽轩 《西安工业大学学报》 CAS 2024年第3期395-404,共10页
针对无人机网络高时延、低性能、有限带宽、难以解决复杂计算任务问题,提出了一种将低地球轨道卫星和移动边缘计算技术结合形成的MEC辅助LEO卫星网络计算卸载和任务迁移方法。首先通过建立本地计算模型、卸载模型和迁移模型,确定目标优... 针对无人机网络高时延、低性能、有限带宽、难以解决复杂计算任务问题,提出了一种将低地球轨道卫星和移动边缘计算技术结合形成的MEC辅助LEO卫星网络计算卸载和任务迁移方法。首先通过建立本地计算模型、卸载模型和迁移模型,确定目标优化成本函数。然后为降低模型复杂度,引入多智能体深度强化学习模型,利用多智能体双延迟深度确定性策略梯度(MATD3)算法求解优化问题,降低系统总时延。仿真结果表明,与本地计算及随机迁移算法相比,MATD3算法的任务处理时延分别降低94.55%和83.02%,证明了MATD3算法在计算卸载和任务迁移方面的有效性和可靠性。 展开更多
关键词 LEO卫星网络 移动边缘计算 matd3算法 计算卸载 卫星通信
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部