期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于多目标规划的MO-MATD3算法的多无人机编队控制
1
作者 李俊泽 梁成庆 +1 位作者 闫冬梅 刘磊 《云南民族大学学报(自然科学版)》 2025年第6期713-722,共10页
针对复杂动态障碍环境下多无人机编队保持与目标导航协同控制问题,提出基于虚拟中心控制架构的多目标多智能体双延迟深度确定性策略梯度算法(multi-objective multi-agent twin delayed deep deterministic policy gradient,MO-MATD3).... 针对复杂动态障碍环境下多无人机编队保持与目标导航协同控制问题,提出基于虚拟中心控制架构的多目标多智能体双延迟深度确定性策略梯度算法(multi-objective multi-agent twin delayed deep deterministic policy gradient,MO-MATD3).首先,基于人工势场理论构建连续稠密奖励函数,提升智能体对复杂行为策略的学习效率与训练收敛速度.其次,基于多目标规划的思想设计了编队导航和避障的模式切换,当智能体检测到障碍物时,优先采取避障策略,使得多智能体在同时面对编队、导航和避障等多个相互冲突的目标时能够切换策略,在保证安全的前提下完成编队导航任务.最后,通过对照实验验证算法有效性,利用泛化环境测试算法泛化性,并通过参数扰动验证系统鲁棒性. 展开更多
关键词 多智能体强化学习 人工势场法 多目标规划 编队控制 matd3
在线阅读 下载PDF
引入经验加权回放机制的MATD3改进算法
2
作者 蒙贤哲 张国 王华川 《指挥信息系统与技术》 2025年第3期21-27,共7页
在多智能体强化学习领域,多智能体系统样本利用效率低,多智能体双延迟深度确定性策略梯度(MATD3)算法收敛慢且鲁棒性差。针对上述问题,创新地将经验加权回放(EWR)机制融入MATD3算法。通过剖析相关原理,阐释了该机制提升算法性能的逻辑,... 在多智能体强化学习领域,多智能体系统样本利用效率低,多智能体双延迟深度确定性策略梯度(MATD3)算法收敛慢且鲁棒性差。针对上述问题,创新地将经验加权回放(EWR)机制融入MATD3算法。通过剖析相关原理,阐释了该机制提升算法性能的逻辑,并设计出融合后的算法MATD3-EWR。案例分析表明,与经典的MATD3算法相比,改进后的MATD3-EWR算法在多机器人协作场景中训练迭代次数减少了50%,决策准确率从70%提升至85%,且环境扰动下的性能波动标准差从0.08降至0.03,从而提高了稳定性。该算法为多智能体系统在复杂环境中的应用提供有力支持。 展开更多
关键词 多智能体系统 多智能体双延迟深度确定性策略梯度(matd3)算法 经验加权回放(EWR)机制 训练效率 稳定性
在线阅读 下载PDF
基于MATD3的视距内协同空战机动决策 被引量:5
3
作者 张栋 唐俊林 +2 位作者 熊威 任智 杨书恒 《航空兵器》 CSCD 北大核心 2023年第3期20-28,共9页
为提升多无人作战飞机空战的协同作战能力,提出一种基于多智能体双延迟深度确定性策略梯度(MATD3)的协同空战机动决策方法。首先,基于无人作战飞机的三自由度动力学模型构建空战环境,并结合飞行员的操纵方式,设计以控制量的变化量表示... 为提升多无人作战飞机空战的协同作战能力,提出一种基于多智能体双延迟深度确定性策略梯度(MATD3)的协同空战机动决策方法。首先,基于无人作战飞机的三自由度动力学模型构建空战环境,并结合飞行员的操纵方式,设计以控制量的变化量表示的动作空间。其次,优化了状态空间和奖励函数的设计,将友机与敌机的相对关系引入状态空间,根据相对角度、相对距离等空战态势因素建立连续型奖励函数,将飞行约束条件融入离散型奖励函数,提升机动决策的准确性和机动飞行的安全性;采用分阶段训练、启发式引导、双探索机制、交替冻结博弈等训练方法,提高算法的收敛速度和机动策略的鲁棒性。最后,构建了二对一空战的仿真场景,结果表明我方双机能够展现出明显的配合行为,提高了对空战态势的感知能力。 展开更多
关键词 无人作战飞机 协同空战 机动决策 多智能体 深度强化学习 matd3
在线阅读 下载PDF
基于PER-MATD3的多无人机攻防对抗机动决策 被引量:15
4
作者 符小卫 徐哲 +1 位作者 朱金冬 王楠 《航空学报》 EI CAS CSCD 北大核心 2023年第7期191-204,共14页
以障碍物随机分布的复杂环境下多无人机攻防对抗机动决策为研究背景,构建了攻防双方运动模型及雷达探测模型,将双延迟深度确定性策略梯度(TD3)算法扩展到多智能体领域中以解决多智能体深度确定性策略梯度(MADDPG)算法存在值函数高估的问... 以障碍物随机分布的复杂环境下多无人机攻防对抗机动决策为研究背景,构建了攻防双方运动模型及雷达探测模型,将双延迟深度确定性策略梯度(TD3)算法扩展到多智能体领域中以解决多智能体深度确定性策略梯度(MADDPG)算法存在值函数高估的问题;在此基础上,为了提升算法学习效率,结合优先经验回放机制提出了优先经验回放多智能体双延迟深度确定性策略算法(PER-MATD3)。通过仿真实验表明本文所设计的方法在多无人机攻防对抗机动决策问题中具有较好的对抗效果,并通过对比验证了(PER-MATD3)算法相较其他算法在收敛速度和稳定性方面的优势。 展开更多
关键词 多无人机 多智能体强化学习 PER-matd3 攻防对抗 机动决策
原文传递
基于Informer-MATD3的风力发电商现货价格预测-日前竞价两阶段决策模型
5
作者 张硕 王雨欣 +1 位作者 李英姿 贺运政 《电力建设》 2026年第4期63-81,共19页
【目的】为解决新型电力系统中风电高比例渗透引发的电价高波动性与预测难题,提出一种适用于风力发电商的动态竞价策略。【方法】首先,构建了多市场因素融合的Informer(Market-Informer)预测模型,通过引入碳价、绿证价格及煤炭价格等关... 【目的】为解决新型电力系统中风电高比例渗透引发的电价高波动性与预测难题,提出一种适用于风力发电商的动态竞价策略。【方法】首先,构建了多市场因素融合的Informer(Market-Informer)预测模型,通过引入碳价、绿证价格及煤炭价格等关键变量,实现日前电价预测;进一步,将预测信息嵌入基于多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic policy gradient,MATD3)算法的竞价决策框架中。该框架通过在包含水电、火电、光伏发电商的市场环境中进行集中训练,最终实现风力发电商的最优竞价策略。【结果】以欧洲某电力市场2022年数据为案例进行竞价,结果显示其预测方向准确性(directional accuracy coefficient,DAC)在10%的误差水平下可达94.3%,较传统自回归积分移动平均模型(autoregressive integrated moving average model,ARIMA)提升了18.6个百分点。该策略使系统总成本降低11.4%,风力发电商收益提升9.8%,中标率提高18.7%,收益波动降低22.3%。【结论】算例分析验证了“预测-决策”动态耦合机制在提升可再生能源竞价能力与低碳转型中的有效性,为高比例可再生能源电力市场提供了智能化决策范式。 展开更多
关键词 电价预测 Informer模型 多智能体双延迟深度确定性策略梯度(matd3)算法 市场竞价
原文传递
Three-degree-of-freedom motion posture stabilization control of platform based on DTW-LSTM-MATD3 under high and low frequency disturbances of ships
6
作者 Qin ZHANG Jingyi ZHOU +1 位作者 Bangping GU Xiong HU 《Journal of Zhejiang University-SCIENCE A》 2026年第3期246-261,共16页
In the complex and variable deep-sea environment,the compensation control of ship motion ensures the safety and efficiency of equipment installation and transportation in offshore wind farms.However,the ship motion po... In the complex and variable deep-sea environment,the compensation control of ship motion ensures the safety and efficiency of equipment installation and transportation in offshore wind farms.However,the ship motion posture compensation control system is severely affected by uncertainties,which significantly impact the accuracy of compensation control.In this paper,we propose a ship three-degree-of-freedom(3-DoF)motion posture stabilization control method based on the DTW-LSTM-MATD3 algorithm.We use the multi-agent twin delayed deep deterministic policy gradient(MATD3)to control a platform with six electric cylinders to achieve stable control.However,owing to random noise affecting the ship’s motion posture,we use a dynamic time warping(DTW)algorithm to distinguish between high-frequency noise and low-frequency tracking signals.Further,we embed a long short-term memory(LSTM)network into the MATD3 network to better align the Critic network’s training with the true Q-value.We use a combined reward function to enhance the agent’s exploration capability in complex dynamic environments.Finally,verification was conducted under sixth-level,abrupt sea conditions with high-frequency noise,as well as under real abrupt sea conditions,and a generalization test was also carried out.Simulation results show that the proposed DTW-LSTM-MATD3 method has great compensation control ability. 展开更多
关键词 Compensation control Multi-agent twin delayed deep deterministic policy gradient(matd3)algorithm Dynamic time warping(DTW)algorithm Long short-term memory(LSTM)network
原文传递
Research on UAV-MEC Cooperative Scheduling Algorithms Based on Multi-Agent Deep Reinforcement Learning
7
作者 Yonghua Huo Ying Liu +1 位作者 Anni Jiang Yang Yang 《Computers, Materials & Continua》 2026年第3期1823-1850,共28页
With the advent of sixth-generation mobile communications(6G),space-air-ground integrated networks have become mainstream.This paper focuses on collaborative scheduling for mobile edge computing(MEC)under a three-tier... With the advent of sixth-generation mobile communications(6G),space-air-ground integrated networks have become mainstream.This paper focuses on collaborative scheduling for mobile edge computing(MEC)under a three-tier heterogeneous architecture composed of mobile devices,unmanned aerial vehicles(UAVs),and macro base stations(BSs).This scenario typically faces fast channel fading,dynamic computational loads,and energy constraints,whereas classical queuing-theoretic or convex-optimization approaches struggle to yield robust solutions in highly dynamic settings.To address this issue,we formulate a multi-agent Markov decision process(MDP)for an air-ground-fused MEC system,unify link selection,bandwidth/power allocation,and task offloading into a continuous action space and propose a joint scheduling strategy that is based on an improved MATD3 algorithm.The improvements include Alternating Layer Normalization(ALN)in the actor to suppress gradient variance,Residual Orthogonalization(RO)in the critic to reduce the correlation between the twin Q-value estimates,and a dynamic-temperature reward to enable adaptive trade-offs during training.On a multi-user,dual-link simulation platform,we conduct ablation and baseline comparisons.The results reveal that the proposed method has better convergence and stability.Compared with MADDPG,TD3,and DSAC,our algorithm achieves more robust performance across key metrics. 展开更多
关键词 UAV-MEC networks multi-agent deep reinforcement learning matd3 task offloading
在线阅读 下载PDF
基于PERTA-MATD3的多无人艇协同拒止策略研究 被引量:1
8
作者 陶伟宇 吴翔宇 魏长赟 《无人系统技术》 2024年第6期55-72,共18页
海上无人艇在军事对抗、海事边防等领域具有重要战略意义,针对拒止任务中的协同作战、目标分配及博弈对抗决策等问题,提出一种作战环境下多无人艇对可疑目标船只的拒止策略方法。首先,基于多无人艇协同拒止任务背景进行作战环境建模;然... 海上无人艇在军事对抗、海事边防等领域具有重要战略意义,针对拒止任务中的协同作战、目标分配及博弈对抗决策等问题,提出一种作战环境下多无人艇对可疑目标船只的拒止策略方法。首先,基于多无人艇协同拒止任务背景进行作战环境建模;然后,构建多对多场景下的拒止方法框架,根据作战态势评估并基于匈牙利算法进行目标分配,并结合多智能体深度确定性策略梯度算法、双延迟-确定策略梯度算法与优先经验回放机制,提出基于优先经验回放的目标分配耦合多智能体强化学习方法;最后,搭建仿真环境,采用集中式训练、分布式执行架构实现对拒止策略的训练与测试。实验结果表明,提出的策略方法能够在不同无人艇数量的场景下有效完成对可疑目标的拒止,并在2对2场景下取得94%的任务成功率及584的步长消耗,在收敛性和学习效率等方面优于其他方法,为多无人艇的协同决策提供了理论参考。 展开更多
关键词 多无人艇 协同拒止 深度强化学习 PERTA-matd3 目标分配
原文传递
M-DRL的低轨道卫星网络计算卸载和任务迁移 被引量:1
9
作者 徐飞 宁辛 +2 位作者 安朔 申奥祥 王泽轩 《西安工业大学学报》 CAS 2024年第3期395-404,共10页
针对无人机网络高时延、低性能、有限带宽、难以解决复杂计算任务问题,提出了一种将低地球轨道卫星和移动边缘计算技术结合形成的MEC辅助LEO卫星网络计算卸载和任务迁移方法。首先通过建立本地计算模型、卸载模型和迁移模型,确定目标优... 针对无人机网络高时延、低性能、有限带宽、难以解决复杂计算任务问题,提出了一种将低地球轨道卫星和移动边缘计算技术结合形成的MEC辅助LEO卫星网络计算卸载和任务迁移方法。首先通过建立本地计算模型、卸载模型和迁移模型,确定目标优化成本函数。然后为降低模型复杂度,引入多智能体深度强化学习模型,利用多智能体双延迟深度确定性策略梯度(MATD3)算法求解优化问题,降低系统总时延。仿真结果表明,与本地计算及随机迁移算法相比,MATD3算法的任务处理时延分别降低94.55%和83.02%,证明了MATD3算法在计算卸载和任务迁移方面的有效性和可靠性。 展开更多
关键词 LEO卫星网络 移动边缘计算 matd3算法 计算卸载 卫星通信
在线阅读 下载PDF
非完备信息观测条件下多智能体空中对抗自主决策算法
10
作者 张原 李璇 +1 位作者 李超 周晓光 《电光与控制》 2026年第5期8-14,共7页
空中对抗博弈的态势以及信息获取具有高度的复杂性、动态性、不确定性等特点。针对非完备信息观测下的空中对抗决策问题,提出了基于MLP的非完备信息数据填充策略。研究结果表明,该策略能够有效将非完备信息数据进行完备化处理;针对空中... 空中对抗博弈的态势以及信息获取具有高度的复杂性、动态性、不确定性等特点。针对非完备信息观测下的空中对抗决策问题,提出了基于MLP的非完备信息数据填充策略。研究结果表明,该策略能够有效将非完备信息数据进行完备化处理;针对空中对抗对手选择低智化导致的训练引导不足等问题,提出了基于群体自博弈方法的多环境并行训练框架。仿真结果表明,该架构能够在并行计算平台上缩短训练时间,加速算法收敛,引导智能体战术水平逐步提升。 展开更多
关键词 多智能体自主决策 非完备信息 自博弈 深度强化学习 matd3
在线阅读 下载PDF
面向多航天器协作围捕的智能决策方法
11
作者 陈丹鹤 王书航 +1 位作者 刘志勇 王创歌 《系统工程与电子技术》 2026年第4期1404-1412,共9页
面对多航天器智能协作围捕逃逸目标的空间复杂任务,提出基于多智能体双延迟深度确定性策略梯度(multi-agent twin-delayed deep deterministic policy gradient,MATD3)的智能协作围捕算法。首先建立多航天器协作围捕环境和相对轨道动力... 面对多航天器智能协作围捕逃逸目标的空间复杂任务,提出基于多智能体双延迟深度确定性策略梯度(multi-agent twin-delayed deep deterministic policy gradient,MATD3)的智能协作围捕算法。首先建立多航天器协作围捕环境和相对轨道动力学模型,利用马尔可夫决策过程来描述空间目标围捕问题;其次为了改进围捕环境中高维度状态空间、连续动作空间,并解决多智能体航天器构型不稳定等问题,设计一种考虑围捕态势一致性的引导性奖励函数,使围捕星能够快速实现对逃逸星的稳定围捕;最后基于Gym框架搭建的多航天器协作围捕仿真环境进行集群博弈策略的训练优化,使各个航天器行为达到个体和团队双重最优决策目的。仿真结果表明,在100 m末端位置约束下,该算法能避免多航天器相互碰撞,并有效实现多航天器对目标的协作围捕,为未来空间航天器的智能自主操控提供参考。 展开更多
关键词 多智能体双延迟深度确定性策略梯度 多航天器 协作围捕 围捕态势一致性 策略优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部