期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于MADDPG的再入飞行器协同制导方法
1
作者 王嘉磊 郭建国 《弹道学报》 北大核心 2025年第4期30-37,47,共9页
临近空间再入阶段的多飞行器协同制导任务面临强气动耦合、剧烈非线性特性以及复杂任务与威胁约束。传统制导方法大多依赖解析模型或单体优化策略,在实时决策、复杂约束处理及协同能力方面均存在不足,难以满足未来高动态集群作战场景的... 临近空间再入阶段的多飞行器协同制导任务面临强气动耦合、剧烈非线性特性以及复杂任务与威胁约束。传统制导方法大多依赖解析模型或单体优化策略,在实时决策、复杂约束处理及协同能力方面均存在不足,难以满足未来高动态集群作战场景的需求。针对这一问题,提出了一种基于多智能体深度确定性策略梯度(MADDPG)的主-从式协同制导方法。首先,在视线坐标系下构建主-从相对动力学模型,为构建多飞行器协同编队模型提供了理论支撑;其次,为提升智能体在多约束环境下的策略学习能力,设计了以视线角变化率、相对距离保持误差与编队偏差为核心的复合奖励函数,并引入雷达威胁区惩罚项,以实现对编队保持、终端需求满足及威胁规避等多目标的统一描述;最后,结合残差网络结构框架进行主-从飞行器的策略学习与训练,实现了多飞行器的协同控制。仿真结果表明,所提出的方法在控制精度、稳定性及计算效率方面均显著优于传统制导策略。该方法能够在高动态环境下保持从飞行器对主飞行器的稳定编队跟随,显著降低相对距离误差与视线角抖动,并有效规避雷达威胁区,提高了整体协同制导的完成质量与任务成功率。研究内容为临近空间再入阶段多飞行器协同制导,提供了一种可扩展、智能化、高可靠性的技术路径,提高了多飞行器协同制导的稳定性与决策能力。 展开更多
关键词 多飞行器编队 maddpg算法 再入段 协同制导
在线阅读 下载PDF
基于LDE-MADDPG算法的无人机集群编队集结控制策略
2
作者 肖玮 高甲博 柯学良 《系统仿真学报》 北大核心 2025年第9期2335-2351,共17页
针对MADDPG算法用于无人机集群编队集结控制的局限性,提出基于LDE-MADDPG算法的无人机集群编队集结控制策略。通过设计状态特征学习网络和解耦式Critic网络提出LDEMADDPG算法,用以改善MADDPG算法的泛化性、可扩展性及集群训练效率。将... 针对MADDPG算法用于无人机集群编队集结控制的局限性,提出基于LDE-MADDPG算法的无人机集群编队集结控制策略。通过设计状态特征学习网络和解耦式Critic网络提出LDEMADDPG算法,用以改善MADDPG算法的泛化性、可扩展性及集群训练效率。将该算法结合构建的解耦式奖励函数、集群状态空间和无人机动作空间等要素,生成了能够适应不同队形和不同数量的无人机集群编队集结策略。仿真实验表明:较MADDPG算法,LDE-MADDPG算法提升了19.6%的训练效率;生成的集群编队集结控制策略能够在60 s内完成包括“菱形”在内的6种无人机队形集结,80 s内实现从6~21架次的无人机集群编队集结,表现出了良好的泛化性和可扩展性。 展开更多
关键词 LDE-maddpg算法 状态特征学习网络 解耦式Critic网络 编队集结
原文传递
基于ATMADDPG算法的多水面无人航行器编队导航 被引量:2
3
作者 王思琪 关巍 +1 位作者 佟敏 赵盛烨 《吉林大学学报(信息科学版)》 CAS 2024年第4期588-599,共12页
为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略... 为提高多无人船编队系统的导航能力,提出了一种基于注意力机制的多智能体深度确定性策略梯度(ATMADDPG:Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient)算法。该算法在训练阶段,通过大量试验训练出最佳策略,并在实验阶段直接使用训练出的最佳策略得到最佳编队路径。仿真实验将4艘相同的“百川号”无人船作为实验对象。实验结果表明,基于ATMADDPG算法的队形保持策略能实现稳定的多无人船编队导航,并在一定程度上满足队形保持的要求。相较于多智能体深度确定性策略梯度(MADDPG:Multi-Agent Depth Deterministic Policy Gradient)算法,所提出的ATMADDPG算法在收敛速度、队形保持能力和对环境变化的适应性等方面表现出更优越的性能,综合导航效率可提高约80%,具有较大的应用潜力。 展开更多
关键词 多无人船编队导航 maddpg算法 注意力机制 深度强化学习
在线阅读 下载PDF
基于MADDPG的多AGVs路径规划算法 被引量:2
4
作者 尹华一 尤雅丽 +1 位作者 黄新栋 段青娜 《厦门理工学院学报》 2024年第1期37-46,共10页
针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函... 针对多辆自动导引车系统(automated guided vehicle system,AGVs)在动态不确定环境下完成货物运送并进行路径规划的问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多AGVs路径规划算法。本方法通过状态空间、动作空间、奖励函数和网络结构重新设计MADDPG算法的模型结构,通过OpenAI Gym接口搭建二维仿真环境用作多AGVs (agents)的训练平台。实验结果表明,相比于深度确定性策略梯度(DDPG)算法和双延迟深度确定性策略梯度(TD3)算法,基于MADDPG的多AGVs路径规划算法在智能仓储仿真环境下,多AGVs碰到货架的次数分别减少了21.49%、11.63%,碰到障碍物的次数分别减少了14.69%、10.12%,全部AGVs到达货物装卸点的成功率分别高出了17.22%、10.53%,表明学习后的AGV具有更高效的在线决策能力和自适应能力,能够找到较优的路径。 展开更多
关键词 自动导引车系统(AGVs) 路径规划 多智能体深度确定性策略梯度(maddpg)算法 深度强化学习 多智能体
在线阅读 下载PDF
基于后验经验回放的MADDPG算法 被引量:7
5
作者 孙彧 徐越 +3 位作者 潘宣宏 戴定成 孙健 陈新群 《指挥信息系统与技术》 2021年第6期78-84,共7页
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验... 训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。 展开更多
关键词 多智能体系统 多智能体深度强化学习 多智能体深度确定性策略梯度算法 后验经验回放
在线阅读 下载PDF
基于MADDPG的散装物料输送多智能体协同控制
6
作者 朱奇奇 李敬兆 +2 位作者 石晴 刘继超 胡迪 《自动化技术与应用》 2024年第3期10-13,34,共5页
为提升带式输送系统的智能化决策,提高生产效率,降低能耗,应用多智能体深度确定性策略梯度(MADDPG)算法,构建多输送机智能体协同控制系统。系统采用集中式结构控制多输送机,由输送机运行能耗模型,结合MADDPG算法结构,构建多智能体协同... 为提升带式输送系统的智能化决策,提高生产效率,降低能耗,应用多智能体深度确定性策略梯度(MADDPG)算法,构建多输送机智能体协同控制系统。系统采用集中式结构控制多输送机,由输送机运行能耗模型,结合MADDPG算法结构,构建多智能体协同控制模型。通过训练模型,寻优输送机运行速度与煤流量最佳匹配关系,得出节能最优速度控制策略。与深度确定性策略梯度(DDPG)算法进行实验对比。结果表明,提出的多输送机智能体算法模型学习效率高,收敛速度快,具有较强的稳定性。 展开更多
关键词 物料输送 多智能体 协同控制 maddpg算法
在线阅读 下载PDF
基于MADDPG算法协同预测的多智能体节能制热饮水机的能效提升
7
作者 严安 杨雨琪 +2 位作者 蒋鑫阳 王佳玺 关志涛 《自动化应用》 2024年第1期1-4,共4页
为提升公共场所制热饮水机的群体性能,降低整体能耗,设计了多智能体协同预测的节能制热饮水机。利用季节性ARIMA模型预测饮水机使用人数,结合决策树及遗传算法设定单台饮水机的临界阈值,应用多智能体协同MADDPG算法建立多台饮水机协同... 为提升公共场所制热饮水机的群体性能,降低整体能耗,设计了多智能体协同预测的节能制热饮水机。利用季节性ARIMA模型预测饮水机使用人数,结合决策树及遗传算法设定单台饮水机的临界阈值,应用多智能体协同MADDPG算法建立多台饮水机协同控制。通过构建用电成本回归模型测试样机性能,实验结论表明,与市面的商用饮水机相比,新设计的饮水机可节约55%的电费,在提高饮水机能源利用效率方面具有潜在应用价值。 展开更多
关键词 制热饮水机 多智能体协同预测 maddpg算法 季节性ARIMA
在线阅读 下载PDF
针对无人机集群对抗的规则与智能耦合约束训练方法 被引量:5
8
作者 高显忠 项磊 +2 位作者 王宝来 贾高伟 侯中喜 《国防科技大学学报》 EI CAS CSCD 北大核心 2023年第1期157-166,共10页
基于无人机集群智能攻防对抗构想,建立了无人机集群智能攻防对抗仿真环境。针对传统强化学习算法中难以通过奖励信号精准控制对抗过程中无人机的速度和攻击角度等问题,提出一种规则与智能耦合约束训练的多智能体深度确定性策略梯度(rule... 基于无人机集群智能攻防对抗构想,建立了无人机集群智能攻防对抗仿真环境。针对传统强化学习算法中难以通过奖励信号精准控制对抗过程中无人机的速度和攻击角度等问题,提出一种规则与智能耦合约束训练的多智能体深度确定性策略梯度(rule and intelligence coupling constrained multi-agent deep deterministic policy gradient,RIC-MADDPG)算法,该算法采用规则对强化学习中无人机的动作进行约束。实验结果显示,基于RIC-MADDPG方法训练的无人机集群对抗模型能使得红方无人机集群在对抗中的胜率从53%提高至79%,表明采用“智能体训练—发现问题—编写规则—再次智能体训练—再次发现问题—再次编写规则”的方式对优化智能体对抗策略是有效的。研究结果对建立无人机集群智能攻防策略训练体系、开展规则与智能相耦合的集群战法研究具有一定参考意义。 展开更多
关键词 无人机集群 maddpg算法 智能体决策 对抗模型 规则约束
在线阅读 下载PDF
基于无线传播环境的无蜂窝大规模MIMO系统接入点部署优化 被引量:1
9
作者 姜静 刘永强 +2 位作者 严冯洋 陶莎 Worakrin Sutthiphan 《电信科学》 北大核心 2024年第2期11-21,共11页
无蜂窝大规模多输入多输出(MIMO)系统通过在覆盖区域内部署大量的接入点(AP),可以为用户提供均匀、可靠的服务。传统的无蜂窝大规模MIMO系统采用随机部署,未考虑AP周围的路径损耗、阴影衰落散射物以及环境遮挡对覆盖质量的影响。为了考... 无蜂窝大规模多输入多输出(MIMO)系统通过在覆盖区域内部署大量的接入点(AP),可以为用户提供均匀、可靠的服务。传统的无蜂窝大规模MIMO系统采用随机部署,未考虑AP周围的路径损耗、阴影衰落散射物以及环境遮挡对覆盖质量的影响。为了考虑实际环境下无蜂窝大规模MIMO能实现均匀、一致的覆盖,提出了基于无线传播环境的AP部署方案。首先,通过混合概率路径损耗模型对无线传播环境进行表征,其次构建了以最大化平均吞吐量为目标的AP部署优化问题,最后将问题转化为马尔可夫博弈过程,并且基于多智能体深度确定性策略梯度(MADDPG)算法得出最优的AP部署策略。仿真结果表明,相比于传统的随机部署和现有AP部署策略,所提方案可明显改善复杂环境下的非均匀覆盖问题,为用户提供良好一致的均匀覆盖。 展开更多
关键词 无蜂窝大规模MIMO AP部署 混合概率路径损耗模型 maddpg算法
在线阅读 下载PDF
深度强化学习驱动的双馈抽蓄抽水工况下调频控制 被引量:3
10
作者 劳文洁 史林军 +2 位作者 李杨 吴峰 林克曼 《电力系统及其自动化学报》 CSCD 北大核心 2023年第12期59-70,共12页
为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以... 为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以提高各区域控制性能标准指标为目标,利用改进的多智能体深度确定性策略梯度算法优化各机组的自动发电控制指令。算例分析表明,抽水工况下双馈抽水蓄能参与调频可显著改善系统的频率特性,且所提频率控制方法的鲁棒性和可靠性优于传统控制。 展开更多
关键词 调频 双馈抽水蓄能机组 多智能体深度确定性策略梯度算法 多能互补系统 控制性能标准
在线阅读 下载PDF
基于多智能体强化学习的轨道追逃博弈方法 被引量:22
11
作者 许旭升 党朝辉 +2 位作者 宋斌 袁秋帆 肖余之 《上海航天(中英文)》 CSCD 2022年第2期24-31,共8页
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进... 针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出“围捕“”拦截“”合作“”潜伏”等一系列智能博弈行为,有效地实现了博弈目的。 展开更多
关键词 集群卫星 非合作目标 追逃博弈 奖励塑造 多智能体深度确定性策略梯度算法 涌现 智能
在线阅读 下载PDF
基于强化学习的城市场景下巡飞弹自主协同饱和攻击方法 被引量:6
12
作者 张婷婷 杨学军 《指挥与控制学报》 CSCD 2023年第4期457-468,共12页
针对城市场景下巡飞弹自主协同饱和攻击问题,将其建模为分布式部分可观测马尔可夫决策过程(Dec-POMDPs),设计了确保巡飞弹在极小时间间隔内到达的专用奖励函数,并结合使用联合权重参数的奖励函数,采用循环多智能体深度确定性策略梯度算... 针对城市场景下巡飞弹自主协同饱和攻击问题,将其建模为分布式部分可观测马尔可夫决策过程(Dec-POMDPs),设计了确保巡飞弹在极小时间间隔内到达的专用奖励函数,并结合使用联合权重参数的奖励函数,采用循环多智能体深度确定性策略梯度算法(R-MADDPG)训练巡飞弹自主协同饱和攻击策略,使用蒙特卡罗方法分析指标成功率.仿真实验结果表明,在训练后的决策模型引导下,巡飞弹执行自主协同饱和攻击的任务成功率为93.2%,其中,机间避撞率为94.4%、空中突防成功率为99.5%,95.3%回合到达最大时间间隔小于0.4 s. 展开更多
关键词 巡飞弹 饱和攻击 R-maddpg 算法 自主协同决策 评估指标
在线阅读 下载PDF
无人集群系统行为决策学习奖励机制
13
作者 张婷婷 蓝羽石 宋爱国 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第12期2442-2451,共10页
未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的... 未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的实时性,提高训练效率和学习的稳定性。采用动作空间边界碰撞惩罚、智能体间时空距离约束满足程度奖励;通过智能体在群体中的关系特性,增加智能体之间经验共享,进一步优化学习效率。在实验中,将先验增强的奖励机制和经验共享应用到多智能体深度确定性策略梯度(MADDPG)算法中验证其有效性。结果表明,学习收敛性和稳定性有大幅提高,从而提升了无人集群系统行为学习效率。 展开更多
关键词 无人集群系统 maddpg算法 对抗任务 行为决策 奖励机制
原文传递
基于深度强化学习算法的多无人水面航行器编队构造
14
作者 关巍 张诚 +1 位作者 崔哲闻 韩虎生 《大连海事大学学报》 北大核心 2025年第1期11-20,42,共11页
针对传统多智能体深度确定性策略梯度算法(MADDPG)收敛速度较慢的问题,本文通过在值函数阶段引入注意力机制来提升多无人水面航行器系统编队决策模型的收敛速度,并通过编队模型与编队避碰和编队构造奖励函数的配合,提升了多无人水面航... 针对传统多智能体深度确定性策略梯度算法(MADDPG)收敛速度较慢的问题,本文通过在值函数阶段引入注意力机制来提升多无人水面航行器系统编队决策模型的收敛速度,并通过编队模型与编队避碰和编队构造奖励函数的配合,提升了多无人水面航行器完成编队构造任务的效率。仿真结果验证了本文方法可有效完成多种环境下的多无人水面航行器编队构造任务,为未来多无人船编队构造应用提供了理论研究基础。 展开更多
关键词 多无人水面航行器 编队构造 maddpg算法 深度强化学习 注意力机制
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部