期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于MAPPO算法的串行多车间调度方法
1
作者 闫俊宇 吴孟武 《计算机应用研究》 北大核心 2026年第3期867-873,共7页
针对串行多车间动态环境复杂、生产调度困难等问题,提出了一种基于多智能体深度强化学习的调度优化方法。将调度过程建模为马尔可夫决策过程模型,设计了机器选择与AGV调度两类智能体并构建车间多智能体协同调度框架。引入异步更新机制对... 针对串行多车间动态环境复杂、生产调度困难等问题,提出了一种基于多智能体深度强化学习的调度优化方法。将调度过程建模为马尔可夫决策过程模型,设计了机器选择与AGV调度两类智能体并构建车间多智能体协同调度框架。引入异步更新机制对MAPPO(multi-agent proximal policy optimization)算法进行改进以提升其适应性,同时结合plant simulation构建车间仿真模型,实现了MAPPO算法与仿真模型协同优化。以某设备制造工厂为例,设置不同任务规模及扰动场景开展实验,结果表明所提出的方法在完工时间、资源利用率和负载均衡性方面均优于传统调度规则、遗传算法以及主流多智能体算法,展现出良好的适应性和稳定性。 展开更多
关键词 多车间调度 多智能体 深度强化学习 mappo 仿真优化
在线阅读 下载PDF
基于MAPPO的多无人机协同分布式动态任务分配 被引量:6
2
作者 李海峰 杨宏安 +2 位作者 盛梓茂 刘超 陈逸新 《控制与决策》 北大核心 2025年第5期1429-1437,共9页
针对多无人机在高动态近距空战中自主决策困难且协同性差等问题,提出一种基于多智能体近端策略优化(MAPPO)的多无人机分布式动态任务分配方法.首先,考虑任务可执行约束和无人机载荷约束,建立以敌方无人机为目标、攻击战术为任务的多无... 针对多无人机在高动态近距空战中自主决策困难且协同性差等问题,提出一种基于多智能体近端策略优化(MAPPO)的多无人机分布式动态任务分配方法.首先,考虑任务可执行约束和无人机载荷约束,建立以敌方无人机为目标、攻击战术为任务的多无人机动态任务分配模型;其次,设计包含分离式状态滑动标准化机制、动作屏蔽机制以及注意力机制的任务重分配网络,该网络可有效处理MAPPO算法在状态滑动标准化过程中的信息失真问题,并确保任务分配过程严格满足任务约束,同时可基于攻击目标专注于攻击战术的选择,实现多无人机的协同分布式动态任务分配;最后,在3v3近距空战场景中,搭载所提出算法的我方无人机与搭载空战决策专家系统的敌方无人机进行空战对抗,其作战胜率高达98.5%,所得结果验证了所提出方法的有效性. 展开更多
关键词 多无人机 动态任务分配 近距空战 mappo 分布式
原文传递
Threat-MAPPO:动态威胁感知下的多UGV自主决策框架
3
作者 魏邦奇 邓汉强 +3 位作者 陈浩 杨帅 潜昶宇 黄健 《无人系统技术》 2025年第6期47-57,共11页
针对城市巷战动态威胁环境下人机协同作战的多无人地面车辆(UGV)自主决策难题,提出融合实时威胁感知与协同强化学习的决策框架。首先,构建时空耦合动态威胁模型,集成静态威胁(基础威胁值、地形遮蔽系数)、动态威胁(人员临近度、历史观... 针对城市巷战动态威胁环境下人机协同作战的多无人地面车辆(UGV)自主决策难题,提出融合实时威胁感知与协同强化学习的决策框架。首先,构建时空耦合动态威胁模型,集成静态威胁(基础威胁值、地形遮蔽系数)、动态威胁(人员临近度、历史观察区域)及UGV侦察演化机制;随后,设计威胁驱动的多智能体近端策略优化框架(Threat-MAPPO),采用“集中训练-分散执行”架构,创新性提出双流特征融合策略网络处理全局战场上下文与局部精细特征,并设计分层奖励函数实现威胁覆盖、协同惩罚与探索激励的多目标优化;最后,通过仿真验证系统性能。实验表明,动态威胁模型实现战场风险精准量化;相较传统基于A*的协同算法和基于战术规则的前出侦察策略,Threat-MAPPO在敌方火力配置变化的不同场景下均取得最高任务胜率(平均71.25%,分别提升22.75%和36.50%),且在动态敌人数量增加时胜率下降幅度最小,显著提升了动态环境适应性。该框架有效解决了动态威胁下多UGV自主决策的实时性与协同性问题,验证了“机器前出侦察-人员安全跟进”新作战范式,为高威胁任务提供技术支撑。 展开更多
关键词 多UGV自主决策 动态威胁建模 多智能体强化学习 mappo 城市巷战 人机协同 作战仿真
原文传递
基于MAPPO的无信号灯交叉口自动驾驶决策 被引量:1
4
作者 许曼晨 于镝 +1 位作者 赵理 郭陈栋 《吉林大学学报(信息科学版)》 CAS 2024年第5期790-798,共9页
针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且... 针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且设计了综合考虑交通规则、安全到达或发生碰撞等安全性以及交叉口车辆最大、最小速度等车流效率的奖励函数,旨在实现安全高效的自动驾驶决策。仿真实验表明,所提出的自动驾驶决策方案在训练中相较于其他算法具有更出色的稳定性和收敛性,在不同车流密度下均呈现出更高的成功率和安全性。该自动驾驶决策方案在解决无信号灯交叉口环境方面具有显著潜力,并且为复杂路况自动驾驶决策的研究起到促进作用。 展开更多
关键词 自动驾驶 智能决策 无信号灯交叉口 mappo算法
在线阅读 下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
5
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(mappo) 资源分配
在线阅读 下载PDF
二维弹道修正引信MAPPO目标分配方法
6
作者 梁添贵 祁克玉 +2 位作者 徐国泰 钱荣朝 卢新月 《探测与控制学报》 2026年第2期88-95,共8页
针对二维弹道修正引信集群打击中存在的目标分配问题,提出一种基于多智能体近端策略优化(MAPPO)的分布式动态目标分配方法。该方法通过设计含梯度命中奖励、修正偏好惩罚等项的分层奖励函数,引入动作掩码机制排除超最大修正能力目标项,... 针对二维弹道修正引信集群打击中存在的目标分配问题,提出一种基于多智能体近端策略优化(MAPPO)的分布式动态目标分配方法。该方法通过设计含梯度命中奖励、修正偏好惩罚等项的分层奖励函数,引入动作掩码机制排除超最大修正能力目标项,在MAPPO的广义优势函数中耦合末端惩罚项构建衰减感知价值网络,实现了快速合理的二维弹道修正引信目标分配。仿真结果表明,该方法可以在不同规模的作战场景下有效进行目标分配,并且与传统贪心算法和匈牙利算法相比,目标摧毁率显著提升、平均修正量和平均计算时间明显降低。 展开更多
关键词 二维弹道修正引信 多智能体近端策略优化 动态目标分配
在线阅读 下载PDF
基于多智能体强化学习的交叉道路车辆协同控制 被引量:1
7
作者 申元霞 谢悦 +2 位作者 张学锋 汤亚玲 储岳中 《西华大学学报(自然科学版)》 2025年第4期40-48,共9页
为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;... 为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;考虑车辆间相互位置对通行任务的影响,优化车辆通行时间和安全性,同时设计策略生成算法和优化目标函数;为防止策略陷入局部最优,使用纳什均衡判断策略收敛。在CARLA仿真平台上的实验仿真结果表明,该车辆协同控制策略能在一定程度上提高交叉路口自动驾驶车辆的通行效果,并保证控制系统的稳定性。 展开更多
关键词 车辆协同控制 mappo-RCNN算法 端到端 多智能体系统 策略生成算法 交通流优化 CARLA仿真
在线阅读 下载PDF
一种空中近距离多机自主博弈决策方法研究
8
作者 霍琳 王楚迪 李泽铎 《兵器装备工程学报》 北大核心 2025年第S1期193-199,共7页
针对空中近距离多机自主博弈训练过程中对手的构建以及选择问题,本文提出一种新的自主博弈决策方法以提升决策效率及性能。主要是结合优先级虚构自博弈(priority fictitious self-play,PFSP)和多智能体近端策略优化(multi-agent proxima... 针对空中近距离多机自主博弈训练过程中对手的构建以及选择问题,本文提出一种新的自主博弈决策方法以提升决策效率及性能。主要是结合优先级虚构自博弈(priority fictitious self-play,PFSP)和多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)的方法,采用F-16模型构建了高保真的2v2空中对抗场景。通过虚拟对抗场景实施了一系列对比仿真实验,结果显示,PFSP-MAPPO算法在多智能体协同决策任务中展现出卓越的策略性能,验证了所提方法的有效性与优越性。 展开更多
关键词 多智能体 协同决策 博弈对抗 自主决策 强化学习 mappo算法
在线阅读 下载PDF
基于终端接入网的全时全域电力业务接入路由
9
作者 王忠钰 卢志鑫 +4 位作者 吕国远 刘乙召 李霜冰 岳顺民 韩雨阳 《太赫兹科学与电子信息学报》 2025年第5期476-481,501,共7页
随着能源互联网的迅速发展,车网互动等新型电力业务对服务质量的要求日益严格,给电力终端接入网带来诸多挑战。针对终端接入网多种通信技术覆盖范围重叠,通信方式可选范围广泛导致的资源浪费和网络性能下降问题,提出一种基于随机森林的... 随着能源互联网的迅速发展,车网互动等新型电力业务对服务质量的要求日益严格,给电力终端接入网带来诸多挑战。针对终端接入网多种通信技术覆盖范围重叠,通信方式可选范围广泛导致的资源浪费和网络性能下降问题,提出一种基于随机森林的通信方式选择算法(RF-CMS)。通过随机森林对海量多样的新型电力业务进行智能分类,为其选择最合适的通信方式;然后,从流量负载和通信质量角度出发,利用多智能体近端策略优化(MAPPO)算法为电力业务动态分配路由,确保各种终端业务数据(如测量信息、控制信息)能够在接入网中及时、准确地传输,从而保证电力网络状态的全景全域可观可控。将所提算法与仅基于MAPPO的路由算法在平均端到端时延、负载均衡度等方面进行对比,证明了所提算法的有效性。 展开更多
关键词 电力终端接入网 随机森林 多智能体近端策略优化 通信方式 路由优化
在线阅读 下载PDF
基于多智能体强化学习的防空编队部署方法 被引量:3
10
作者 简泽民 申国伟 +1 位作者 刘莉 王美琪 《电光与控制》 CSCD 北大核心 2024年第12期91-97,共7页
针对防空编队智能部署方法无法同时兼顾区域掩护和目标掩护、人为制定复杂规则难以求解、算法执行效率较低的问题,提出一种基于独立多智能体近端策略优化(IN-MAPPO)的防空编队部署方法。设计独立的行动者-评论家网络,以适应火力单元的... 针对防空编队智能部署方法无法同时兼顾区域掩护和目标掩护、人为制定复杂规则难以求解、算法执行效率较低的问题,提出一种基于独立多智能体近端策略优化(IN-MAPPO)的防空编队部署方法。设计独立的行动者-评论家网络,以适应火力单元的不同角色,通过集中式价值函数和奖励函数促进火力单元协同合作完成混合部署任务,提高编队的抗击能力和整体部署性能。实验结果表明:IN-MAPPO方法能够依据智能体的角色完成混合部署任务,提高远程火力单元的抗击能力,比其他MAPPO算法减少了13.7%的训练时间;与现有智能算法相比,火力单元覆盖面积提升了4.2%,有效掩护宽度提升了12.3%,算法的执行效率提高了95.9%。 展开更多
关键词 区域掩护 目标掩护 独立参数 IN-mappo算法
在线阅读 下载PDF
基于多智能体深度强化学习的无人机路径规划 被引量:18
11
作者 司鹏搏 吴兵 +2 位作者 杨睿哲 李萌 孙艳华 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期449-458,共10页
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UA... 为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 展开更多
关键词 无人机(unmanned aerial vehicle UAV) 复杂环境 路径规划 马尔可夫决策过程 多智能体近端策略优化算法(multi-agent proximal policy optimization mappo) 网络剪枝(network pruning NP)
在线阅读 下载PDF
面向专网的信息能源协同关键技术研究 被引量:1
12
作者 席思雨 董江波 +4 位作者 马力鹏 王文硕 韩同欢 孙伟 齐航 《移动通信》 2024年第8期96-101,共6页
随着双碳战略的落地,移动网络方案不仅要实现依据业务变化的特点进行网络方案的制定与优化,也需要结合能耗与业务需求多种目标,进行精准规划及优化,从而在提升网络建设投资精准度的同时实现绿色低碳网络,因此提出了一种基于NP-MAPPO算... 随着双碳战略的落地,移动网络方案不仅要实现依据业务变化的特点进行网络方案的制定与优化,也需要结合能耗与业务需求多种目标,进行精准规划及优化,从而在提升网络建设投资精准度的同时实现绿色低碳网络,因此提出了一种基于NP-MAPPO算法的端网协同优化方案,通过同时降低组网环境中基站及终端的能耗实现绿色组网方案,根据得到的奖励值收敛曲线,所提算法相较于IPPO及MADDPG能探索到更高的奖励值,相较于MAPPO能更快地达到收敛。 展开更多
关键词 信息能源协同 端网协同 NP-mappo 绿色组网
在线阅读 下载PDF
Performance Evaluation ofMulti-Agent Reinforcement Learning Algorithms
13
作者 Abdulghani M.Abdulghani Mokhles M.Abdulghani +1 位作者 Wilbur L.Walters Khalid H.Abed 《Intelligent Automation & Soft Computing》 2024年第2期337-352,共16页
Multi-Agent Reinforcement Learning(MARL)has proven to be successful in cooperative assignments.MARL is used to investigate how autonomous agents with the same interests can connect and act in one team.MARL cooperation... Multi-Agent Reinforcement Learning(MARL)has proven to be successful in cooperative assignments.MARL is used to investigate how autonomous agents with the same interests can connect and act in one team.MARL cooperation scenarios are explored in recreational cooperative augmented reality environments,as well as realworld scenarios in robotics.In this paper,we explore the realm of MARL and its potential applications in cooperative assignments.Our focus is on developing a multi-agent system that can collaborate to attack or defend against enemies and achieve victory withminimal damage.To accomplish this,we utilize the StarCraftMulti-Agent Challenge(SMAC)environment and train four MARL algorithms:Q-learning with Mixtures of Experts(QMIX),Value-DecompositionNetwork(VDN),Multi-agent Proximal PolicyOptimizer(MAPPO),andMulti-Agent Actor Attention Critic(MAA2C).These algorithms allow multiple agents to cooperate in a specific scenario to achieve the targeted mission.Our results show that the QMIX algorithm outperforms the other three algorithms in the attacking scenario,while the VDN algorithm achieves the best results in the defending scenario.Specifically,the VDNalgorithmreaches the highest value of battle wonmean and the lowest value of dead alliesmean.Our research demonstrates the potential forMARL algorithms to be used in real-world applications,such as controllingmultiple robots to provide helpful services or coordinating teams of agents to accomplish tasks that would be impossible for a human to do.The SMAC environment provides a unique opportunity to test and evaluate MARL algorithms in a challenging and dynamic environment,and our results show that these algorithms can be used to achieve victory with minimal damage. 展开更多
关键词 Reinforcement learning RL MULTI-AGENT MARL SMAC VDN QMIX mappo
在线阅读 下载PDF
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策 被引量:1
14
作者 王明明 张宝勇 +2 位作者 吴冲 平原 齐俊桐 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2023年第6期627-640,共14页
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角... 研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角度来评估当前情况。然后,以场景评估为指导,进行状态空间、动作空间和实时奖励反馈的设计,简化训练过程。在此基础上,提出了一种利用虚拟自博弈多智能体近端策略的方法,旨在从训练数据的经验缓冲区中推导出优势函数和平均策略。最后,通过对无人机执行红蓝对抗任务的仿真,验证了该方法的有效性和优势所在。 展开更多
关键词 无人机 空战 多智能体近端优化策略 决策
在线阅读 下载PDF
面向依赖任务的云边协同多资源联合优化
15
作者 朱睿 孙彦赞 蒋雪阳 《工业控制计算机》 2026年第4期84-85,88,共3页
随着用户业务需求逐渐向计算密集型与时延敏感型发展,云边协同网络凭借其高效计算能力和低时延优势,已成为应对复杂应用需求的重要解决方案。然而,实际场景中,业务普遍存在依赖关系,这对于传统云边网络的资源分配和计算调度带来了新的... 随着用户业务需求逐渐向计算密集型与时延敏感型发展,云边协同网络凭借其高效计算能力和低时延优势,已成为应对复杂应用需求的重要解决方案。然而,实际场景中,业务普遍存在依赖关系,这对于传统云边网络的资源分配和计算调度带来了新的挑战。为了应对这些挑战,提出一种面向依赖任务的云边协同多资源联合优化框架,通过引入MAPPO(Multi-Agent Proximal Policy Optimization)算法,实现通信、缓存和计算资源的协同分配,以最小化用户时延和能耗成本。实验结果表明,所提算法在多种不同的场景均优于基线算法。 展开更多
关键词 云边协同网络 资源分配 计算调度 mappo
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部