期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于MAPPO的多无人机协同分布式动态任务分配 被引量:3
1
作者 李海峰 杨宏安 +2 位作者 盛梓茂 刘超 陈逸新 《控制与决策》 北大核心 2025年第5期1429-1437,共9页
针对多无人机在高动态近距空战中自主决策困难且协同性差等问题,提出一种基于多智能体近端策略优化(MAPPO)的多无人机分布式动态任务分配方法.首先,考虑任务可执行约束和无人机载荷约束,建立以敌方无人机为目标、攻击战术为任务的多无... 针对多无人机在高动态近距空战中自主决策困难且协同性差等问题,提出一种基于多智能体近端策略优化(MAPPO)的多无人机分布式动态任务分配方法.首先,考虑任务可执行约束和无人机载荷约束,建立以敌方无人机为目标、攻击战术为任务的多无人机动态任务分配模型;其次,设计包含分离式状态滑动标准化机制、动作屏蔽机制以及注意力机制的任务重分配网络,该网络可有效处理MAPPO算法在状态滑动标准化过程中的信息失真问题,并确保任务分配过程严格满足任务约束,同时可基于攻击目标专注于攻击战术的选择,实现多无人机的协同分布式动态任务分配;最后,在3v3近距空战场景中,搭载所提出算法的我方无人机与搭载空战决策专家系统的敌方无人机进行空战对抗,其作战胜率高达98.5%,所得结果验证了所提出方法的有效性. 展开更多
关键词 多无人机 动态任务分配 近距空战 mappo 分布式
原文传递
基于MAPPO的无信号灯交叉口自动驾驶决策 被引量:1
2
作者 许曼晨 于镝 +1 位作者 赵理 郭陈栋 《吉林大学学报(信息科学版)》 CAS 2024年第5期790-798,共9页
针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且... 针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且设计了综合考虑交通规则、安全到达或发生碰撞等安全性以及交叉口车辆最大、最小速度等车流效率的奖励函数,旨在实现安全高效的自动驾驶决策。仿真实验表明,所提出的自动驾驶决策方案在训练中相较于其他算法具有更出色的稳定性和收敛性,在不同车流密度下均呈现出更高的成功率和安全性。该自动驾驶决策方案在解决无信号灯交叉口环境方面具有显著潜力,并且为复杂路况自动驾驶决策的研究起到促进作用。 展开更多
关键词 自动驾驶 智能决策 无信号灯交叉口 mappo算法
在线阅读 下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
3
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(mappo) 资源分配
在线阅读 下载PDF
一种空中近距离多机自主博弈决策方法研究
4
作者 霍琳 王楚迪 李泽铎 《兵器装备工程学报》 北大核心 2025年第S1期193-199,共7页
针对空中近距离多机自主博弈训练过程中对手的构建以及选择问题,本文提出一种新的自主博弈决策方法以提升决策效率及性能。主要是结合优先级虚构自博弈(priority fictitious self-play,PFSP)和多智能体近端策略优化(multi-agent proxima... 针对空中近距离多机自主博弈训练过程中对手的构建以及选择问题,本文提出一种新的自主博弈决策方法以提升决策效率及性能。主要是结合优先级虚构自博弈(priority fictitious self-play,PFSP)和多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)的方法,采用F-16模型构建了高保真的2v2空中对抗场景。通过虚拟对抗场景实施了一系列对比仿真实验,结果显示,PFSP-MAPPO算法在多智能体协同决策任务中展现出卓越的策略性能,验证了所提方法的有效性与优越性。 展开更多
关键词 多智能体 协同决策 博弈对抗 自主决策 强化学习 mappo算法
在线阅读 下载PDF
基于多智能体强化学习的交叉道路车辆协同控制
5
作者 申元霞 谢悦 +2 位作者 张学锋 汤亚玲 储岳中 《西华大学学报(自然科学版)》 2025年第4期40-48,共9页
为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;... 为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;考虑车辆间相互位置对通行任务的影响,优化车辆通行时间和安全性,同时设计策略生成算法和优化目标函数;为防止策略陷入局部最优,使用纳什均衡判断策略收敛。在CARLA仿真平台上的实验仿真结果表明,该车辆协同控制策略能在一定程度上提高交叉路口自动驾驶车辆的通行效果,并保证控制系统的稳定性。 展开更多
关键词 车辆协同控制 mappo-RCNN算法 端到端 多智能体系统 策略生成算法 交通流优化 CARLA仿真
在线阅读 下载PDF
基于终端接入网的全时全域电力业务接入路由
6
作者 王忠钰 卢志鑫 +4 位作者 吕国远 刘乙召 李霜冰 岳顺民 韩雨阳 《太赫兹科学与电子信息学报》 2025年第5期476-481,501,共7页
随着能源互联网的迅速发展,车网互动等新型电力业务对服务质量的要求日益严格,给电力终端接入网带来诸多挑战。针对终端接入网多种通信技术覆盖范围重叠,通信方式可选范围广泛导致的资源浪费和网络性能下降问题,提出一种基于随机森林的... 随着能源互联网的迅速发展,车网互动等新型电力业务对服务质量的要求日益严格,给电力终端接入网带来诸多挑战。针对终端接入网多种通信技术覆盖范围重叠,通信方式可选范围广泛导致的资源浪费和网络性能下降问题,提出一种基于随机森林的通信方式选择算法(RF-CMS)。通过随机森林对海量多样的新型电力业务进行智能分类,为其选择最合适的通信方式;然后,从流量负载和通信质量角度出发,利用多智能体近端策略优化(MAPPO)算法为电力业务动态分配路由,确保各种终端业务数据(如测量信息、控制信息)能够在接入网中及时、准确地传输,从而保证电力网络状态的全景全域可观可控。将所提算法与仅基于MAPPO的路由算法在平均端到端时延、负载均衡度等方面进行对比,证明了所提算法的有效性。 展开更多
关键词 电力终端接入网 随机森林 多智能体近端策略优化 通信方式 路由优化
在线阅读 下载PDF
基于多智能体强化学习的防空编队部署方法 被引量:2
7
作者 简泽民 申国伟 +1 位作者 刘莉 王美琪 《电光与控制》 CSCD 北大核心 2024年第12期91-97,共7页
针对防空编队智能部署方法无法同时兼顾区域掩护和目标掩护、人为制定复杂规则难以求解、算法执行效率较低的问题,提出一种基于独立多智能体近端策略优化(IN-MAPPO)的防空编队部署方法。设计独立的行动者-评论家网络,以适应火力单元的... 针对防空编队智能部署方法无法同时兼顾区域掩护和目标掩护、人为制定复杂规则难以求解、算法执行效率较低的问题,提出一种基于独立多智能体近端策略优化(IN-MAPPO)的防空编队部署方法。设计独立的行动者-评论家网络,以适应火力单元的不同角色,通过集中式价值函数和奖励函数促进火力单元协同合作完成混合部署任务,提高编队的抗击能力和整体部署性能。实验结果表明:IN-MAPPO方法能够依据智能体的角色完成混合部署任务,提高远程火力单元的抗击能力,比其他MAPPO算法减少了13.7%的训练时间;与现有智能算法相比,火力单元覆盖面积提升了4.2%,有效掩护宽度提升了12.3%,算法的执行效率提高了95.9%。 展开更多
关键词 区域掩护 目标掩护 独立参数 IN-mappo算法
在线阅读 下载PDF
面向专网的信息能源协同关键技术研究 被引量:1
8
作者 席思雨 董江波 +4 位作者 马力鹏 王文硕 韩同欢 孙伟 齐航 《移动通信》 2024年第8期96-101,共6页
随着双碳战略的落地,移动网络方案不仅要实现依据业务变化的特点进行网络方案的制定与优化,也需要结合能耗与业务需求多种目标,进行精准规划及优化,从而在提升网络建设投资精准度的同时实现绿色低碳网络,因此提出了一种基于NP-MAPPO算... 随着双碳战略的落地,移动网络方案不仅要实现依据业务变化的特点进行网络方案的制定与优化,也需要结合能耗与业务需求多种目标,进行精准规划及优化,从而在提升网络建设投资精准度的同时实现绿色低碳网络,因此提出了一种基于NP-MAPPO算法的端网协同优化方案,通过同时降低组网环境中基站及终端的能耗实现绿色组网方案,根据得到的奖励值收敛曲线,所提算法相较于IPPO及MADDPG能探索到更高的奖励值,相较于MAPPO能更快地达到收敛。 展开更多
关键词 信息能源协同 端网协同 NP-mappo 绿色组网
在线阅读 下载PDF
Performance Evaluation ofMulti-Agent Reinforcement Learning Algorithms
9
作者 Abdulghani M.Abdulghani Mokhles M.Abdulghani +1 位作者 Wilbur L.Walters Khalid H.Abed 《Intelligent Automation & Soft Computing》 2024年第2期337-352,共16页
Multi-Agent Reinforcement Learning(MARL)has proven to be successful in cooperative assignments.MARL is used to investigate how autonomous agents with the same interests can connect and act in one team.MARL cooperation... Multi-Agent Reinforcement Learning(MARL)has proven to be successful in cooperative assignments.MARL is used to investigate how autonomous agents with the same interests can connect and act in one team.MARL cooperation scenarios are explored in recreational cooperative augmented reality environments,as well as realworld scenarios in robotics.In this paper,we explore the realm of MARL and its potential applications in cooperative assignments.Our focus is on developing a multi-agent system that can collaborate to attack or defend against enemies and achieve victory withminimal damage.To accomplish this,we utilize the StarCraftMulti-Agent Challenge(SMAC)environment and train four MARL algorithms:Q-learning with Mixtures of Experts(QMIX),Value-DecompositionNetwork(VDN),Multi-agent Proximal PolicyOptimizer(MAPPO),andMulti-Agent Actor Attention Critic(MAA2C).These algorithms allow multiple agents to cooperate in a specific scenario to achieve the targeted mission.Our results show that the QMIX algorithm outperforms the other three algorithms in the attacking scenario,while the VDN algorithm achieves the best results in the defending scenario.Specifically,the VDNalgorithmreaches the highest value of battle wonmean and the lowest value of dead alliesmean.Our research demonstrates the potential forMARL algorithms to be used in real-world applications,such as controllingmultiple robots to provide helpful services or coordinating teams of agents to accomplish tasks that would be impossible for a human to do.The SMAC environment provides a unique opportunity to test and evaluate MARL algorithms in a challenging and dynamic environment,and our results show that these algorithms can be used to achieve victory with minimal damage. 展开更多
关键词 Reinforcement learning RL MULTI-AGENT MARL SMAC VDN QMIX mappo
在线阅读 下载PDF
基于多智能体深度强化学习的无人机路径规划 被引量:10
10
作者 司鹏搏 吴兵 +2 位作者 杨睿哲 李萌 孙艳华 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期449-458,共10页
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UA... 为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 展开更多
关键词 无人机(unmanned aerial vehicle UAV) 复杂环境 路径规划 马尔可夫决策过程 多智能体近端策略优化算法(multi-agent proximal policy optimization mappo) 网络剪枝(network pruning NP)
在线阅读 下载PDF
基于虚拟自博弈多智能体近端优化策略的无人机对抗决策
11
作者 王明明 张宝勇 +2 位作者 吴冲 平原 齐俊桐 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2023年第6期627-640,共14页
研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角... 研究了基于虚拟自博弈多智能体近端策略优化的无人机对抗决策问题。无人机对抗依赖自主决策,使无人机能够根据环境信息生成行动指令。提出了一种基于红蓝空战任务的无人机对抗自主决策方法。首先,采用导弹攻击区域与无人机之间的相对角度来评估当前情况。然后,以场景评估为指导,进行状态空间、动作空间和实时奖励反馈的设计,简化训练过程。在此基础上,提出了一种利用虚拟自博弈多智能体近端策略的方法,旨在从训练数据的经验缓冲区中推导出优势函数和平均策略。最后,通过对无人机执行红蓝对抗任务的仿真,验证了该方法的有效性和优势所在。 展开更多
关键词 无人机 空战 多智能体近端优化策略 决策
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部