期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于EAS+MADRL的多无人车体系效能评估方法研究 被引量:3
1
作者 高昂 郭齐胜 +1 位作者 董志明 杨绍卿 《系统工程与电子技术》 EI CSCD 北大核心 2021年第12期3643-3651,共9页
无人作战开始步入现代战争舞台,多无人车(multi unmanned ground vehicle,MUGV)协同作战将成为未来陆上作战的主要样式。体系效能评估是装备论证和战法研究的核心问题,针对MUGV体系效能评估问题,建立了一套以自主学习算法为基础的探索... 无人作战开始步入现代战争舞台,多无人车(multi unmanned ground vehicle,MUGV)协同作战将成为未来陆上作战的主要样式。体系效能评估是装备论证和战法研究的核心问题,针对MUGV体系效能评估问题,建立了一套以自主学习算法为基础的探索性仿真分析方法。将MUGV对抗过程建模为零和随机博弈(zero sum stochastic game,ZSG)模型,通过使用多智能体深度强化学习类方法(multi agent deep reinforcement learning,MADRL)探索在不同对方无人车规模条件下,ZSG模型的纳什均衡解,分析纳什均衡条件下参战双方胜率,作战时长等约束,完成MUGV体系作战效能评估,并在最后给出了MUGV体系效能评估应用示例,从而建立了更可信、可用的体系效能评估方法。 展开更多
关键词 多无人车 体系效能评估 多智能体深度强化学习 探索性分析仿真
在线阅读 下载PDF
无人机辅助的铁路无线传感网智能数据收集与计算卸载方法
2
作者 闫莉 王俊凯 +2 位作者 方旭明 蔺伟 梁轶群 《电子与信息学报》 北大核心 2025年第11期4153-4165,共13页
针对铁路复杂环境运维时无线传感网存在监测点网络信号差、传感器更换电池难及监测数据计算量大等挑战,该文提出一种多无人机辅助的铁路无线传感网智能数据收集与计算任务卸载方法。为保障铁路运营安全,方案考虑了铁路安全保护区对无人... 针对铁路复杂环境运维时无线传感网存在监测点网络信号差、传感器更换电池难及监测数据计算量大等挑战,该文提出一种多无人机辅助的铁路无线传感网智能数据收集与计算任务卸载方法。为保障铁路运营安全,方案考虑了铁路安全保护区对无人机飞行的限制,并对不同类型无线传感业务进行优先级划分,优先保障安全型传感业务传输性能,利用基站与列车的可用计算资源进行传感数据计算处理,设计了基于多智能体软演员-评论家(MASAC)深度强化学习算法的多无人机飞行轨迹与数据卸载决策联合优化,实现无人机能耗、无线传感网能耗以及数据信息年龄的加权和最小化。仿真结果表明,所提算法能够显著提升系统整体能耗和数据信息新鲜度性能。 展开更多
关键词 铁路无线传感网 无人机 计算卸载 多智能体深度强化学习
在线阅读 下载PDF
Dynamic Multi-Target Jamming Channel Allocation and Power Decision-Making in Wireless Communication Networks:A Multi-Agent Deep Reinforcement Learning Approach
3
作者 Peng Xiang Xu Hua +4 位作者 Qi Zisen Wang Dan Zhang Yue Rao Ning Gu Wanyi 《China Communications》 2025年第5期71-91,共21页
This paper studies the problem of jamming decision-making for dynamic multiple communication links in wireless communication networks(WCNs).We propose a novel jamming channel allocation and power decision-making(JCAPD... This paper studies the problem of jamming decision-making for dynamic multiple communication links in wireless communication networks(WCNs).We propose a novel jamming channel allocation and power decision-making(JCAPD)approach based on multi-agent deep reinforcement learning(MADRL).In high-dynamic and multi-target aviation communication environments,the rapid changes in channels make it difficult for sensors to accurately capture instantaneous channel state information.This poses a challenge to make centralized jamming decisions with single-agent deep reinforcement learning(DRL)approaches.In response,we design a distributed multi-agent decision architecture(DMADA).We formulate multi-jammer resource allocation as a multiagent Markov decision process(MDP)and propose a fingerprint-based double deep Q-Network(FBDDQN)algorithm for solving it.Each jammer functions as an agent that interacts with the environment in this framework.Through the design of a reasonable reward and training mechanism,our approach enables jammers to achieve distributed cooperation,significantly improving the jamming success rate while considering jamming power cost,and reducing the transmission rate of links.Our experimental results show the FBDDQN algorithm is superior to the baseline methods. 展开更多
关键词 jamming resource allocation JCAPD madrl wireless communication countermeasure wireless communication networks
在线阅读 下载PDF
A pipelining task offloading strategy via delay-aware multi-agent reinforcement learning in Cybertwin-enabled 6G network
4
作者 Haiwen Niu Luhan Wang +3 位作者 Keliang Du Zhaoming Lu Xiangming Wen Yu Liu 《Digital Communications and Networks》 2025年第1期92-105,共14页
Cybertwin-enabled 6th Generation(6G)network is envisioned to support artificial intelligence-native management to meet changing demands of 6G applications.Multi-Agent Deep Reinforcement Learning(MADRL)technologies dri... Cybertwin-enabled 6th Generation(6G)network is envisioned to support artificial intelligence-native management to meet changing demands of 6G applications.Multi-Agent Deep Reinforcement Learning(MADRL)technologies driven by Cybertwins have been proposed for adaptive task offloading strategies.However,the existence of random transmission delay between Cybertwin-driven agents and underlying networks is not considered in related works,which destroys the standard Markov property and increases the decision reaction time to reduce the task offloading strategy performance.In order to address this problem,we propose a pipelining task offloading method to lower the decision reaction time and model it as a delay-aware Markov Decision Process(MDP).Then,we design a delay-aware MADRL algorithm to minimize the weighted sum of task execution latency and energy consumption.Firstly,the state space is augmented using the lastly-received state and historical actions to rebuild the Markov property.Secondly,Gate Transformer-XL is introduced to capture historical actions'importance and maintain the consistent input dimension dynamically changed due to random transmission delays.Thirdly,a sampling method and a new loss function with the difference between the current and target state value and the difference between real state-action value and augmented state-action value are designed to obtain state transition trajectories close to the real ones.Numerical results demonstrate that the proposed methods are effective in reducing reaction time and improving the task offloading performance in the random-delay Cybertwin-enabled 6G networks. 展开更多
关键词 Cybertwin Multi-Agent Deep Reinforcement Learning(madrl) Task offloading PIPELINING Delay-aware
在线阅读 下载PDF
基于多智能体深度强化学习的分布式配电网中楼宇能源调控方法
5
作者 叶卓勋 徐立中 +2 位作者 章建欢 罗世栋 赵玉瑶 《电工技术》 2025年第19期156-159,163,共5页
为应对气候危机和实现“双碳”目标,智慧楼宇能源管理变得至关重要。介绍了一种基于多智能体深度强化学习的方法,用于优化智能楼宇能源装置的调控。该方法平衡了用户需求、温度舒适度和电压稳定性,构建了一个综合经济性、低碳性和安全... 为应对气候危机和实现“双碳”目标,智慧楼宇能源管理变得至关重要。介绍了一种基于多智能体深度强化学习的方法,用于优化智能楼宇能源装置的调控。该方法平衡了用户需求、温度舒适度和电压稳定性,构建了一个综合经济性、低碳性和安全性的安全增强型多智能楼宇能源调控约束马尔可夫决策过程模型,并使用I2Q算法实现可拓展分布式强化学习,在保护隐私的同时,促进了能源用户间的合作,提升了系统能效和安全性。 展开更多
关键词 “双碳”目标 分布式能源调控 多智能体深度强化学习 安全约束 智能楼宇
在线阅读 下载PDF
基于深度强化学习的车车通信智能频谱共享 被引量:8
6
作者 赵军辉 陈垚 张青苗 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2022年第3期841-848,共8页
在城市轨道交通列车通信系统中,车车(Train-to-Train,T2T)通信是以列车为中心的新一代列控系统通信模式。与传统的以地面控制设备为中心的车地(Train-to-Ground,T2G)通信模式相比,T2T能降低系统的复杂度以及通信时延,提升列车运行效率... 在城市轨道交通列车通信系统中,车车(Train-to-Train,T2T)通信是以列车为中心的新一代列控系统通信模式。与传统的以地面控制设备为中心的车地(Train-to-Ground,T2G)通信模式相比,T2T能降低系统的复杂度以及通信时延,提升列车运行效率。但为保障列车运行的安全性,当前的城市轨道交通列车通信系统中,车车通信与车地通信是并存的。为解决车车通信与车地通信并存场景下,通信链路资源复用引起的干扰问题,论文基于深度强化学习算法,提出了一种智能频谱共享方法。该方法以车车通信链路作为智能体,将频谱共享建模为多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)模型。同时,由于传统深度强化学习对经验池的依赖,为提高经验池的稳定性,引入了能表征智能体行动轨迹的低维指纹信息。在该方法中,多个智能体采用分布式协作的方式与列车所处的通信环境进行交互,以此来迭代优化神经网络参数,使智能体获得的累计奖励不断提升直至收敛。最后,利用训练好的深度强化学习模型,智能体能够联合选择最佳的通信频谱和传输功率。在Python环境下的仿真结果表明:相较于传统的深度强化学习算法,论文提出的算法不但能够使系统信道容量接近最大信道容量,而且能使数据传输的成功率保持在90%以上,极大地提升了列车运行的安全性。 展开更多
关键词 车车通信 多智能体深度强化学习 智能频谱共享 低维指纹
在线阅读 下载PDF
基于多智能体深度强化学习的配-微网协同优化调度研究 被引量:9
7
作者 高冠中 姚建国 +4 位作者 严嘉豪 杨胜春 李亚平 朱克东 程千冉 《智慧电力》 北大核心 2024年第9期80-87,共8页
近年来,微电网在新型电力系统建设中扮演着愈发重要的角色。但分布式灵活资源大量接入,调度中心面临的通信和计算任务日益繁重,集中式调度策略难以有效兼顾多主体的利益诉求并保证计算高效性。为此,提出了一种基于多智能体深度强化学习... 近年来,微电网在新型电力系统建设中扮演着愈发重要的角色。但分布式灵活资源大量接入,调度中心面临的通信和计算任务日益繁重,集中式调度策略难以有效兼顾多主体的利益诉求并保证计算高效性。为此,提出了一种基于多智能体深度强化学习算法(MADRL)的配-微网协同优化调度策略。首先,针对含多类型资源集群的协同调度问题,以最小化微电网群总运行成本为目标进行建模;其次,设计了一个集中训练和分散执行的多智能体深度强化学习框架,将协同调度问题转化为马尔可夫博弈,并改进含熵约束的算法,在策略训练阶段使用全局状态信息作为输入,训练完成后每个智能体由局部观测执行优化决策;最后,在修改后的配电网系统开展了算例分析,验证了所提方法的有效性。 展开更多
关键词 配电网 微电网群 协同优化调度 madrl
在线阅读 下载PDF
基于多智能体深度强化学习的无人机动态预部署策略 被引量:5
8
作者 唐伦 李质萱 +2 位作者 蒲昊 汪智平 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2007-2015,共9页
针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以... 针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。 展开更多
关键词 无人机通信 动态部署 部分可观测马尔科夫博弈 多智能体深度强化学习
在线阅读 下载PDF
利用A2C-ac的城轨车车通信资源分配算法 被引量:3
9
作者 王瑞峰 张明 +1 位作者 黄子恒 何涛 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第4期1306-1313,共8页
在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出... 在城市轨道交通列车控制系统中,车车(T2T)通信作为新一代列车通信模式,利用列车间直接通信来降低通信时延,提高列车运行效率。在T2T通信与车地(T2G)通信并存场景下,针对复用T2G链路产生的干扰问题,在保证用户通信质量的前提下,该文提出一种基于多智能体深度强化学习(MADRL)的改进优势演员-评论家(A2C-ac)资源分配算法。首先以系统吞吐量为优化目标,以T2T通信发送端为智能体,策略网络采用分层输出结构指导智能体选择需复用的频谱资源和功率水平,然后智能体做出相应动作并与T2T通信环境交互,得到该时隙下T2G用户和T2T用户吞吐量,价值网络对两者分别评价,利用权重因子β为每个智能体定制化加权时序差分(TD)误差,以此来灵活优化神经网络参数。最后,智能体根据训练好的模型联合选出最佳的频谱资源和功率水平。仿真结果表明,该算法相较于A2C算法和深度Q网络(DQN)算法,在收敛速度、T2T成功接入率、吞吐量等方面均有明显提升。 展开更多
关键词 城市轨道交通 资源分配 T2T通信 多智能体深度强化学习 A2C-ac算法
在线阅读 下载PDF
仓储中基于多智能体深度强化学习的多AGV路径规划 被引量:1
10
作者 王梅芳 关月 《建模与仿真》 2023年第6期5294-5302,共9页
随着工业自动化和物流行业的迅速发展,自动引导车辆(Automated Guided Vehicle, AGV)在物流仓库中的路径规划已成为确保运输效率和准确性的关键环节。尽管近年来已经有很多策略被提出,但多AGV系统在复杂的物流环境中仍然频繁地出现碰撞... 随着工业自动化和物流行业的迅速发展,自动引导车辆(Automated Guided Vehicle, AGV)在物流仓库中的路径规划已成为确保运输效率和准确性的关键环节。尽管近年来已经有很多策略被提出,但多AGV系统在复杂的物流环境中仍然频繁地出现碰撞、路径冲突以及控制迟延等问题。鉴于此,本研究提出了一种基于多智能体深度强化学习(Multi Agent Deep Reinforcement Learning, MADRL)的路径规划方法,以期解决多AGV之间的相互协调问题并提高其路径规划效率。为验证所提方法的有效性,我们采用了与遗传算法(Genetic Algorithm, GA)的比较实验。结果显示,基于MADRL的策略在整体运输效率上实现了28%的提升,并在碰撞事件上有了明显的减少。 展开更多
关键词 路径规划 madrl AGV 仓储
在线阅读 下载PDF
Applications and Challenges of Deep Reinforcement Learning in Multi-robot Path Planning 被引量:1
11
作者 Tianyun Qiu Yaxuan Cheng 《Journal of Electronic Research and Application》 2021年第6期25-29,共5页
With the rapid advancement of deep reinforcement learning(DRL)in multi-agent systems,a variety of practical application challenges and solutions in the direction of multi-agent deep reinforcement learning(MADRL)are su... With the rapid advancement of deep reinforcement learning(DRL)in multi-agent systems,a variety of practical application challenges and solutions in the direction of multi-agent deep reinforcement learning(MADRL)are surfacing.Path planning in a collision-free environment is essential for many robots to do tasks quickly and efficiently,and path planning for multiple robots using deep reinforcement learning is a new research area in the field of robotics and artificial intelligence.In this paper,we sort out the training methods for multi-robot path planning,as well as summarize the practical applications in the field of DRL-based multi-robot path planning based on the methods;finally,we suggest possible research directions for researchers. 展开更多
关键词 madrl Deep reinforcement learning Multi-agent system MULTI-ROBOT Path planning
在线阅读 下载PDF
A Task Offloading Strategy Based on Multi-Agent Deep Reinforcement Learning for Offshore Wind Farm Scenarios
12
作者 Zeshuang Song Xiao Wang +4 位作者 Qing Wu Yanting Tao Linghua Xu Yaohua Yin Jianguo Yan 《Computers, Materials & Continua》 SCIE EI 2024年第10期985-1008,共24页
This research is the first application of Unmanned Aerial Vehicles(UAVs)equipped with Multi-access Edge Computing(MEC)servers to offshore wind farms,providing a new task offloading solution to address the challenge of... This research is the first application of Unmanned Aerial Vehicles(UAVs)equipped with Multi-access Edge Computing(MEC)servers to offshore wind farms,providing a new task offloading solution to address the challenge of scarce edge servers in offshore wind farms.The proposed strategy is to offload the computational tasks in this scenario to other MEC servers and compute them proportionally,which effectively reduces the computational pressure on local MEC servers when wind turbine data are abnormal.Finally,the task offloading problem is modeled as a multi-intelligent deep reinforcement learning problem,and a task offloading model based on MultiAgent Deep Reinforcement Learning(MADRL)is established.The Adaptive Genetic Algorithm(AGA)is used to explore the action space of the Deep Deterministic Policy Gradient(DDPG),which effectively solves the problem of slow convergence of the DDPG algorithm in the high-dimensional action space.The simulation results show that the proposed algorithm,AGA-DDPG,saves approximately 61.8%,55%,21%,and 33%of the overall overhead compared to local MEC,random offloading,TD3,and DDPG,respectively.The proposed strategy is potentially important for improving real-time monitoring,big data analysis,and predictive maintenance of offshore wind farm operation and maintenance systems. 展开更多
关键词 Offshore wind MEC task offloading madrl AGA-DDPG
在线阅读 下载PDF
基于解耦型MADDPG的无人机集群自主跟踪与避障 被引量:3
13
作者 文超 董文瀚 +2 位作者 解武杰 蔡鸣 胡多修 《飞行力学》 CSCD 北大核心 2022年第6期24-31,共8页
考虑单无人机在复杂空域环境下对地面动目标执行跟踪任务的局限性,采用多智能体深度强化学习(MADRL)方法对无人机集群目标自主跟踪问题进行了研究。首先,基于随机博弈过程设计联合状态空间、动作空间和奖惩机制,并由此建立了无人机集群... 考虑单无人机在复杂空域环境下对地面动目标执行跟踪任务的局限性,采用多智能体深度强化学习(MADRL)方法对无人机集群目标自主跟踪问题进行了研究。首先,基于随机博弈过程设计联合状态空间、动作空间和奖惩机制,并由此建立了无人机集群三维自主机动模型。其次,考虑MADRL的稀疏回报问题,设计了引导型奖励函数,增强了算法收敛性能。接着,为提高集群学习效率,设计了相应的解耦型奖励函数和神经网络结构,并采用解耦型多智能体深度确定性策略梯度(MADDPG)算法对模型进行自适应训练,以生成无人机集群自主跟踪与避障最优机动策略。最后,开展了仿真验证。结果表明:基于MADRL方法的无人机集群能更好地满足复杂空域环境下目标跟踪任务的需求;相比于MADDPG,解耦型MADDPG算法具有更强的准确性和实时性。 展开更多
关键词 无人机集群 多智能体深度强化学习 自主跟踪 避障 随机博弈过程
原文传递
有人机/无人机智能协同目标搜索和轨迹规划算法 被引量:8
14
作者 卢卓 吴启晖 周福辉 《通信学报》 EI CSCD 北大核心 2024年第1期31-40,共10页
基于有人机/无人机智能协同平台,针对多个位置未知的干扰信号源搜索及轨迹规划进行了研究。考虑到搜索过程的实时性和动态性,提出了一种基于多智能体深度强化学习的有人机/无人机智能协同目标搜索和轨迹规划(MUICTSTP)算法。各无人机通... 基于有人机/无人机智能协同平台,针对多个位置未知的干扰信号源搜索及轨迹规划进行了研究。考虑到搜索过程的实时性和动态性,提出了一种基于多智能体深度强化学习的有人机/无人机智能协同目标搜索和轨迹规划(MUICTSTP)算法。各无人机通过感知接收干扰信号强度在线决策轨迹规划,同时将感知信息和决策动作传给有人机来获得全局评估。仿真结果表明,该算法相比其他算法在长期接收干扰信号强度、碰撞等方面表现出更好性能,且获得更优的学习策略。 展开更多
关键词 有人机/无人机 智能协同 多智能体深度强化学习 轨迹规划 接收干扰信号强度
在线阅读 下载PDF
灾害应急场景下基于多智能体深度强化学习的任务卸载策略 被引量:4
15
作者 米德昌 王霄 +1 位作者 李梦丽 秦俊康 《计算机应用研究》 CSCD 北大核心 2023年第12期3766-3771,3777,共7页
针对传统深度强化学习(deep reinforcement learning, DRL)中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习(MADRL)的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据... 针对传统深度强化学习(deep reinforcement learning, DRL)中收敛速度缓慢、经验重放组利用率低的问题,提出了灾害应急场景下基于多智能体深度强化学习(MADRL)的任务卸载策略。首先,针对MEC网络环境随时隙变化且当灾害发生时传感器数据多跳的问题,建立了灾害应急场景下基于MADRL的任务卸载模型;然后,针对传统DRL由高维动作空间导致的收敛缓慢问题,利用自适应差分进化算法(ADE)的变异和交叉操作探索动作空间,提出了自适应参数调整策略调整ADE的迭代次数,避免DRL在训练初期对动作空间的大量无用探索;最后,为进一步提高传统DRL经验重放组中的数据利用率,加入优先级经验重放技术,加速网络训练过程。仿真结果表明,ADE-DDPG算法相比改进的深度确定性策略梯度网络(deep deterministic policy gradient, DDPG)节约了35%的整体开销,验证了ADE-DDPG在性能上的有效性。 展开更多
关键词 灾害应急 任务卸载 多智能体深度强化学习 自适应差分进化算法
在线阅读 下载PDF
基于多智能体深度强化学习的车联网资源分配方法 被引量:2
16
作者 孟水仙 刘艳超 王树彬 《无线电工程》 2024年第6期1388-1397,共10页
在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinf... 在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的资源分配算法。该算法在考虑车辆通信延迟和可靠性的情况下,通过优化频谱选择和功率分配策略来实现最大化网络吞吐量。引入共享经验池机制来解决多智能体并发学习导致的非平稳性问题。该算法基于深度Q网络(Deep Q Network,DQN),利用长短期记忆(Long Short Term Memory,LSTM)网络来捕捉和利用动态环境信息,以解决智能体的部分可观测性问题。将卷积神经网络(Convolutional Neural Network,CNN)和残差网络(Residual Network,ResNet)结合增强算法训练的准确性和预测能力。实验结果表明,所提出的算法能够满足车对基础设施(Vehicle-to-Infrastructure,V2I)链路的高吞吐量以及车对车(Vehicle-to-Vehicle,V2V)链路的低延迟要求,并且对环境变化表现出良好的适应性。 展开更多
关键词 车联网 资源分配 多智能体深度强化学习 深度Q网络
在线阅读 下载PDF
基于值分解的多智能体深度强化学习综述 被引量:16
17
作者 熊丽琴 曹雷 +1 位作者 赖俊 陈希亮 《计算机科学》 CSCD 北大核心 2022年第9期172-182,共11页
基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系... 基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。 展开更多
关键词 值函数分解 多智能体深度强化学习 注意力机制 IGM原则
在线阅读 下载PDF
深度强化学习支持下风环境性能驱动的设计研究与实践 被引量:8
18
作者 姚佳伟 黄辰宇 +1 位作者 付斌 纪尧姆·卡尼奥 《建筑学报》 CSSCI 北大核心 2022年第S01期31-38,共8页
基于多智能体深度强化学习算法与生成对抗网络,提出风环境性能驱动的计算性生成设计与交互式优化方法,并展开实践应用。实践结果表明:该方法可有效提高方案设计阶段风环境性能评估效率,增强性能导向的街区空间形态自适应调控能力,提升... 基于多智能体深度强化学习算法与生成对抗网络,提出风环境性能驱动的计算性生成设计与交互式优化方法,并展开实践应用。实践结果表明:该方法可有效提高方案设计阶段风环境性能评估效率,增强性能导向的街区空间形态自适应调控能力,提升复杂设计场景下室外风环境优化潜能。 展开更多
关键词 室外风环境 街区形态 生成式设计 深度强化学习 生成对抗网络 madrl-GAN
原文传递
基于MATD3的空地网络资源优化 被引量:3
19
作者 秦鹏 王硕 +1 位作者 付民 赵雄文 《中国科学:信息科学》 CSCD 北大核心 2024年第6期1474-1486,共13页
移动边缘计算通过将计算任务卸载到无线网络边缘,可有效减少任务延迟与终端能耗.对于偏远地区分布的大量物联设备(如风电、光伏等电力物联终端),现有地面网络无法为其提供有效的网络服务.因此,本文重点研究空地一体化异构网络模型,通过... 移动边缘计算通过将计算任务卸载到无线网络边缘,可有效减少任务延迟与终端能耗.对于偏远地区分布的大量物联设备(如风电、光伏等电力物联终端),现有地面网络无法为其提供有效的网络服务.因此,本文重点研究空地一体化异构网络模型,通过联合设计无人机轨迹、任务卸载与计算资源分配,以最大限度地减少物联设备任务执行延迟与能耗.针对目标函数的非凸性和网络动态造成的信息不确定性,本文将问题建模为马尔可夫(Markov)决策过程,并提出一种基于MATD3的UAV轨迹与网络资源协同优化算法.实验结果表明,与基准算法相比,本文提出的方案在系统计算能耗和时延方面性能更优. 展开更多
关键词 空地一体化异构网络 卸载决策 资源分配 UAV 轨迹优化 多智能体深度强化学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部