期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于网络学习空间的CTDE创新能力培养模式研究
1
作者 李媛 唐章蔚 《教育信息技术》 2020年第6期58-63,共6页
21世纪核心素养强调对学生学习及创新能力的培养,网络学习空间作为开放交互的个性化学习环境,可以为创新能力培养提供有效支持。文章在文献研究的基础上,通过对智力结构模式、创造与情致教学模式等理论进行分析,提出了以"CTDE"... 21世纪核心素养强调对学生学习及创新能力的培养,网络学习空间作为开放交互的个性化学习环境,可以为创新能力培养提供有效支持。文章在文献研究的基础上,通过对智力结构模式、创造与情致教学模式等理论进行分析,提出了以"CTDE"为核心的创新教育四环节。通过分析网络学习空间支持创新能力培养的功能和作用,构建了网络学习空间支持下的中小学创新能力培养模型及效果评价指标体系,该模型较为直观的体现了网络学习空间在各个环节对创新能力各维度提升起到的支持作用。 展开更多
关键词 创新能力 网络学习空间 ctde模式
原文传递
特征–奖励对齐的深度强化学习架构设计
2
作者 火久元 黄腾飞 《兰州交通大学学报》 2026年第2期53-60,共8页
针对深度强化学习在多智能体环境中普遍存在的特征与奖励机制难以匹配、从而导致算法有效性与适用性不足的问题,提出了一种架构–特征–奖励协同设计框架(AFRD),用于系统性地指导单智能体方法向多智能体场景扩展。该框架依托CTDE(centra... 针对深度强化学习在多智能体环境中普遍存在的特征与奖励机制难以匹配、从而导致算法有效性与适用性不足的问题,提出了一种架构–特征–奖励协同设计框架(AFRD),用于系统性地指导单智能体方法向多智能体场景扩展。该框架依托CTDE(centralized training with decentralized execution),在特征层面引入关键的本地与全局信息,在奖励层面对齐个体目标与系统整体目标,从而形成具有可迁移性的设计思路。接着以边缘计算任务卸载为应用背景,基于AFRD框架在PPO算法上实现了AFRD-PPO,并在三种典型卸载模式下开展实验,对比不同特征与奖励机制组合的收敛性能表现,并进一步分析其对收敛平稳性的影响。实验结果表明,AFRD框架能够有效提升深度强化学习在多智能体环境中的收敛稳定性与适用性。研究为相关领域的研究与应用提供了有益的参考与借鉴。 展开更多
关键词 深度强化学习 特征与奖励机制 边缘计算 任务卸载 ctde
在线阅读 下载PDF
MARCS:A Mobile Crowdsensing Framework Based on Data Shapley Value Enabled Multi-Agent Deep Reinforcement Learning
3
作者 Yiqin Wang Yufeng Wang +1 位作者 Jianhua Ma Qun Jin 《Computers, Materials & Continua》 2025年第3期4431-4449,共19页
Opportunistic mobile crowdsensing(MCS)non-intrusively exploits human mobility trajectories,and the participants’smart devices as sensors have become promising paradigms for various urban data acquisition tasks.Howeve... Opportunistic mobile crowdsensing(MCS)non-intrusively exploits human mobility trajectories,and the participants’smart devices as sensors have become promising paradigms for various urban data acquisition tasks.However,in practice,opportunistic MCS has several challenges from both the perspectives of MCS participants and the data platform.On the one hand,participants face uncertainties in conducting MCS tasks,including their mobility and implicit interactions among participants,and participants’economic returns given by the MCS data platform are determined by not only their own actions but also other participants’strategic actions.On the other hand,the platform can only observe the participants’uploaded sensing data that depends on the unknown effort/action exerted by participants to the platform,while,for optimizing its overall objective,the platform needs to properly reward certain participants for incentivizing them to provide high-quality data.To address the challenge of balancing individual incentives and platform objectives in MCS,this paper proposes MARCS,an online sensing policy based on multi-agent deep reinforcement learning(MADRL)with centralized training and decentralized execution(CTDE).Specifically,the interactions between MCS participants and the data platform are modeled as a partially observable Markov game,where participants,acting as agents,use DRL-based policies to make decisions based on local observations,such as task trajectories and platform payments.To align individual and platform goals effectively,the platform leverages Shapley value to estimate the contribution of each participant’s sensed data,using these estimates as immediate rewards to guide agent training.The experimental results on real mobility trajectory datasets indicate that the revenue of MARCS reaches almost 35%,53%,and 100%higher than DDPG,Actor-Critic,and model predictive control(MPC)respectively on the participant side and similar results on the platform side,which show superior performance compared to baselines. 展开更多
关键词 Mobile crowdsensing online data acquisition data Shapley value multi-agent deep reinforcement learning centralized training and decentralized execution(ctde)
在线阅读 下载PDF
基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法 被引量:12
4
作者 赵知劲 朱家晟 +1 位作者 叶学义 尚俊娜 《电子与信息学报》 EI CSCD 北大核心 2022年第8期2814-2823,共10页
为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为... 为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为应对智能体之间的相互影响和动态的环境,引入集中式训练和分散式执行(CTDE)框架。该文提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各智能体的权重分配问题。采用竞争性深度Q网络算法和优先经验回放技术以提高算法的效率。仿真结果表明,该算法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。 展开更多
关键词 异步组网 多智能体 深度强化学习 集中式学习和分散式执行 模糊推理系统
在线阅读 下载PDF
协同空战与多智能体强化学习下的关键问题 被引量:2
5
作者 谢育星 陆屹 +1 位作者 管聪 纪德东 《飞机设计》 2023年第1期6-10,共5页
自从协同作战的概念提出后,各军事强国在协同空战领域均取得了重大进展,协同成为提升作战能力的倍增器。近数十年来,作为解决序列问题的现代智能方法,强化学习在各领域高速发展。然而,面对高维变量问题时,传统的单智能体强化学习往往表... 自从协同作战的概念提出后,各军事强国在协同空战领域均取得了重大进展,协同成为提升作战能力的倍增器。近数十年来,作为解决序列问题的现代智能方法,强化学习在各领域高速发展。然而,面对高维变量问题时,传统的单智能体强化学习往往表现不佳,多智能体强化学习算法为解决复杂多维问题提出新的可能。通过对多智能体强化学习算法原理、训练范式与协同空战的适应性进行分析,提出了协同空战与多智能体强化学习的未来发展方向,为更好地把多智能体强化学习应用于协同空战提供思路。 展开更多
关键词 协同空战 多智能体强化学习 训练范式 集中式训练分布式执行(ctde)
原文传递
引入通信与探索的多智能体强化学习QMIX算法 被引量:7
6
作者 邓晖奕 李勇振 尹奇跃 《计算机应用》 CSCD 北大核心 2023年第1期202-208,共7页
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中... 非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。 展开更多
关键词 多智能体环境 深度强化学习 中心式训练分布式执行架构 好奇心机制 智能体通信
在线阅读 下载PDF
部分可观测条件下的策略迁移强化学习方法
7
作者 王忠禹 徐晓鹏 王东 《现代防御技术》 北大核心 2024年第2期63-71,共9页
针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模... 针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。 展开更多
关键词 多智能体 强化学习 部分观测 策略迁移 集中式训练与分散式执行
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部