期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
求解DEC-POMDP问题的改进遗传算法
1
作者 周浩浩 邓苏 黄宏斌 《电子设计工程》 2011年第18期39-42,共4页
分布式部分可观测马尔科夫模型(Decentralized partially observable Markov decision progress,DEC-POMDP)是研究不确定性情况下多主体协同决策的重要模型。由于其求解难度是NEXP-complete,所以迄今为止尚没有有效的算法能求出其最优... 分布式部分可观测马尔科夫模型(Decentralized partially observable Markov decision progress,DEC-POMDP)是研究不确定性情况下多主体协同决策的重要模型。由于其求解难度是NEXP-complete,所以迄今为止尚没有有效的算法能求出其最优解。但是存在一部分近似求解的算法可以解决规模较小的问题。针对此问题,在遗传算法的基础上,通过引入最佳起始状态和最佳收益状态提出改进的遗传算法(Improved Genetic Algorithms,IGA),算法将问题的求解分为两个步骤,首先求解从给定起始状态到最佳起始状态的近似最优策略,然后求解在最佳收益状态之间转换的策略。通过实验可以看出IGA压缩了要搜索的策略空间,减小了编码长度,是求解DEC-POMDP的有效算法。 展开更多
关键词 DEC—POMDP 不确定性 遗传算法
在线阅读 下载PDF
命名数据网络中基于Dec-POMDP的缓存策略
2
作者 姚进发 《信息技术与网络安全》 2020年第9期61-67,73,共8页
针对命名数据网络(Named Data Networks,NDN)中数据缓存的问题,提出了一种基于分布式部分可观测马尔科夫决策过程(Dec-POMDP)的缓存优化模型。在该模型框架下,NDN网络节点间以分布式协作的方式逐渐收敛至最优联合缓存策略,从而使NDN中... 针对命名数据网络(Named Data Networks,NDN)中数据缓存的问题,提出了一种基于分布式部分可观测马尔科夫决策过程(Dec-POMDP)的缓存优化模型。在该模型框架下,NDN网络节点间以分布式协作的方式逐渐收敛至最优联合缓存策略,从而使NDN中的有限缓存资源得到充分利用。仿真实验表明,与现有NDN缓存方法相比,该方法能有效提升NDN网络的缓存效率,实现较高的缓存命中率及较小的请求平均跳数。 展开更多
关键词 命名数据网络 分布式部分可观测马尔科夫决策过程 缓存策略
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法 被引量:1
3
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(dec-pomdp) 多智能体深度确定性策略梯度算法(MADDPG) 无人机集群
在线阅读 下载PDF
强化学习的地–空异构多智能体协作覆盖研究 被引量:7
4
作者 张文旭 马磊 +1 位作者 贺荟霖 王晓东 《智能系统学报》 CSCD 北大核心 2018年第2期202-207,共6页
以无人机(unmanned aerial vehicle,UAV)和无人车(unmanned ground vehicle,UGV)的异构协作任务为背景,通过UAV和UGV的异构特性互补,为了扩展和改进异构多智能体的动态覆盖问题,提出了一种地–空异构多智能体协作覆盖模型。在覆盖过程中... 以无人机(unmanned aerial vehicle,UAV)和无人车(unmanned ground vehicle,UGV)的异构协作任务为背景,通过UAV和UGV的异构特性互补,为了扩展和改进异构多智能体的动态覆盖问题,提出了一种地–空异构多智能体协作覆盖模型。在覆盖过程中,UAV可以利用速度与观测范围的优势对UGV的行动进行指导;同时考虑智能体的局部观测性与不确定性,以分布式局部可观测马尔可夫(decentralized partially observable Markov decision processes,DEC-POMDPs)为模型搭建覆盖场景,并利用多智能体强化学习算法完成对环境的覆盖。仿真实验表明,UAV与UGV间的协作加快了团队对环境的覆盖速度,同时强化学习算法也提高了覆盖模型的有效性。 展开更多
关键词 异构多智能体 覆盖问题 地–空 UAV/UGV dec-pomdps 强化学习
在线阅读 下载PDF
Distributed cooperative task planning algorithm for multiple satellites in delayed communication environment 被引量:2
5
作者 Chong Wang Jinhui Tang +2 位作者 Xiaohang Cheng Yingchen Liu Changchun Wang 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2016年第3期619-633,共15页
Multiple earth observing satellites need to communicate with each other to observe plenty of targets on the Earth together. The factors, such as external interference, result in satellite information interaction delay... Multiple earth observing satellites need to communicate with each other to observe plenty of targets on the Earth together. The factors, such as external interference, result in satellite information interaction delays, which is unable to ensure the integrity and timeliness of the information on decision making for satellites. And the optimization of the planning result is affected. Therefore, the effect of communication delay is considered during the multi-satel ite coordinating process. For this problem, firstly, a distributed cooperative optimization problem for multiple satellites in the delayed communication environment is formulized. Secondly, based on both the analysis of the temporal sequence of tasks in a single satellite and the dynamically decoupled characteristics of the multi-satellite system, the environment information of multi-satellite distributed cooperative optimization is constructed on the basis of the directed acyclic graph(DAG). Then, both a cooperative optimization decision making framework and a model are built according to the decentralized partial observable Markov decision process(DEC-POMDP). After that, a satellite coordinating strategy aimed at different conditions of communication delay is mainly analyzed, and a unified processing strategy on communication delay is designed. An approximate cooperative optimization algorithm based on simulated annealing is proposed. Finally, the effectiveness and robustness of the method presented in this paper are verified via the simulation. 展开更多
关键词 Earth observing satellite(EOS) distributed coo-perative task planning delayed communication decentralized partial observable Markov decision process(dec-pomdp simulated annealing
在线阅读 下载PDF
主动配电网下多微电网间功率协调优化 被引量:10
6
作者 熊雄 井天军 +1 位作者 孙可 王坤 《电力自动化设备》 EI CSCD 北大核心 2018年第6期15-21,共7页
配电网中高渗透率分布式电源以多个微电网的形式集群接入,实现配电网对分布式电源的主动控制与管理,是智能电网中主动配电网的发展趋势。以多微电网间功率协调优化为研究对象,提出了一种基于部分可观测马尔科夫决策过程(DEC-POMDP)的协... 配电网中高渗透率分布式电源以多个微电网的形式集群接入,实现配电网对分布式电源的主动控制与管理,是智能电网中主动配电网的发展趋势。以多微电网间功率协调优化为研究对象,提出了一种基于部分可观测马尔科夫决策过程(DEC-POMDP)的协调优化模型,采用拉格朗日-对偶原理将原目标函数分层为max-min的形式,并通过拉格朗日乘子对其进行解耦以降低求解难度;为了提高算法的精度及性能,采用了一种基于Bloch球面坐标编码的量子遗传算法。算例计算结果验证了所提方法的正确性与有效性。 展开更多
关键词 主动配电网 多微电网 功率协调优化 部分可观测马尔科夫决策过程 拉格朗日-对偶原理 量子遗传算法
在线阅读 下载PDF
基于DRL的能源调度动态优化策略
7
作者 段震清 陈然 《软件和集成电路》 2026年第1期2-5,共4页
深度强化学习,特别是建立在Dec-POMDP模型基础上的多智能体强化学习,为解决分布式、部分可观环境下的能源协同调度问题提供了全新的、数据驱动的解决方案。随着能源系统向智能化、去中心化和可再生能源高比例接入方向演进,其运行环境日... 深度强化学习,特别是建立在Dec-POMDP模型基础上的多智能体强化学习,为解决分布式、部分可观环境下的能源协同调度问题提供了全新的、数据驱动的解决方案。随着能源系统向智能化、去中心化和可再生能源高比例接入方向演进,其运行环境日益复杂,传统的能源系统优化调度方法在动态变化和不确定性面前显现出局限性。近年来,凭借卓越的感知与决策能力,深度强化学习(DRL)为应对这一挑战提供了全新范式。 展开更多
关键词 动态优化 多智能体强化学习 能源调度 dec-pomdp模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部