期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于MADDPG-R的行人路径规划算法研究
1
作者 许莉 何开晟 +3 位作者 刘海容 向进 杨婷 陈思凡 《智能计算机与应用》 2025年第12期107-112,共6页
随着城市化进程的加速,城市交通堵塞问题日益显著,尤其是在人口密集的城市中心区域,如何实现行人路径的有效规划,是一个亟待解决的问题。将强化学习算法应用于多智能体协同路径规划中,可以解决传统智能体路径规划方法在复杂环境场景下... 随着城市化进程的加速,城市交通堵塞问题日益显著,尤其是在人口密集的城市中心区域,如何实现行人路径的有效规划,是一个亟待解决的问题。将强化学习算法应用于多智能体协同路径规划中,可以解决传统智能体路径规划方法在复杂环境场景下应用的局限性,本文提出了一种基于改进奖励机制下的多智能体确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient with Reward Enhancement,MADDPG-R),在多智能体深度确定性策略梯度算法的基础上,设计一个新的奖励机制,能够有效应对多智能体环境中的复杂情况,保障系统运行的实时性。同时,本文还设计了一个动态的仿真场景,并在二维环境中进行了仿真实验,验证了该算法的有效性。 展开更多
关键词 强化学习 maddpg-r 路径规划 多智能体
在线阅读 下载PDF
基于强化学习的城市场景下巡飞弹自主协同饱和攻击方法 被引量:6
2
作者 张婷婷 杨学军 《指挥与控制学报》 CSCD 2023年第4期457-468,共12页
针对城市场景下巡飞弹自主协同饱和攻击问题,将其建模为分布式部分可观测马尔可夫决策过程(Dec-POMDPs),设计了确保巡飞弹在极小时间间隔内到达的专用奖励函数,并结合使用联合权重参数的奖励函数,采用循环多智能体深度确定性策略梯度算... 针对城市场景下巡飞弹自主协同饱和攻击问题,将其建模为分布式部分可观测马尔可夫决策过程(Dec-POMDPs),设计了确保巡飞弹在极小时间间隔内到达的专用奖励函数,并结合使用联合权重参数的奖励函数,采用循环多智能体深度确定性策略梯度算法(R-MADDPG)训练巡飞弹自主协同饱和攻击策略,使用蒙特卡罗方法分析指标成功率.仿真实验结果表明,在训练后的决策模型引导下,巡飞弹执行自主协同饱和攻击的任务成功率为93.2%,其中,机间避撞率为94.4%、空中突防成功率为99.5%,95.3%回合到达最大时间间隔小于0.4 s. 展开更多
关键词 巡飞弹 饱和攻击 R-MADDPG 算法 自主协同决策 评估指标
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部