随着城市化进程的加速,城市交通堵塞问题日益显著,尤其是在人口密集的城市中心区域,如何实现行人路径的有效规划,是一个亟待解决的问题。将强化学习算法应用于多智能体协同路径规划中,可以解决传统智能体路径规划方法在复杂环境场景下...随着城市化进程的加速,城市交通堵塞问题日益显著,尤其是在人口密集的城市中心区域,如何实现行人路径的有效规划,是一个亟待解决的问题。将强化学习算法应用于多智能体协同路径规划中,可以解决传统智能体路径规划方法在复杂环境场景下应用的局限性,本文提出了一种基于改进奖励机制下的多智能体确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient with Reward Enhancement,MADDPG-R),在多智能体深度确定性策略梯度算法的基础上,设计一个新的奖励机制,能够有效应对多智能体环境中的复杂情况,保障系统运行的实时性。同时,本文还设计了一个动态的仿真场景,并在二维环境中进行了仿真实验,验证了该算法的有效性。展开更多
文摘随着城市化进程的加速,城市交通堵塞问题日益显著,尤其是在人口密集的城市中心区域,如何实现行人路径的有效规划,是一个亟待解决的问题。将强化学习算法应用于多智能体协同路径规划中,可以解决传统智能体路径规划方法在复杂环境场景下应用的局限性,本文提出了一种基于改进奖励机制下的多智能体确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient with Reward Enhancement,MADDPG-R),在多智能体深度确定性策略梯度算法的基础上,设计一个新的奖励机制,能够有效应对多智能体环境中的复杂情况,保障系统运行的实时性。同时,本文还设计了一个动态的仿真场景,并在二维环境中进行了仿真实验,验证了该算法的有效性。
文摘针对城市场景下巡飞弹自主协同饱和攻击问题,将其建模为分布式部分可观测马尔可夫决策过程(Dec-POMDPs),设计了确保巡飞弹在极小时间间隔内到达的专用奖励函数,并结合使用联合权重参数的奖励函数,采用循环多智能体深度确定性策略梯度算法(R-MADDPG)训练巡飞弹自主协同饱和攻击策略,使用蒙特卡罗方法分析指标成功率.仿真实验结果表明,在训练后的决策模型引导下,巡飞弹执行自主协同饱和攻击的任务成功率为93.2%,其中,机间避撞率为94.4%、空中突防成功率为99.5%,95.3%回合到达最大时间间隔小于0.4 s.