本文提出了一种结合Voronoi图和深度强化学习的机器人路径规划方法.在全局规划方面,通过Voronoi图构建“安全区域”,利用A*算法和关键路径点提取算法优化路径点,为局部规划提供目标.局部规划采用融合阶段关键点与均衡回放策略的RainbowD...本文提出了一种结合Voronoi图和深度强化学习的机器人路径规划方法.在全局规划方面,通过Voronoi图构建“安全区域”,利用A*算法和关键路径点提取算法优化路径点,为局部规划提供目标.局部规划采用融合阶段关键点与均衡回放策略的RainbowDQN(stage-key&weight-balanced replay Rainbow deep Q-network,SW-RDQN)算法,通过3项关键设计提升复杂动态环境下的导航适应性:首先,采用多阶段路径分割策略对全局路径进行划分与剪枝,提取并保留关键路径点信息;其次,结合轨迹落点预测与环境势场设计奖励函数,引导智能体学习更安全有效的避障行为;最后,采用基于奖励与TD误差动态加权的优先经验回放,通过偏移与对数归一化提升关键经验采样概率,从而提高训练效率.状态输入融合了卷积和多层感知机提取信息,取若干场景帧送入长短期记忆网络模型,最后由稠密层做出决策,提升了机器人对动态环境的感知和响应能力.该方法有效提升了机器人在动态环境中的路径规划精度与鲁棒性.展开更多
文摘本文提出了一种结合Voronoi图和深度强化学习的机器人路径规划方法.在全局规划方面,通过Voronoi图构建“安全区域”,利用A*算法和关键路径点提取算法优化路径点,为局部规划提供目标.局部规划采用融合阶段关键点与均衡回放策略的RainbowDQN(stage-key&weight-balanced replay Rainbow deep Q-network,SW-RDQN)算法,通过3项关键设计提升复杂动态环境下的导航适应性:首先,采用多阶段路径分割策略对全局路径进行划分与剪枝,提取并保留关键路径点信息;其次,结合轨迹落点预测与环境势场设计奖励函数,引导智能体学习更安全有效的避障行为;最后,采用基于奖励与TD误差动态加权的优先经验回放,通过偏移与对数归一化提升关键经验采样概率,从而提高训练效率.状态输入融合了卷积和多层感知机提取信息,取若干场景帧送入长短期记忆网络模型,最后由稠密层做出决策,提升了机器人对动态环境的感知和响应能力.该方法有效提升了机器人在动态环境中的路径规划精度与鲁棒性.