自主移动机器人(autonomous mobile robot,AMR)路径规划是货物搬运、仓储物流等领域的一项关键技术。当工厂内的工作环境发生变化时,AMR单纯使用强化学习算法重新学习最优路径的速度慢。针对此问题,在Q学习算法的基础上提出了一种策略...自主移动机器人(autonomous mobile robot,AMR)路径规划是货物搬运、仓储物流等领域的一项关键技术。当工厂内的工作环境发生变化时,AMR单纯使用强化学习算法重新学习最优路径的速度慢。针对此问题,在Q学习算法的基础上提出了一种策略迁移强化学习算法。该算法使用源任务保存的相邻状态转移和目标任务保存的相邻状态转移计算相似度。根据相似度的大小和权重选择性地迁移源任务的策略,并以一定概率进行随机探索和使用目标任务新学习的策略。所提算法的有效性在AMR合作搬运任务中得到了验证。与其他方法相比,该算法的启动能力更强,收敛速度更快。展开更多
针对情景记忆算法中记忆池中的样本利用率低的问题,提出了一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习算法,即情景记忆值分解(episodic memory value decomposition,EMVD)算法。EMVD算法在情景记忆部分以时间差分...针对情景记忆算法中记忆池中的样本利用率低的问题,提出了一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习算法,即情景记忆值分解(episodic memory value decomposition,EMVD)算法。EMVD算法在情景记忆部分以时间差分误差平方为依据来更新记忆池,使记忆池中一直保留对学习效果提升更重要的情景记忆样本,并将情景记忆算法与神经网络相结合,提高了算法的收敛速度。为了将EMVD算法应用于机器人协作运输任务中,设定机器人和运输目标的位置为状态,并且设计了回报函数。仿真结果表明,EMVD算法可以探索出机器人协作运输任务的最优策略,提高了算法的收敛速度。展开更多
文摘自主移动机器人(autonomous mobile robot,AMR)路径规划是货物搬运、仓储物流等领域的一项关键技术。当工厂内的工作环境发生变化时,AMR单纯使用强化学习算法重新学习最优路径的速度慢。针对此问题,在Q学习算法的基础上提出了一种策略迁移强化学习算法。该算法使用源任务保存的相邻状态转移和目标任务保存的相邻状态转移计算相似度。根据相似度的大小和权重选择性地迁移源任务的策略,并以一定概率进行随机探索和使用目标任务新学习的策略。所提算法的有效性在AMR合作搬运任务中得到了验证。与其他方法相比,该算法的启动能力更强,收敛速度更快。
文摘针对情景记忆算法中记忆池中的样本利用率低的问题,提出了一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习算法,即情景记忆值分解(episodic memory value decomposition,EMVD)算法。EMVD算法在情景记忆部分以时间差分误差平方为依据来更新记忆池,使记忆池中一直保留对学习效果提升更重要的情景记忆样本,并将情景记忆算法与神经网络相结合,提高了算法的收敛速度。为了将EMVD算法应用于机器人协作运输任务中,设定机器人和运输目标的位置为状态,并且设计了回报函数。仿真结果表明,EMVD算法可以探索出机器人协作运输任务的最优策略,提高了算法的收敛速度。