期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于深度多智能体强化学习的机床混流装配线调度优化
1
作者 姜兴宇 陈嘉淇 +1 位作者 王立权 徐伟宏 《工业工程》 2025年第4期15-23,共9页
为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应... 为保证机床混流装配车间生产的机床准时交付,提出一种基于改进的深度多智能体强化学习的机床混流装配线调度优化方法,以解决最小延迟生产调度优化模型求解质量低、训练速度缓慢问题,构建以最小延迟时间目标的混流装配线调度优化模型,应用去中心化分散执行的双重深度Q网络(double deep Q network,DDQN)的智能体来学习生产信息与调度目标的关系。该框架采用集中训练与分散执行的策略,并使用参数共享技术,能处理多智能体强化学习中的非稳态问题。在此基础上,采用递归神经网络来管理可变长度的状态和行动表示,使智能体具有处理任意规模问题的能力。同时引入全局/局部奖励函数,以解决训练过程中的奖励稀疏问题。通过消融实验,确定了最优的参数组合。数值实验结果表明,与标准测试方案相比,本算法在目标达成度方面,平均总延迟工件数较改善前提升了24.1%~32.3%,训练速度提高了8.3%。 展开更多
关键词 机床混流装配线 深度多智能体强化学习 递归神经网络 全局/局部奖励函数
在线阅读 下载PDF
结合局部奖励机制的视频摘要技术研究 被引量:3
2
作者 梅锋 周娟平 陆璐 《计算机工程与应用》 CSCD 北大核心 2021年第11期211-218,共8页
技术的目的是在缩短视频长度的同时,概括视频的主要内容,这样可以极大地节省人们浏览视频的时间。视频摘要技术的一个关键步骤是评估生成摘要的性能,现有的大多数方法是基于整个视频进行评估。然而,基于整个视频序列进行评估的计算成本... 技术的目的是在缩短视频长度的同时,概括视频的主要内容,这样可以极大地节省人们浏览视频的时间。视频摘要技术的一个关键步骤是评估生成摘要的性能,现有的大多数方法是基于整个视频进行评估。然而,基于整个视频序列进行评估的计算成本很高,特别是对于长视频。而且在整个视频上评估生成摘要往往忽略了视频数据固有的时序关系,导致生成摘要缺乏故事情节的逻辑性。因此,提出了一个关注局部信息的视频摘要网络,称为自注意力和局部奖励视频摘要网络(ALRSN)。确切地说,该模型采用自注意力机制预测视频帧的重要性分数,然后通过重要性分数生成视频摘要。为了评估生成摘要的性能,进一步设计了一个局部奖励函数,同时考虑了视频摘要的局部多样性和局部代表性。该函数将生成摘要映射回原视频,并在局部范围内评估摘要的性能,使其具有原视频的时序结构。通过在局部范围内获得更高的奖励分数,使模型生成更多样化、更具代表性的视频摘要。综合实验表明,在两个基准数据集SumMe和TvSum上,ALRSN模型优于现有方法。 展开更多
关键词 计算机视觉 视频摘要 注意力机制 局部奖励函数
在线阅读 下载PDF
基于Soft-Actor-Critic算法的机器人局部路径规划算法 被引量:6
3
作者 胡琴 赵一亭 +1 位作者 夏方平 张鹏 《武汉理工大学学报》 CAS 2021年第9期79-84,共6页
近年来移动机器人应用逐渐广泛,以定位、路径规划等导航技术成为移动机器人研究的热点问题,随着移动机器人执行任务的环境复杂度逐渐增加,移动机器人通过与环境交互实时学习进行路径规划,成为新的研究趋势。作者提出了一种局部路径规划... 近年来移动机器人应用逐渐广泛,以定位、路径规划等导航技术成为移动机器人研究的热点问题,随着移动机器人执行任务的环境复杂度逐渐增加,移动机器人通过与环境交互实时学习进行路径规划,成为新的研究趋势。作者提出了一种局部路径规划算法,以Soft-Actor-Critic(SAC)算法为框架,以实现机器人通过激光雷达获取的地图信息进行局部路径规划。首先,针对规划问题设计连续的状态-动作变量,并设计了一种连续的奖励函数,使得移动机器人每采取一个动作都可以获得相应的奖励,提高了训练效率,最后建立仿真环境,对智能体进行训练学习,结果验证了算法的有效性。 展开更多
关键词 移动机器人 深度强化学习 局部路径规划 连续奖励函数
原文传递
Distributed reinforcement learning to coordinate current sharing and voltage restoration for islanded DC microgrid 被引量:9
4
作者 Zifa LIU Ya LUO +1 位作者 Ranqun ZHUO Xianlin JIN 《Journal of Modern Power Systems and Clean Energy》 SCIE EI 2018年第2期364-374,共11页
A novel distributed reinforcement learning(DRL)strategy is proposed in this study to coordinate current sharing and voltage restoration in an islanded DC microgrid.Firstly, a reward function considering both equal pro... A novel distributed reinforcement learning(DRL)strategy is proposed in this study to coordinate current sharing and voltage restoration in an islanded DC microgrid.Firstly, a reward function considering both equal proportional current sharing and cooperative voltage restoration is defined for each local agent. The global reward of the whole DC microgrid which is the sum of the local rewards is regarged as the optimization objective for DRL. Secondly,by using the distributed consensus method, the predefined pinning consensus value that will maximize the global reward is obtained. An adaptive updating method is proposed to ensure stability of the above pinning consensus method under uncertain communication. Finally, the proposed DRL is implemented along with the synchronization seeking process of the pinning reward, to maximize the global reward and achieve an optimal solution for a DC microgrid. Simulation studies with a typical DC microgrid demonstrate that the proposed DRL is computationally efficient and able toprovide an optimal solution even when the communication topology changes. 展开更多
关键词 DISTRIBUTED REINFORCEMENT learning(DRL) DISTRIBUTED information discovery DC MICROGRID local reward function
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部