期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于加权密集连接卷积网络的深度强化学习方法 被引量:9
1
作者 夏旻 宋稳柱 +1 位作者 施必成 刘佳 《计算机应用》 CSCD 北大核心 2018年第8期2141-2147,共7页
针对深度强化学习中卷积神经网络(CNN)层数过深导致的梯度消失问题,提出一种将密集连接卷积网络应用于强化学习的方法。首先,利用密集连接卷积网络中的跨层连接结构进行图像特征的有效提取;然后,在密集连接卷积网络中加入权重系数,加权... 针对深度强化学习中卷积神经网络(CNN)层数过深导致的梯度消失问题,提出一种将密集连接卷积网络应用于强化学习的方法。首先,利用密集连接卷积网络中的跨层连接结构进行图像特征的有效提取;然后,在密集连接卷积网络中加入权重系数,加权密集连接卷积网络中的每一层都接收到前面几层产生的所有特征图,且之前所有层在跨层连接中被赋予不同的初始权重;最后,在训练中动态调整每层的权重,从而更加有效地提取特征。与常规深度强化学习方法相比,在GridWorld仿真实验中,在相同训练步数内的平均奖励值提升了85.67%;在FlappyBird仿真中,平均奖励值提升了55.05%。实验结果表明所提方法能在不同难度的游戏仿真实验中获得更好的性能。 展开更多
关键词 密集连接卷积网络 深度强化学习 gridworld FlappyBird 跨层连接
在线阅读 下载PDF
基于强化学习的值迭代算法
2
作者 崔军晓 朱蒙婷 +2 位作者 王海燕 章鹏 王辉 《电脑知识与技术》 2014年第11期7348-7350,共3页
强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境... 强化学习(Reinforcement Learning)是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化:值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。 展开更多
关键词 强化学习 值迭代 格子世界
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部