期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种优先级扫描的Dyna结构优化算法 被引量:2
1
作者 孙洪坤 刘全 +2 位作者 傅启明 肖飞 高龙 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2176-2184,共9页
不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步... 不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性. 展开更多
关键词 强化学习 时序决策 优先级扫描 Dyna结构 Dyna—PS
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部