-
题名一种优先级扫描的Dyna结构优化算法
被引量:2
- 1
-
-
作者
孙洪坤
刘全
傅启明
肖飞
高龙
-
机构
苏州大学计算机科学与技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第10期2176-2184,共9页
-
基金
国家自然科学基金项目(61070223
61103045
+5 种基金
61272005
61272244)
江苏省自然科学基金项目(BK2012616)
江苏省高校自然科学研究项目(09KJA520002
09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172012K04)
-
文摘
不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性.
-
关键词
强化学习
时序决策
优先级扫描
Dyna结构
Dyna—PS
-
Keywords
reinforcement learning
sequential decision making
prioritized sweeping
Dyna architecture
dyna-ps
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-