基于粒子滤波的直接策略搜索强化学习算法研究

Research on searching reinforcement learning algorithm with direct strategy based on particle filter

下载PDF

导出

摘要直接策略搜索强化学习算法的一个主要问题是只执行局部搜索,趋向于收敛到一些局部次优解,因此不能保证收敛到全局最优。文章提出的是一种直接政策搜索强化学习的全局搜索算法,不会陷入局部最优。实验结果表明了RLPF在策略空间探索的有效性,能够在策略空间直接进行全局搜索。 The main problem of searching reinforcement learning algorithm（RL） with direct strategy is that only local search is performed, which tends to converge to some local suboptimal solutions, so it can not guarantee convergence to the global optimum. This paper presents a global search algorithm （RLPF） searching reinforcement learning with direct policy（RLPF） that does not fall into local optima. Experimental results show the effectiveness of RLPF in policy space exploration, and can make global search directly in policy space.

作者董春利王莉 Dong Chunli Wang Li(Electronic Information Engineering College of Nanjing Communications Institute of Technology, Nanjing 211188, China)

机构地区南京交通职业技术学院电子信息工程学院

出处《江苏科技信息》 2017年第7期71-73,共3页 Jiangsu Science and Technology Information

基金南京交通职业技术学院高层次人才科研基金项目项目编号:No.440105001

关键词强化学习粒子滤波局部搜索全局搜索 reinforcement learning particle filter local search global search

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

1王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
2冯亚丽,刘阳,赵艳玲,佟巍.基于遗传算法的数据库多连接查询优化策略[J].佳木斯大学学报（自然科学版）,2007,25(4):506-508. 被引量：3
3温慧明,宫晓辉,焦洋.基于网格服务的半连接查询优化算法研究[J].计算机技术与发展,2012,22(9):123-126.
4张志坚,刘惟一.一个基于增强学习算法的路由模型[J].计算机科学,2006,33(5):49-51. 被引量：2
5徐锐,康立山,陈毓屏.对策论中最优策略搜索的协同进化演化算法[J].计算机工程与设计,2004,25(11):1966-1968.
6崔军晓,朱蒙婷,王海燕,章鹏,王辉.基于强化学习的值迭代算法[J].电脑知识与技术,2014,0(11):7348-7350.
7唐蕾,杨志义,王瀚博,王云岚.基于经济模型的网格资源调度算法[J].华中科技大学学报（自然科学版）,2006,34(z1):41-44. 被引量：1
8何波,刘全利,王越,王华秋.故障诊断自适应策略研究[J].微计算机信息,2006,22(10S):235-237. 被引量：3
9蒋瑜.基于集合枚举树的最小属性约简算法[J].计算机工程与应用,2013,49(11):101-104. 被引量：2
10陈冬松,潘成胜,俞承志,王光兴.一种基于策略的配置管理思想[J].火力与指挥控制,2003,28(5):74-76. 被引量：3

江苏科技信息

2017年第7期

浏览历史

内容加载中请稍等...

基于粒子滤波的直接策略搜索强化学习算法研究

相关作者

相关机构

相关主题

浏览历史