一种大规模离散空间中的高斯强化学习方法被引量：1

Gaussian Processes Reinforcement Learning Method in Large Discrete States Space

下载PDF

导出

摘要针对大规模离散空间中强化学习的"维数灾"问题,即状态空间的大小随着特征的增加而发生指数级的增长,提出了一种基于高斯过程的强化学习方法。在本方法中,高斯过程模型有表示函数分布的能力,使用该模型之后,可以得到的不只是一个所需的估计值,而是关于该值的一个分布。实验结果表明,结合了高斯过程的强化学习方法在各方面性能,如收敛速度以及最终实验效果等都有所提高。使用高斯方法的回归模型可以在一定程度上解决大规模离散空间上的"维数灾"问题。 In order to solve the problem of ＂curse of dimensionality＂,which means that the states space will grow exponentially in the number of features, in large discrete states space in reinforcement learning, a reinforcement learning method based on Gaussian processes was proposed. The Gaussian processes model can represent the distribution of functions, and it can be used to get a distribution of the expectation instead of its value. The experiment result shows that the performance such as speed of convergence and final effect can be improved obviously with the reinforcement learning method combined Gaussian processes. The ＂curse of dimensionality＂ in large discrete states space could be solved to a certain extent with the Gaussian processes regression model.

作者周文云刘全李志涛

机构地区苏州大学计算机科学与技术学院南京大学软件新技术国家重点实验室

出处《计算机科学》 CSCD 北大核心 2009年第8期247-249,275,共4页 Computer Science

基金国家自然科学基金项目(60673092 60775046 60873116) 教育部科学技术研究重点项目(207040) 中国博士后科研基金(20060390919) 江苏省高校自然科学基金(06KJB520104)资助

关键词强化学习维数灾高斯过程回归函数分布 Reinforcement learning,Curse of dimensionality,Gaussian processes,Regression,Distribution of functions

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1Sutton R S, Barto A G. Reinforcement Learning: an Introduction [M]. Cambridge: The MIT Press, 1998.
2Driessens K. Relational Reinforcement Learning [D]. Leuven, Belgium:Department of Computer Science, K. U. Leuven, May 2004.
3Rasmussen C E , Kuss M. Gaussian processes in reinforcement learning[C]// Advances in Neural Information Processing Systems. vol16,MIT Press.
4Driessens K, Ramon J, Gartner T. Graph kernels and Gaussian processes for relational reinforcement leaming[J]. Mach Learn, 2006,64 : 91-119.
5Dzeroski S, Raedt L D, Blockeel H. Relational Reinforcement Leaming[C]//Shavlik J, eds. Proceedings ICML' 98. Berlin: Morgan Kaufmann, 2003 : 136-143.
6Kaelbling L P, Littman M L, Moore A W. Reinforcement Learning: A Survey [J]. Journal of Artifical Intelligence Research 1996,4:237-285.
7Gartner T, Driessens K, Ramon J. Graph kernels and Gaussian processes for relational reinforcement learning[C]//Proceeding of the International Conference on Inductive Logic Programming (ILP'03). 2003.
8Mackay D. Introduction to Gaussian processes [OL]. http :// wol. ra. phy. cam. ac. uk/mackay.
9Chu Wei, Ghahramani Z. Gaussian Processes for Ordinal Regression[J]. Journal of Machine Learning Research, 2005,6 : 1019-1041.
10Liu Quan, Gao Yang, Chen Daoxu, et al. A Heuristic Contour Prolog List Method Used in Logical Reinforcement Learning [J]. Journal of Information & Computational Science, 2008, 5 (5) :2001-2007.

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献299

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：11
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献4

1王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
2陈圣磊,吴慧中,韩祥兰,肖亮.一种多步Q强化学习方法[J].计算机科学,2006,33(3):147-150. 被引量：3
3王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
4徐昕,贺汉根.神经网络增强学习的梯度算法研究[J].计算机学报,2003,26(2):227-233. 被引量：22

引证文献1

1陈圣磊,谷瑞军,陈耿,薛晖.基于TD(λ)的自然梯度强化学习算法[J].计算机科学,2010,37(12):186-189. 被引量：2

二级引证文献2

1杨月全,韩飞,金露,倪春波,曹志强,张天平.基于局部加权k近邻的多机器人系统异步互增强学习[J].东南大学学报（自然科学版）,2012,42(A01):208-211. 被引量：2
2邱虹坤,王浩宇,王亚杰.Q学习实现亚马逊棋评估函数自调参[J].重庆理工大学学报（自然科学）,2022,36(12):136-141. 被引量：1

1杨宇明.基于Matlab的概率论仿真实验[J].中国科技信息,2011(22):61-61.
2焦迎雪.改进的IMMPF算法在目标跟踪中的应用研究[J].电子技术与软件工程,2016(8):177-177.
3肖红军,刘乙奇,黄道平.高斯过程建模方法在工业过程中的应用[J].华南理工大学学报（自然科学版）,2016,44(12):36-43. 被引量：5
4顾建伟.基于图像片的模糊C均值聚类图像分割[J].电脑与电信,2011(5):59-63.
5滕奇志,唐棠,李征骥,何小海.基于粒子群优化的岩石薄片三维图像重建[J].电子与信息学报,2011,33(8):1871-1876. 被引量：6
6孙建一.从汉字频度统计看其分布规律[J].语文建设,1986(3):34-35. 被引量：1
7于冰洁,夏战国,王久龙.基于高斯过程模型的异常检测算法[J].计算机工程与设计,2016,37(4):914-920. 被引量：16
8贺建军,张俊星,贾思齐,刘文鹏,许爽,崔艳秋.一种新高斯过程分类算法[J].控制与决策,2014,29(9):1587-1592. 被引量：9
9赵海,于冲,司帅宗,彭海霞.VANET运动模型解析解与数值解的比照分析[J].东北大学学报（自然科学版）,2016,37(8):1084-1088.
10姚伏天,钱沄涛,李吉明.空间约束半监督高斯过程下的高光谱图像分类[J].浙江大学学报（工学版）,2012,46(7):1295-1300. 被引量：2

计算机科学

2009年第8期

浏览历史

内容加载中请稍等...

一种大规模离散空间中的高斯强化学习方法被引量：1

参考文献12

二级参考文献4

共引文献299

同被引文献4

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种大规模离散空间中的高斯强化学习方法 被引量：1

参考文献12

二级参考文献4

共引文献299

同被引文献4

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种大规模离散空间中的高斯强化学习方法被引量：1