MAXQ方法在出租车问题中的应用

Application of MAXQ Method in Taxi Problem

下载PDF

导出

摘要分层强化学习方法可用于解决维数灾难问题,MAXQ方法通过分层地分解值函效,将任务分解为不同层次上的子任务,从而只需在低维空间中解决问题。针对MAXQ方法。首先介绍其基本原理,然后介绍MAXQ方法在出租车问题中的应用,包括任务分解以及类的设计,最后用实验验证了MAXQ方法比Q-学习算法收敛快。 Hierarchical reinforcement learning can be used to solve curse of dimensionality problem. MAXQ method decomposes the task into gubtasks in different levels through decomposing value function hierarchically, so it can be realized in low dimension space. Aiming at the method MAXQ, we firstly introduce the basal principle. Then we introduce the application of the MAXQ method in the taxi problem, including the task decomposition and the class design. Finally,as is testified in practice,MAXQ method converges more faster than Q - learning algorithm.

作者安岭丽彭志平李铁鹰

机构地区茂名学院计算机与电子信息学院太原理工大学信息工程学院

出处《茂名学院学报》 2007年第1期56-59,共4页 Journal of Maoming College

关键词分层强化学习 MAXQ 任务分解 hierarchical reinforcement learning MAXQ task decomposition

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1Tom M Mitchell.曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
2高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：295
3Richard S S,Doina P,Satinder S.Between MDPs and Semi-MDPs:A framework for temporal abstraction in reinforcement learning[J].Artificial Intelligence,1999,112:181-211.
4Ronald P,Stuart R.Reinforcement Learning with Hierarchies of Machines.Advances in Neural Information Processing Systems[EB/OL].(1997)[2006-10].http://citeseer.ist.psu.edu/parr97reinforeement.html.
5Thomas G D.Hierarchical reinforcement learning with the MAXQ value function decomposition[J].Journal of Artificial Intelligence Research,2000,13:227-303.
6Mare P,Andrew G B.PolicyBlocks:An Algorithm for Greating Useful Macro-Actions in Reinforcement Learning[EB/OL].(2002)[2006-10].http://citeseer.ist.psu.edu/pickett02policyblocks.html.

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献314

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：11
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8李国伟,周颜,李钜.ID3算法在硕士研究生报名中的应用[J].中原工学院学报,2005,16(3):37-39. 被引量：2
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

1庞士焕,朱相冰,张琦,汤萍萍.基于MAXQ方法的分层强化学习[J].计算机技术与发展,2009,19(4):154-156. 被引量：1
2沈晶,顾国昌,刘海波.一种新的分层强化学习方法[J].计算机应用,2006,26(8):1938-1939. 被引量：1
3沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
4王凤英,崔国玮,邸建红,颉新春.计数器的VHDL设计与实现[J].现代电子技术,2007,30(9):114-116. 被引量：7
5Maxim扩充MAXQ混和信号微控制器产品线[J].电子质量,2010(12):62-62.
6具有业界最高MIPS／mA性能的16位RISC微控制器[J].电子产品世界,2004,11(12A):148-148.
7石川,史忠植,王茂光.基于路径匹配的在线分层强化学习方法[J].计算机研究与发展,2008,45(9):1470-1476. 被引量：4
8沈晶,顾国昌,刘海波.分层强化学习中的Option自动生成算法[J].计算机工程与应用,2005,41(34):4-6. 被引量：5
9陈荣亚,陈小平.多智能体分层协作规划及在RoboCup中的应用[J].计算机系统应用,2016,25(1):17-23. 被引量：3
10程晓北,沈晶,刘海波,顾国昌,张国印.分层强化学习研究进展[J].计算机工程与应用,2008,44(13):1-5. 被引量：1

茂名学院学报

2007年第1期

浏览历史

内容加载中请稍等...

MAXQ方法在出租车问题中的应用

参考文献6

二级参考文献4

共引文献314

相关作者

相关机构

相关主题

浏览历史