一种在线自适应控制马氏链的强化学习算法被引量：3

An on-line Adaptive Control Markov Chains by Using Reinforcement Learning

导出

摘要讨论平均准则控制马氏链的强化学习算法.目的是寻找使得长期每阶段期望平均报酬最大的最优控制策略.由于事先未知状态转移矩阵及报酬向量,故必需使用自适应控制方法.通过引入称之为行动器和评判器的神经网络构造,使得学习单元在不断学习中,最终能发现最优策略.行动器的参数在学习中不断被修正,每一时刻的参数的值均对应着一个随机控制策略. An average reward reinforcement learning algorithm for control Markov chains is presented.The objective is to find an optimal policy which maximizes the expected average reward per time step over infinite horizon.The transition matrices and payoff structures are not known a priori;so adaptive control methods are necessary.A neural networks structure,called actor and critic,is provided for the agent.The parameters of the actor,which determine a stochastic control strategy,are updated at each time step using a simple learning scheme.The adaptive critic is used to estimate these parameters for finding the optimal policy.

作者胡光华胡光涛

机构地区云南大学数学系云南大学统计系

出处《云南大学学报（自然科学版）》 CAS CSCD 2000年第1期9-12,共4页 Journal of Yunnan University(Natural Sciences Edition)

关键词强化学习自适应评判马氏链控制问题 reinforcement learning Markov decision processes average reward adaptive critic R learning

分类号 TP273.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1Christopher J.C.H. Watkins,Peter Dayan. Technical Note: Q-Learning[J] 1992,Machine Learning(3-4):279～292

同被引文献17

1侯忠生.非参数模型及其自适应控制理论[M].北京:科学出版社,1998..
2陈年春(主编).农药生物测定技术.北京:农业大学出版社,1990.123～124.
3慕立义(主编).植物化学保护试验方法.北京:中国农业出版社,1991.208～223.
4DurbinR EddyS KroghA MitchisonG.生物序列分析,蛋白质和核酸的概率论模型[M].北京:清华大学出版社,2002..
5NARENDRA K S, PARTHASARATHY K. Identification and control for dynamic systems using neural networks[J]. IEEE Trans, Neural Networks, 1990, 1 (1): 4-27.
6TAN K K, LEE T H, HUANG S N, et al. Adaptive predictive control of a class of SISO nonlinear systems[J]. Dynamics and Control, 2001, 11(2): 151-174.
7TAN K K. Adaptive predictive PI control of a class of SISO systems[C]. Proc of ACC, San Diego, California, 1999:3 848-3 852.
8NARENDRA K S, PARTHASARATHY K. Gradient methods for the optimization of dynamical systems containing neural networks[J]. IEEE Trans, Neural Networks, 1991, 2(2) :252-262.
9LI Xia-lin,PARIZEAU M,PLAMONDON R.Training hidden Markov models with multiple observation-a combinatorial method[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2000,22(4):371-377.
10MARI J F,HATON J P,KRIOUILE A.Automatic word recognition based on second-order hidden Markov models[J].IEEE Transactions on speech and Audio Processing,1997,5 (1):22-25.

引证文献3

1朱娟萍,侯忠生,陆正福,熊丹.应用神经网络的非参数模型自适应控制[J].云南大学学报（自然科学版）,2005,27(4):280-284. 被引量：1
2冯岗,张静,李广泽,冯俊涛,何军,张兴.EXCEL在农药田间药效试验统计分析中的应用[J].昆虫知识,2006,43(1):126-129. 被引量：21
3杜世平.混合二阶隐马尔可夫模型的Baum-Welch算法[J].云南大学学报（自然科学版）,2006,28(2):98-102. 被引量：5

二级引证文献27

1张慧丽.基于混合二阶隐马尔可夫模型的基因结构预测[J].电脑知识与技术（过刊）,2007(14):537-539. 被引量：1
2胡长效,朱静,丁梁斌,张艳秋.EXCEL在昆虫种群空间分布型分析中的应用[J].江西植保,2006,29(3):105-108. 被引量：13
3邓海滨,陈永明,吴水泉,蒋秀玲.25%阿克泰水分散粒剂防治烟蚜田间药效试验[J].现代农药,2006,5(6):40-41. 被引量：6
4贺冬英,程建,赵胡,陈水生.紫薇绒蚧的生物学特性与药剂防效[J].昆虫知识,2008,45(5):811-814. 被引量：9
5刘影,马海霞,杨信东.用EXCEL中的VBA编写植物病害流行学常用程序软件包[J].吉林农业大学学报,2008,30(4):436-441. 被引量：13
6张谷丰,易红娟,孙雪梅.统计分析在植物病害研究上的应用[J].中国植保导刊,2009,29(2):11-15. 被引量：7
7王志龙,姚昇.几种高毒替代农药防治杜鹃冠网蝽试验[J].北方园艺,2009(6):54-56. 被引量：5
8马俊青,张静,周琳.EXCEL在农林试验多因素统计分析中的应用[J].湖北农业科学,2009,48(7):1754-1756. 被引量：7
9刘霞,张凯,兰宏博,周白平.Excel在微生物培养条件优化中的应用[J].工业微生物,2009,39(4):51-54.
10杜世平.二阶隐Markov模型的一种简化算法及参数估计[J].山西大学学报（自然科学版）,2009,32(3):358-362. 被引量：1

1周锐.自适应评判神经网络在微分对策中的应用[J].北京航空航天大学学报,2003,29(5):415-418. 被引量：2
2李海军,王钲旋,王利民,苑森淼.一种基于贝叶斯测度的有监督离散化方法[J].仪器仪表学报,2005,26(8):786-789. 被引量：5
3刘浩,赵尔敦.无线传感器网络服务质量的随机控制策略[J].计算机工程与应用,2007,43(22):143-146.
4李春贵,刘永信,王萌.平均报酬指标多步递推最小二乘即时差分学习[J].内蒙古大学学报（自然科学版）,2008,39(5):560-565.
5杨小辉,方宗德,杨青.网络环境下工程分析可视化数据简化与压缩[J].机械科学与技术,2006,25(1):46-49.
6郝钏钏,方舟,李平.基于参考模型的输出反馈强化学习控制[J].浙江大学学报（工学版）,2013,47(3):409-414. 被引量：1
7吴蕾,田儒雅,张学福.稀疏分层概率自组织图实例迁移学习方法[J].计算机应用,2016,36(3):692-696. 被引量：3
8胡光华,吴沧浦.平均报酬模型的多步强化学习算法[J].控制理论与应用,2000,17(5):660-664. 被引量：4
9宗群,孙正雅,宋超峰.基于平均报酬强化学习的电梯群组调度研究[J].系统仿真学报,2007,19(21):4945-4948. 被引量：1
10罗兰,曾斌.基于时序向量聚类的周期关联规则发现算法[J].计算机工程,2010,36(19):110-112. 被引量：2

云南大学学报（自然科学版）

2000年第1期

浏览历史

内容加载中请稍等...

一种在线自适应控制马氏链的强化学习算法被引量：3

参考文献1

同被引文献17

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

一种在线自适应控制马氏链的强化学习算法 被引量：3

参考文献1

同被引文献17

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

一种在线自适应控制马氏链的强化学习算法被引量：3