基于神经网络集成的强化学习算法系统设计被引量：2

Design on a Reinforcement Learning Algorithm Based on Neural Network Ensemble

下载PDF

导出

摘要 BP神经网络在目前的非线性系统中应用广泛,但是作为有导师的学习系统,BP神经网络必须要求提供相关的经验数据才能正常运行,这对一般系统来说是非常麻烦和不现实的。对此文章提出了一种基于神经网络集成的强化学习BP算法,通过强化学习体系来实现体统的自学习,通过网络集成来达到初始数据的预处理,提高系统的泛化能力,并在实际应用中取得较好的效果。 BP neural network has been used in nonlinear system controller widely.But as a supervised training algorithm,it requires experiential data to be trained.But in some system such data cannot be got.So this paper provides the optimization on a reinforcement leaming algorithm based on neural network ensemble. Reinforcement leaming is unsupervised and on-line.Neural network ensemble can significantly improve the generalization ability of leaming system. The method is tested and the expected results are obtained.

作者叶德谦杨樱金大兵

机构地区燕山大学中德信息技术研究所

出处《计算机工程与应用》 CSCD 北大核心 2006年第12期97-99,共3页 Computer Engineering and Applications

基金燕山大学博士基金资助项目(编号:2004013)

关键词神经网络集成 BP神经网络强化学习 RBP模型 Neural Network ensemble,BP Neural Network,reinforcement learning, Reinforcement Baek-Propagation model

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1周志华,陈世福.神经网络集成[J].计算机学报,2002,25(1):1-8. 被引量：249
2姜远,陈兆乾,周志华.一种基于神经网络集成的规则学习算法[J].计算机研究与发展,2003,40(10):1419-1423. 被引量：12
3陆鑫,高阳,李宁,陈世福.基于神经网络的强化学习算法研究[J].计算机研究与发展,2002,39(8):981-985. 被引量：16
4赵宏邹,雯汪浩.证券市场预测的神经网络方法[J].系统工程理论与实践,1997,17(6):127-131. 被引量：29
5林杰,郭耀煌.用神经网络方法预测股票短期走势[J].西南交通大学学报,1998,33(3):299-304. 被引量：20
6L P Kaelbling,M L Littman,A W Moore.Reinforcement learning:A survey[J].Journal of Artificial Intelligence Research,1996,4:237～285

二级参考文献23

1文新辉,陈开周.一种基于神经网络的非线性时间序列模型[J].西安电子科技大学学报,1994,21(1):73-78. 被引量：10
2叶中行,顾立庭.混合认知系统及其在股市分析上的应用[J].上海交通大学学报,1995,29(2):92-99. 被引量：2
3从爽.面向MATLAB工具箱的神经网络理论与应用[M].合肥:中国科技大学出版社,1998.59-60.
4S Muggleton. Inductive logic programrnmg. In: S Muggleton ed. Inductive Logic Programming, London: Academic Press, 1992. 3-27.
5Hong J. AEI: An extension matrix approximate method for the general covering problem. International Journal of Computer and Information Sciences, 1985, 14(6): 421-437.
6J R Quinlan. CA. 5 : Programs for Machine Learning. San Mateo, CA: Morgan Kaufmarm, 1993.
7M W Craven, J W Shavlik. Extracting tree-structured representations of trained neural networks. In: D Touretzky, M Mazer, M Hasselmo ecls. Advances in Neural Information Processing Systems 8, Cambridge, MA.. MIT Press, 1996.24 - 30.
8R Setiono. Extracting rules from neural networks by pruning and hidden-unlt splitting. Neural Computation, 1997, 9 ( 1 ) : 205 -225.
9R Kerber. Chi-Merge: Diseretization of numerie attributes. In: Proe of the 10th National Conf on Artifieisl Intelligence, Menlo Park, CA: AAAI Press, 1992. 123-128.
10C Blake, E Keogh, C J Merz.UCI regository of machine learming databases.1998.http://www. its. uci. edu/- mlearn/MLRepository.html.

共引文献315

1杜扬帆,伍孝飞,乔百友.基于XGBoost-PredRNN++的海表面温度预测[J].计算机系统应用,2022,31(10):236-244. 被引量：1
2刘俊.Photoshop在印制电路制造中的应用[J].印制电路信息,2002(11):26-27.
3李朝奎,王利东,李吟,周新邵.土壤重金属污染评价方法研究进展[J].矿产与地质,2011,25(2):172-176. 被引量：44
4王新,王园园.银行信用风险分析方法研究[J].江苏社会科学,2006(S2):19-20.
5王飞,周鹏程,王雷,徐本连.一种面向新型入侵的获取和分类方法[J].计算机科学,2012,39(S3):45-50.
6安金霞,朱纪洪,袁夏明.基于神经网络知识库的多神经网络集成方法[J].中南大学学报（自然科学版）,2009,40(S1):1-9. 被引量：1
7陈万忠,孙保峰,高韧杰,雷俊.基于NNE技术的手臂运动模式识别算法研究[J].吉林大学学报（工学版）,2013,43(S1):69-73. 被引量：1
8闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：62
9施彦,黄聪明,侯朝桢.基于改进的PSO算法的神经网络集成[J].复旦学报（自然科学版）,2004,43(5):692-695. 被引量：8
10凌锦江,周志华.基于因果发现的神经网络集成方法[J].软件学报,2004,15(10):1479-1484. 被引量：9

同被引文献33

1王宏伟,宋艽.基于神经网络的网络时延预测[J].微计算机信息,2008,24(4):265-266. 被引量：3
2刘曙光,周宗锡,杨锋.遥操作机器人系统的变时延控制[J].控制工程,2006,13(S1):179-182. 被引量：6
3纪竹亮,戴连奎.一种基于时延信息的多QoS快速自适应路由算法[J].电路与系统学报,2004,9(4):142-145. 被引量：2
4桂芳,全书海.网络控制系统传输时延分析与测试[J].计算机应用,2005,25(10):2264-2266. 被引量：10
5胥布工.一个新型充要指数稳定性定理及其初步应用[J].控制理论与应用,2006,23(1):7-13. 被引量：5
6张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7
7王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3
8李国栋,周宏,毕延军.基于TCP OVER UDP技术的机器人遥操作系统中视频传输的研究[J].华北电力大学学报（自然科学版）,2006,33(4):47-50. 被引量：4
9陈俊杰,黄惟一.基于虚拟现实技术的遥操作机器人的鲁棒性控制策略[J].控制理论与应用,2006,23(5):823-829. 被引量：2
10黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19

引证文献2

1曾智刚.基于强化学习的神经网络在船模速度控制中的应用[J].计算机时代,2009(4):24-25. 被引量：1
2李凯,马斌,刘信.基于互联网遥操作研究[J].电脑知识与技术,2016,12(12):210-213.

二级引证文献1

1方小菊.基于强化学习的采摘机器人采摘臂避碰设计[J].农机化研究,2017,39(11):198-202. 被引量：4

1叶德谦,金大兵,杨樱.基于强化学习的股票预测系统的研究与设计[J].微计算机信息,2006,22(02X):149-151. 被引量：4
2陆鑫,高阳,李宁,陈世福.基于神经网络的强化学习算法研究[J].计算机研究与发展,2002,39(8):981-985. 被引量：16
3于颖平.对改进党校计算机教学的几点思考[J].环球人文地理,2014(11X):224-224.
4李志杰,李元香,王峰,何国良,匡立.面向大数据分析的在线学习算法综述[J].计算机研究与发展,2015,52(8):1707-1721. 被引量：42
5黎明鸣,褚依婷,王菁峰,苏志强,郭晓东.基于物联网下信息管理系统的开发设计[J].中国新通信,2016,18(2):123-123.
6乔俊玲,孙亦博.基于struts框架的国际化问题的解决方案[J].洛阳师范学院学报,2012,31(5):65-67.
7黄维.关于VB.NET的管理信息系统的开发的研究[J].数字技术与应用,2017,35(1):130-130. 被引量：5
8王苏苏.基于ARM嵌入式智能家居系统的设计与实现[J].无线互联科技,2013,10(5):77-77. 被引量：7
9曾维国.论办公自动化系统的应用[J].中国科技纵横,2010(13):207-207.
10代光荣.基于射频识别的智能车辆管理系统建设[J].科技与创新,2014,0(24):31-32. 被引量：1

计算机工程与应用

2006年第12期

浏览历史

内容加载中请稍等...

基于神经网络集成的强化学习算法系统设计被引量：2

参考文献6

二级参考文献23

共引文献315

同被引文献33

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于神经网络集成的强化学习算法系统设计 被引量：2

参考文献6

二级参考文献23

共引文献315

同被引文献33

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于神经网络集成的强化学习算法系统设计被引量：2