基于数据的自学习优化控制:研究进展与展望被引量：23

Data-based Self-learning Optimal Control: Research Progress and Prospects

下载PDF

导出

摘要自适应动态规划(Adaptive dynamic programming,ADP)方法可以解决传统动态规划中的"维数灾"问题,已经成为控制理论和计算智能领域最新的研究热点.ADP方法采用函数近似结构来估计系统性能指标函数,然后依据最优性原理来获得近优的控制策略.ADP是一种具有学习和优化能力的智能控制方法,在求解复杂非线性系统的最优控制问题中具有极大的潜力.本文对ADP的理论研究、算法实现、相关应用等方面进行了全面的梳理,涵盖了最新的研究进展,并对ADP的未来发展趋势进行了分析和展望. Adaptive dynamic programming （ADP） method can solve the problem of ＂curse of dimensionality＂ in the traditional dynamic programming, and has recently become a hot topic in the field of control theory and computational intelligence. For ADP method, a function approximation structure is used to estimate the performance index function, and then the approximate optimal control policy can be obtained based on the principle of optimality. As a kind of intelligent control methods with learning and optimization capabilities, ADP has great potential in solving the optimal control problem of complex nonlinear systems. This paper presents a comprehensive survey on the theoretical research, algorithm development, and related applications of ADP, which covers the latest research progress. It also analyzes and predicts the future development trend of ADP.

作者刘德荣李宏亮王鼎

机构地区中国科学院自动化研究所复杂系统管理与控制国家重点实验室

出处《自动化学报》 EI CSCD 北大核心 2013年第11期1858-1870,共13页 Acta Automatica Sinica

基金国家自然科学基金(61034002 61233001 61273140)资助~~

关键词自适应动态规划近似动态规划强化学习神经网络智能控制 Adaptive dynamic programming （ADP）, approximate dynamic programming, reinforcement learning, neuralnetworks, intelligent control

分类号 TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1康琦,汪镭,安静,吴启迪.基于近似动态规划的微粒群系统参数优化研究[J].自动化学报,2010,36(8):1171-1181. 被引量：4
2S.N.BALAKRISHNAN.Approximate dynamic programming solutions with a single network adaptive critic for a class of nonlinear systems[J].控制理论与应用（英文版）,2011,9(3):370-380. 被引量：2
3张化光,张欣,罗艳红,杨珺.自适应动态规划综述[J].自动化学报,2013,39(4):303-311. 被引量：87
4赵冬斌,刘德荣,易建强.基于自适应动态规划的城市交通信号优化控制方法综述[J].自动化学报,2009,35(6):676-681. 被引量：44
5徐昕,沈栋,高岩青,王凯.基于马氏决策过程模型的动态系统学习控制:研究前沿与展望[J].自动化学报,2012,38(5):673-687. 被引量：21

二级参考文献57

1孙明轩,王郸维,陈彭年.有限区间非线性系统的重复学习控制[J].中国科学：信息科学,2010,40(3):433-444. 被引量：12
2张雁冰,杭大明,马正新,曹志刚.基于再励学习的主动队列管理算法[J].软件学报,2004,15(7):1090-1098. 被引量：7
3DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
4王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
5潘峰,陈杰,甘明刚,蔡涛,涂序彦.粒子群优化算法模型分析[J].自动化学报,2006,32(3):368-377. 被引量：67
6陈宗海,文锋,王智灵.基于自适应评价的非线性系统神经网络控制[J].控制与决策,2007,22(7):765-768. 被引量：5
7S. N. Balakrishnan,V. Biega.Adaptive-critic based neural networks for aircraft optimal control. Journal of Guidance Control and Dynamics . 1996
8D. Prokhorov,D. Wunsch.Adaptive critic designs. IEEE Transactions on Neural Networks . 1995
9S. Ferrari,R. Stengel.An adaptive critic global controller. American Journal of Infection Control . 2002
10S. Ferrari,R. Stengel.Classical/neural synthesis of nonlinear control systems. Journal of Guidance Control and Dynamics . 2002

共引文献142

1刘富,安毅,董博,李元春.基于ADP的可重构机械臂能耗保代价分散最优控制[J].吉林大学学报（工学版）,2020,50(1):342-350. 被引量：5
2蓝雯飞,吴子莹,李强,强小利.动态规划算法的时间效率改进[J].中南民族大学学报（自然科学版）,2016,35(2):135-140. 被引量：6
3刘晓.关于城市交通拥堵问题研究的文献综述[J].经济研究导刊,2010(4):102-103. 被引量：27
4程玉虎,冯涣婷,王雪松.基于状态-动作图测地高斯基的策略迭代强化学习[J].自动化学报,2011,37(1):44-51. 被引量：6
5周晓华,宋春宁,王荔芳,黄玲.基于ADHDP方法的HVDC整流控制器设计[J].组合机床与自动化加工技术,2011(6):57-60. 被引量：1
6程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
7齐驰,侯忠生,贾琰.基于排队长度均衡的交叉口信号配时优化策略[J].控制与决策,2012,27(8):1191-1194. 被引量：15
8刘建华,刘国买,杨荣华,胡文瑜.粒子群算法的交互性与随机性分析[J].自动化学报,2012,38(9):1471-1484. 被引量：14
9朱美强,程玉虎,李明,王雪松,冯涣婷.一类基于谱方法的强化学习混合迁移算法[J].自动化学报,2012,38(11):1765-1776. 被引量：11
10常永峰.关于城市交通拥堵的几点思考[J].山西建筑,2012,38(34):20-22.

同被引文献207

1张芳芳,贺娟,李明军.基于导数优化的BP学习算法的研究综述[J].计算机应用研究,2009,26(3):809-813. 被引量：7
2罗雄麟,赵决正,王娟.催化裂化装置气压机喘振控制的双时间尺度动态模拟[J].化工学报,2012,63(S2):118-125. 被引量：3
3滕江川,吴晓燕,陈永兴,吴静,李琳.基于模糊控制理论的脉冲推力器点火算法[J].四川大学学报（工程科学版）,2011,43(S1):194-198. 被引量：9
4岑翼刚,秦元庆,孙德宝,李宁.粒子群算法在小波神经网络中的应用[J].系统仿真学报,2004,16(12):2783-2785. 被引量：15
5厉虹,胡兵.轮式移动机器人非完整运动规划的遗传算法[J].自动化技术与应用,2005,24(2):13-15. 被引量：5
6Li Xiang,Chen Zengqiang,Yuan Zhuzhi.NONLINEAR STABLE ADAPTIVE CONTROL BASED UPON ELMAN NETWORKS[J].Applied Mathematics(A Journal of Chinese Universities),2000,15(3):332-340. 被引量：3
7葛志强,黄培康.基于递推最小模型误差估计的机动目标跟踪[J].航天控制,2001,19(2):20-26. 被引量：1
8陈克俊,赵汉元.一种适用于攻击地面固定目标的最优再入机动制导律[J].宇航学报,1994,15(1):1-7. 被引量：80
9赵勇,岳继光,李炳宇,张传升.一种新的求解复杂函数优化问题的并行粒子群算法[J].计算机工程与应用,2005,41(16):58-60. 被引量：17
10李宁,邹彤,孙德宝,秦元庆.基于粒子群的多目标优化算法[J].计算机工程与应用,2005,41(23):43-46. 被引量：54

引证文献23

1王澄,刘德荣,魏庆来,赵冬斌,夏振超.带有储能设备的智能电网电能迭代自适应动态规划最优控制[J].自动化学报,2014,40(9):1984-1990. 被引量：12
2代伟,柴天佑.数据驱动的复杂磨矿过程运行优化控制方法[J].自动化学报,2014,40(9):2005-2014. 被引量：31
3杨明,罗艳红,王义贺.模型未知非零和博弈问题的策略迭代算法[J].东北大学学报（自然科学版）,2015,36(3):318-321. 被引量：3
4林梅金,罗飞,苏彩红,许玉格.一种新的混合智能极限学习机[J].控制与决策,2015,30(6):1078-1084. 被引量：12
5张俊玲,陈增强,张青.基于粒子群优化的Elman神经网络无模型控制[J].智能系统学报,2016,11(1):49-54. 被引量：3
6胡鹏,杨安平.基于排队长度的T型交叉口信号配时优化[J].自动化技术与应用,2016,35(6):23-27.
7金磐石.商业银行智能客户服务模式探索与实践[J].金融电子化,2016(8):60-62. 被引量：4
8王鼎,穆朝絮,刘德荣.基于迭代神经动态规划的数据驱动非线性近似最优调节[J].自动化学报,2017,43(3):366-375. 被引量：11
9孙景亮,刘春生.基于自适应动态规划的导弹制导律研究综述[J].自动化学报,2017,43(7):1101-1113. 被引量：31
10史长城,田森平.水泥分解炉出口温度HDP优化控制研究[J].湖北大学学报（自然科学版）,2017,39(5):558-562. 被引量：2

二级引证文献190

1刘勇,马鹏飞,薛国庆,陶迎婷.人机交互技术在智能矿山设备中的应用[J].工矿自动化,2021,47(S01):45-47. 被引量：8
2李志军,张月飞,孙永强.基于膜优化案例推理的磨矿过程智能控制[J].煤炭工程,2020,52(S02):130-136.
3刘富,安毅,董博,李元春.基于ADP的可重构机械臂能耗保代价分散最优控制[J].吉林大学学报（工学版）,2020,50(1):342-350. 被引量：5
4姜龙亭,魏瑞轩,张启瑞,王栋.基于群智机理的集群防碰撞控制[J].航空学报,2020(S02):161-170. 被引量：12
5袁斌文,尤政,孟子阳,杨登.采用观测器的偏置动量小卫星姿态容错控制[J].宇航学报,2018,39(12):1348-1356. 被引量：2
6李琦,于明伟,赵峰.基于DHP算法的热力站一次网热量分配控制[J].信息与控制,2018,47(6):737-744. 被引量：4
7卢绍文,余策.磨矿粒度动态过程的一种快速Monte Carlo仿真方法[J].自动化学报,2014,40(9):1903-1911. 被引量：5
8范家璐,张也维,柴天佑.一类工业过程运行反馈优化控制方法[J].自动化学报,2015,41(10):1754-1761. 被引量：12
9冯小峰,刘明波.自适应动态规划法应用于二级电压控制器设计(英文)[J].电网技术,2016,40(8):2395-2405. 被引量：1
10范家璐,姜艺,柴天佑.无线网络环境下工业过程运行反馈控制方法[J].自动化学报,2016,42(8):1166-1174. 被引量：14

1赵琰,邓玮,张玉艳.基于近似动态规划的神经网络控制及在电力系统中应用[J].东北电力技术,2009,30(4):10-12. 被引量：1
2齐驰,王轶.交通流模型参数的近似动态规划辨识方法[J].控制与决策,2011,26(7):1091-1095. 被引量：1
3董军,胡上序.混沌神经网络研究进展与展望[J].信息与控制,1997,26(5):360-368. 被引量：53
4肖田元.虚拟制造研究进展与展望[J].系统仿真学报,2004,16(9):1879-1883. 被引量：43
5唐四春,袁保宗.计算机视觉研究进展与展望[J].通信学报,1993,14(4):55-64. 被引量：5
6董聪,夏人伟.智能结构研究进展与展望[J].大自然探索,1996,15(2):6-11. 被引量：1
7蔡卫峰.动态系统故障诊断技术研究进展与展望[J].计算机测量与控制,2002,10(12):775-777. 被引量：13
8丁建立,陈增强,袁著祉.DNA计算与DNA计算机研究进展与展望[J].计算机科学,2003,30(12):19-22.
9孙思雨,孙良旭,苏晓磊,赵环宇.动态环境下基于近似动态规划的分布估计算法研究[J].电脑知识与技术,2014,10(10X):7173-7176. 被引量：1
10肖艳萍,张舜标,郑铮华.网络安全态势感知在校园网络安全的研究进展与展望[J].广东农工商职业技术学院学报,2013,29(4):38-41. 被引量：9

自动化学报

2013年第11期

浏览历史

内容加载中请稍等...

基于数据的自学习优化控制:研究进展与展望被引量：23

参考文献5

二级参考文献57

共引文献142

同被引文献207

引证文献23

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

基于数据的自学习优化控制:研究进展与展望 被引量：23

参考文献5

二级参考文献57

共引文献142

同被引文献207

引证文献23

二级引证文献190

相关作者

相关机构

相关主题

浏览历史

基于数据的自学习优化控制:研究进展与展望被引量：23