基于知识的深度强化学习研究综述被引量：41

Knowledge-based deep reinforcement learning:a review

下载PDF

导出

摘要作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。 As an important method to solve sequential decision problems, reinforcement learning adopts a mechanism of “trial and error” to interact with the environment, in order to learn the policy of the task. Know-ledge, as a kind of structured information, which contains the elements of experience, values, cognitive rules and expert opinions, can be effectively used to improve the learning efficiency of reinforcement learning. This paper takes the basic theory of reinforcement learning as a starting point, and systematically summarizes the deep reinforcement learning and knowledge-based reinforcement learning.

作者李晨溪曹雷张永亮陈希亮周宇欢段理文

机构地区解放军理工大学指挥信息系统学院浙江大学机械工程学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2017年第11期2603-2613,共11页 Systems Engineering and Electronics

基金总装备部预研基金(9140A06020315JB25081) 中国博士后科学基金第八批特别项目(2015T81081) 中国博士后科学基金第60批面上项目(2016M6029174) 江苏省自然科学基金青年基金面上项目(BK20140075)资助课题

关键词深度强化学习知识探索策略逆强化学习 deep reinforcement learning knowledge exploration strategy inverse reinforcement learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：300

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献299

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：11
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献339

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：62
2Rui WANG,Qiuye SUN,Yonghao GUI,Dazhong MA.Exponential-function-based droop control for islanded microgrids[J].Journal of Modern Power Systems and Clean Energy,2019,7(4):899-912. 被引量：6
3席斌,王振雷,钱锋.机器视觉工业检测系统的应用与发展[J].控制工程,2006,13(S1):220-222. 被引量：19
4赵真明,孟正大.基于加权A~*算法的服务型机器人路径规划[J].华中科技大学学报（自然科学版）,2008,36(S1):196-198. 被引量：35
5李梦汶.联合作战仿真实验的几个基本问题[J].军事运筹与系统工程,2008,22(1):25-29. 被引量：13
6牛佳,张黎明,金小萍,宋靖,史全良.不同氮、磷营养水平下水葫芦体内生长素和细胞分裂素变化及与其分蘖关系的研究[J].苏州大学学报（自然科学版）,2012,28(1):76-82. 被引量：2
7季明德,黄湘源,付美琴,姜忠恩.硅元素对甘蔗中蔗糖分积累的影响[J].江西化工,1994,10(1):13-15. 被引量：3
8王迅,金万平,张存林,沈京玲,郭广平,杨党纲,吴东流,李建伟,郭兴旺.红外热波无损检测技术及其进展[J].无损检测,2004,26(10):497-501. 被引量：110
9林益,白秀云.一般系统论研究的过去、现在和未来(下)[J].空军工程大学学报（自然科学版）,2002,3(1):1-10. 被引量：7
10梁永超,张永春,马同生.植物的硅素营养[J].土壤学进展,1993,21(3):7-14. 被引量：102

引证文献41

1吴志强,张俊峰.基于深度强化学习的自动态势估计研究[J].军事运筹与系统工程,2018,32(2):42-46. 被引量：15
2陈希亮,曹雷,何明,李晨溪,徐志雄.深度逆向强化学习研究综述[J].计算机工程与应用,2018,54(5):24-35. 被引量：19
3董倩,黄国强,王艳君,邓祖湖,陈如凯.硅对果蔗组培腋芽苗增殖生长及相关指标的影响[J].热带作物学报,2018,39(1):116-120. 被引量：4
4贾雪原,黄东旭,余欣,蒋子平,路来金.Ⅰ型神经纤维瘤病26例临床回顾性研究[J].中华手外科杂志,2018,34(2):118-120. 被引量：5
5齐岳,黄硕华.基于深度强化学习DDPG算法的投资组合管理[J].计算机与现代化,2018(5):93-99. 被引量：13
6夏旻,宋稳柱,施必成,刘佳.基于加权密集连接卷积网络的深度强化学习方法[J].计算机应用,2018,38(8):2141-2147. 被引量：9
7孙毅,刘迪,李彬,徐永海.深度强化学习在需求响应中的应用[J].电力系统自动化,2019,43(5):183-194. 被引量：38
8何杨,肖基毅.基于深度强化学习的网络共享资源智能调度方法[J].自动化与仪器仪表,2019,0(6):80-82. 被引量：4
9孙鹏,孙若莹,刘滨翔.基于Double-DQN的平衡类游戏改善[J].电子设计工程,2019,27(14):112-116. 被引量：1
10尚宇炜,郭剑波,吴文传,苏剑,刘伟,庄晟阳,周莉梅.数据–知识融合的机器学习(2)：泛化风险[J].中国电机工程学报,2019,39(16):4641-4649. 被引量：13

二级引证文献407

1王娜,国艳群,李和平,李翔.一种基于混合推理的电子对抗作战行动生成框架[J].中国电子科学研究院学报,2023,18(1):43-47. 被引量：1
2邹子缘,陈琪锋.基于决策树搜索的空间飞行器集群对抗目标分配方法[J].航空学报,2022,43(S01):78-88. 被引量：13
3许奕东,李飞.人工智能背景下测量仪器技术发展探讨[J].电子测量技术,2023,46(23):1-6. 被引量：4
4胡荣明,任乐宽,苏瑞鹏,米晓梅.一种改进U-Net的遥感影像建筑物提取方法[J].测绘科学,2023,48(1):39-48. 被引量：9
5程乔,王映华,李冉,刘文雯.重点业务感知监测分析机器人在网优智能化中应用的研究[J].广西通信技术,2019,0(3):48-54.
6李春玲.无痛分娩仪临床应用50例体会[J].河南医科大学学报,2000,35(1):115-116.
7舒健美.跃进汽车集团轻型卡车分公司的企业管理设计[J].车间管理,2000(1):22-25.
8张书瑞.对21世纪护理人员素质探讨[J].山西妇幼卫生,2000,11(1):58-58.
9周新宇.“地球自转周期”难点的突破[J].地理教学,2000(8):21-22.
10韩吉思,方小荣,申礼凤,李建波,姚茜,杨梅.红心杉组培苗增殖培养基的优化[J].广东农业科学,2018,45(4):63-69. 被引量：3

1姚堃,廖元锡."对分课堂"在高中物理教学中的应用[J].中学物理教学参考,2017,0(7X):5-6. 被引量：3
2严林.激发情感创建模式探索策略[J].考试周刊,2017,0(15):59-59.
3卢海滨.市场经济条件下企业经济管理模式探索[J].经济视野,2017,0(9):58-58.
4何海琼.高中化学课堂引入研究性学习法的实践探索[J].文理导航,2017(23):75-75. 被引量：3
5唐隆健.例谈化学教学中的深度思考[J].中学化学教学参考,2017,0(17):1-3. 被引量：2
6戴小蓉.中职学前教育专业音乐教学改革的研究与分析[J].黄河之声,2017(14):61-61. 被引量：7
7李翠.基于新时代背景下产品设计专业人才培养方案的研究[J].时代教育,2017,0(20):29-29.
8贾云辉,张志宏,何宏.基于ARM-Linux的爬壁机器人控制器研究[J].电子测量与仪器学报,2017,31(9):1459-1466. 被引量：9
9余艳娥.以“输出驱动假设”为指导的基于微信平台的研究生公共英语翻转课堂教学模式研究与实践[J].高教学刊,2017,3(19):86-89. 被引量：6
10刘友英,业成,李冲,朱大胜.校企融合的锅检行业应用型人才协同培养模式的研究[J].科技视界,2017(13):60-61. 被引量：1

系统工程与电子技术

2017年第11期

浏览历史

内容加载中请稍等...

基于知识的深度强化学习研究综述被引量：41

参考文献1

二级参考文献4

共引文献299

同被引文献339

引证文献41

二级引证文献407

相关作者

相关机构

相关主题

浏览历史

基于知识的深度强化学习研究综述 被引量：41

参考文献1

二级参考文献4

共引文献299

同被引文献339

引证文献41

二级引证文献407

相关作者

相关机构

相关主题

浏览历史

基于知识的深度强化学习研究综述被引量：41