深度强化学习原理及其在机器人运动控制中的运用被引量：3

下载PDF

导出

摘要深度强化学习技术通过将深度学习和强化学习技术结合起来,利用了深度学习表示能力强和端到端的学习特点,也利用了强化学习自动的决策学习能力以及其完善的算法框架。本文将概括性介绍深度学习、强化学习以及深度强化学习技术的算法框架,并探究深度强化学习技术在机器人运动控制中的应用。

作者薛天

机构地区天津市南开中学

出处《通讯世界》 2018年第8期240-241,共2页 Telecom World

关键词深度学习强化学习深度强化学习算法框架机器人运动控制

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：66
2马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：15

二级参考文献99

1Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
2MURRAY R M,ASTROM K M,BODY S P,et al.Future directions in control in an information-rich world[J].IEEE Control Systems Magazine,2003,23 (2):20-23.
3WIERING M,OTTERLO M V.Reinforcement learning state-of-the-art[M].Berlin:Springer-Verlag,2012:3-42.
4SUTTON R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.
5CHEN Xingguo,GAO Yang,WANG Ruili.Online selective kernel-based temporal difference learning[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(12):1944-1956.
6ZOU Bin,ZHANG Hai,XU Zongben.Learning from uniformly ergodic Markov chains[J].Journal of Complexity,2009,25(2):188-200.
7YU Huizhen,BERTSEKAS D P.Convergence results for some temporal difference methods based on least squares[J].IEEE Transactions on Automatic Control,2009,54(7):1515-1531.
8WATKINS C,DAYAN P.Q-learning[J].Machine Learning,1992,8(3):279-292.
9CHEN Chunlin,DONG Daoyi,LI Hanxiong.Fidelitybased probabilistic Q-learning for control of quantum systems[J].IEEE Transactions on Neural Networks and Learning Systems,2014,25(5):920-933.
10RUMMERY G,NIRANJAN M.On-line Q-learning using connectionist systems[D].Cambridge:University of Cambridge,1994.

共引文献79

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：13
2唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：30
3王磊.图书订货会迈入成熟期[J].中国出版,2000(2):25-26.
4渠国庆,熊峰,李军世,牛倩.基于多Agent可重构装配系统结构研究[J].工业控制计算机,2016,29(7):135-136.
5王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
6张文旭,马磊,贺荟霖,王晓东.强化学习的地–空异构多智能体协作覆盖研究[J].智能系统学报,2018,13(2):202-207. 被引量：7
7殷国栋,朱侗,任祖平,李广民,金贤建.基于多Agent的电动汽车底盘智能控制系统框架[J].中国机械工程,2018,29(15):1796-1801. 被引量：8
8武子睿.浅析人工智能主要技术方向以及在智能机器人上的应用[J].电子制作,2018,26(20):36-38.
9邱宇宸.基于Actor-Critic强化学习的倒立摆智能控制方法[J].武汉冶金管理干部学院学报,2018,28(4):88-90. 被引量：4
10郑永亮,李晓坤,王琳琳,陈虹旭,杨磊.基于人工智能与机器学习技术在智慧城市的应用[J].智能计算机与应用,2019,9(1):153-158. 被引量：11

同被引文献51

1吕奥博,董凯宁,龚澄,罗黎鸣,张思源,关卫星.基于决策树与WheatGrow作物模型的青稞生长预测初探[J].西藏农业科技,2019,41(S01):72-77. 被引量：2
2李莉婕,彭志良,赵泽英.贵州省梨栽培管理专家系统的开发[J].贵州农业科学,2009,37(9):256-258. 被引量：3
3熊玉唐,范勇,李显荣.麻江烤烟专家系统的开发与应用[J].贵州农业科学,2004,32(5):48-50. 被引量：3
4张文龙,周静,戴保威.农业专家系统研究进展[J].种子,2004,23(10):48-49. 被引量：13
5张建.论空间信息技术在精准农业中的应用[J].贵州农业科学,2006,34(1):106-107. 被引量：2
6刘金爱.我国农业信息化发展的现状、问题与对策[J].现代情报,2009,29(1):61-63. 被引量：48
7彭志良,赵泽英,李莉婕,王海.贵州天麻种植专家系统开发与应用[J].贵州农业科学,2011,39(8):190-192. 被引量：6
8王文生.德国农业信息技术研究进展与发展趋势[J].农业展望,2011,7(9):48-51. 被引量：17
9郭作玉,朱平壤,杨阿麟.从法国农业信息服务情况看我国农业信息服务网络化建设——赴法国网络化农业信息服务培训报告[J].饲料广角,2000,0(5):28-30. 被引量：2
10杨靖峰.基于物联网的温室智能系统研究[J].天津农林科技,2014(1):4-5. 被引量：4

引证文献3

1姬周珂,徐巧玉,王军委,李坤鹏.一种深度强化学习的机械臂控制方法[J].河南科技大学学报（自然科学版）,2021,42(3):19-24. 被引量：8
2闫雪,罗斌,王成.农业信息技术应用现状及发展趋势[J].贵州农业科学,2021,49(10):117-123. 被引量：6
3杜昉臻,何圆姣,冯西贝,刘国华.基于人工智能的中医证候分类算法研究[J].南开大学学报（自然科学版）,2023,56(2):12-16. 被引量：7

二级引证文献21

1成丽君,段松启,张宇波.中文数据库农业信息化文献计量学研究[J].智慧农业导刊,2023,3(5):1-8. 被引量：1
2孙百惠.农业信息技术下共享农机现状及建议[J].农机使用与维修,2023(5):43-46. 被引量：6
3王博,邓鹏程,刘国英,冯超,毛利民.基于CAN总线控制系统的航天特种机械臂设计[J].计算机测量与控制,2023,31(5):114-119.
4张森,庄智强,宋书中.一种基于线性模糊控制的飞行机械臂自抗扰方法[J].河南科技大学学报（自然科学版）,2023,44(5):37-48. 被引量：8
5朱威汉.基于卷积神经网络的机械臂抓取控制系统设计[J].计算机测量与控制,2023,31(11):181-186. 被引量：3
6王俊文,岳广欣,赵辉,梁媛,杜松,于峥,张华敏.2023年中医诊断学研究进展[J].中国中医基础医学杂志,2024,30(3):390-397. 被引量：12
7刘士莉,刘士华,唐朝,贾雪,文雯,李跃超,赵海静,王跃.北京市密云区农业信息化建设现状及发展建议[J].农业工程,2024,14(1):46-49. 被引量：2
8韩春磊,苏宇,张玉志.基于知识库的元类别医学期刊文章分类模型[J].南开大学学报（自然科学版）,2024,57(1):116-120.
9赵诣琛,衡思雨,许志强.南疆地区农业信息技术应用与优化策略——以棉花育种为例[J].广东蚕业,2024,58(7):70-74.
10邓立军,李庆松,董人瑞.不锈钢围护结构自动焊接机械臂的稳定控制技术研究[J].自动化仪表,2024,45(11):74-78.

1袁涛,刘志辉,舒畅,王生泽.Kinect在上肢康复机器人运动控制中的应用[J].东华大学学报（自然科学版）,2018,44(3):420-423.
2赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：66
3魏毅,蒙遥,朱登明.基于机器人运动控制的空间增强现实方法[J].高技术通讯,2018,28(5):434-441. 被引量：3
4夏洪永.自主移动式机器人运动自动控制技术研究[J].机械设计与制造工程,2018,47(8):59-62. 被引量：1
5党克,王民涛.光伏微电网供电在线负荷频率控制[J].计算机仿真,2017,34(11):53-57. 被引量：3
6乔俊飞,王亚清,柴伟.基于迭代ADP算法的污水处理过程最优控制[J].北京工业大学学报,2018,44(2):200-206. 被引量：3
7黄裕.基于多视角缺失补全算法的数据挖掘研究[J].计算技术与自动化,2018,37(2):67-72. 被引量：1
8冯莉.基于Tukey怀疑度模型旅游线路M估计协同推荐[J].湖南工业大学学报,2018,32(4):67-73. 被引量：3
9Elain.情态动词详细用法归纳[J].疯狂英语（初中天地）,2018,0(9):49-57.
10王亚蕊,王啸宇.融合批规范化编解码网络架构的道路分割[J].现代计算机,2018,24(12):58-61. 被引量：1

通讯世界

2018年第8期

浏览历史

内容加载中请稍等...

深度强化学习原理及其在机器人运动控制中的运用被引量：3

参考文献2

二级参考文献99

共引文献79

同被引文献51

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

深度强化学习原理及其在机器人运动控制中的运用 被引量：3

参考文献2

二级参考文献99

共引文献79

同被引文献51

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

深度强化学习原理及其在机器人运动控制中的运用被引量：3