基于内发动机机制的机器人趋光控制被引量：3

Robot Phototaxis Control Based on Intrinsic Motivation Mechanism

下载PDF

导出

摘要针对移动机器人的趋光问题,提出了一种基于内发动机机制的控制方法.该方法以生物体感觉运动系统的学习机制为基础,通过评价、行为选择以及取向和决策环节的强化实现对机器人最优趋光控制策略的搜索,使机器人在未知环境下,通过自主的学习和训练,逐渐掌握趋光移动技能.采用马尔科夫定理证明了学习过程的收敛性;仿真实验证明了基于内发动机机制趋光控制方法的有效性;通过与人工势场法的比较,说明了该方法的精确性. For the mobile robot phototaxis control problem, the control method was proposed based on intrinsic motivation mechanism. According to sensorimotor system learning mechanism the robot achieved the optimal control method through the strengthening links of evaluation, behavioral choices, tropism and decision-making. The robot obtained the independent learning skills in unknown environment and gradually mastered the skills phototaxis through learning and training. The convergence of the algorithm was proved by Markov theorem. Simulation results show the effectiveness of the method. Comparison with the artificial potential method proves the accuracy of this method.

作者庞涛阮晓钢陈静任红格

机构地区北京工业大学电子信息与控制工程学院沈阳航空航天大学电信学院

出处《北京工业大学学报》 CAS CSCD 北大核心 2014年第1期32-37,共6页 Journal of Beijing University of Technology

基金国家"973"计划资助项目(2012CB720000) 国家自然科学基金资助项目(61101161) 高等学校博士学科点专项科研基金资助项目(20101103110007)

关键词机器人认知内发动机趋光技能感觉运动系统 robot cognitive intrinsic motivation phototaxis skill sensorimotor system

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献12

1RICHARD A W, SEVAN G F, JORDAN B P. Embodiedevolution: distributing an evolutionary algorithm in a population of robots [ J ]. Robotics and Autonomous Systems, 2002, 39(1): 1-18.
2CRESPI A, LACHAT D, PASQUIER A. Controlling swimming and crawling in a fish robot using a central pattern generator[ J]. Autonomous Robots, 2008, 25 ( 1/ 2) : 3-13.
3SHELLEY R. Cooperative phototaxis using networked mobile sensors and centroidal voronoi tessellations [ C ] // Proceedings of the American Control Conference. New York: IEEE, 2009 : 3274-3279.
4JOSE A F, GERARDO G A, MIGUEL A M. Behavioral control through evolutionary neurocontrollers for autonomous mobile robot navigation [ J 1. Robotics and Autonomous Systems, 2009, 57(4): 411-419.
5DAI Li-zhen, RUAN Xiao-gang, WANG Guan-wei, et al. Neural networks based autonomous learning for a desktop robot [ C ] // Proceedings of the World Congress on Intelligent Control and Automation. New York: IEEE, 2012 : 739-742.
6OUDEYER P, KAPLAN F. What is intrinsic motivation? a typology of computational approaches[J]. Frontiers in Neurorobotics, 2007, 1(6): 1-14.
7ASADA M, UCHIBE E, HOSODA K. Cooperative behavior acquisition for mobile robots in dynamically changing real worlds via vision-based reinforcement learning and development [J]. Artificial Intelligence, 1999, 110(2): 275-292.
8SINGH S, LEWIS Richard L, BARTO Andrew G, et al. Intrinsically motivated reinforcement learning : an evolutionary perspective [ J ]. IEEE Transactions on Autonomous Mental Development, 2010, 2 (2) : 70-82.
9ZORAN M, MARKO M, MIHAILO L, et al. Neural network reinforcement learning for visual control of robot manipulators [ J ]. Expert Systems with Applications, 2013, 40(5) : 1721-1736.
10PRADHAN S K, SUBUDHI B. Real-time adaptive control of a flexible manipulator using reinforcement learning[ J]. IEEE Transactions on Automation Science and Engineering, 2012, 9(2): 237-249.

二级参考文献14

1Baird L C. Residual algorithms: Reinforcement learning with function approximation. In: Proceedings of the 12th International Conference on Machine Learning (ICML95), Tahoe City, California, USA, 1995. 30～37
2Rumelhart D E et al. Learning internal representations by error propagation. In: Rumelhart D E et al, eds. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol.1,Cambridge, MA: MIT Press,1986. 318～362
3Cybenko G. Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems, 1989, 2: 303～314
4Baird L C, Moore A. Gradient descent for general reinforcement learning. In: Kearns M S, Solla S A, Cohn D A eds. Advances in Neural Information Processing Systems 11, Cambrige, MA: MIT Press, 1999. 968～974
5Bertsekas D P, Tsitsiklis J N. Gradient convergence in gradient methods with errors. SIAM Journal on Optimization, 2000, 10(3): 627～642
6Heger M. The loss from imperfect value functions in expectation-based and minimax-based tasks. Machine Learning, 1996, 22(1): 197～225
7Sutton R. Generalization in reinforcement learning: Successful examples using sparse coarse coding. In: Touretzky D S, Mozer M C, Hasselmo M E eds. Advances in Neural Information Processing Systems 8, Cambrige, MA: MIT Press, 1996. 1038～1044
8Kaelbling L P et al. Reinforcement learning: A survey. Jour- nal of Artificial Intelligence Research, 1996, 4: 237～285
9Tesauro G J. Temporal difference learning and TD-gammon. Communications of the ACM, 1995, 38(3):58～68
10Crites R H, Barto A G. Elevator group control using multiple reinforcement learning agents. Machine Learning, 1998, 33(2/3):235～262

共引文献21

1董沛武,刘微微,娄岩峰.基于遗传算法和神经网络的企业核心竞争力评价模型研究[J].兵工学报,2009,30(S1):114-118. 被引量：6
2王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
3周昌能,余雪丽.基于BP网络的权值更新快速收敛算法[J].计算机应用,2006,26(8):1940-1942. 被引量：6
4王雪松,程玉虎,易建强,王炜强.基于Elman网络的非线性系统增强式学习控制[J].中国矿业大学学报,2006,35(5):653-657. 被引量：8
5王惠,符策,谢益武,许瑞雪,杨小佳.面向伙伴选择的模糊Markov博弈控制及仿真研究[J].系统仿真学报,2007,19(15):3572-3576. 被引量：1
6王俊丽,胡彧.基于神经网络学习机制的应急决策支持中间件模型[J].山西电子技术,2007(4):57-58.
7陈圣磊,李卫红,姚娟.基于最小二乘的Q(λ)强化学习算法[J].计算机工程与应用,2008,44(34):47-50.
8蚩志锋,闫珍珠,黄彪.基于遗传算法与BP算法的水质评价模型[J].重庆科技学院学报（自然科学版）,2009,11(1):122-124. 被引量：8
9陈圣磊,谷瑞军,陈耿,薛晖.基于TD(λ)的自然梯度强化学习算法[J].计算机科学,2010,37(12):186-189. 被引量：2
10喻昕,邓飞,唐利霞.Pi-sigma神经网络的乘子法随机单点在线梯度算法[J].计算机应用研究,2011,28(11):4074-4077. 被引量：3

同被引文献20

1樊晓平,李双艳,陈特放.基于新人工势场函数的机器人动态避障规划[J].控制理论与应用,2005,22(5):703-707. 被引量：41
2王雪松,高阳,程玉虎,马小平.知识引导遗传算法实现机器人路径规划[J].控制与决策,2009,24(7):1043-1049. 被引量：24
3崔才豪,张玉华,杨树财.利用Arduino控制板的光引导运动小车设计[J].自动化仪表,2011,32(9):5-7. 被引量：41
4梁泉.未知环境中基于强化学习的移动机器人路径规划[J].机电工程,2012,29(4):477-481. 被引量：10
5孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：684
6郜园园,阮晓钢,李建更,宋洪军.基于DGSOM_A*的移动机器人地图创建和路径规划[J].北京工业大学学报,2012,38(12):1862-1867. 被引量：2
7冀俊忠,玉坤,刘椿年.基于磁场描述的TSPTW问题模型及其蚁群优化算法[J].北京工业大学学报,2013,39(9):1371-1377. 被引量：1
8Arduino和Atmel发布Arduino Zero开发板[J].单片机与嵌入式系统应用,2014,14(7):87-88. 被引量：1
9阮晓钢,庞涛,于建均.基于Boltzmann机神经网络认知机制的机器人趋光控制[J].控制与决策,2014,29(12):2189-2194. 被引量：3
10徐兆辉.移动机器人路径规划技术的现状与发展[J].科技创新与应用,2016,6(3):43-43. 被引量：13

引证文献3

1李福进,张俊琴,任红格.基于仿生学内在动机的Q学习算法移动机器人路径规划研究[J].现代电子技术,2019,42(17):133-137. 被引量：6
2张晓华,白娟.面向机器人教育的智能小车设计[J].中国现代教育装备,2021(17):8-11. 被引量：1
3阮晓钢,刘少达,朱晓庆.基于AHMRRT的移动机器人路径规划算法[J].北京工业大学学报,2022,48(2):121-128. 被引量：8

二级引证文献15

1张军,许靖宜,于士坤.基于人工势场法的局部路径规划改进[J].绥化学院学报,2023,43(9):146-151.
2陈双,李龙,罗海南.基于神经网络的强化学习在服务机器人导航中的研究[J].现代计算机,2020,26(12):62-67.
3王鼎新.基于改进Q-learning算法的AGV路径规划[J].电子设计工程,2021,29(4):7-10. 被引量：14
4宣峰,张晓栋.基于单目视觉的采摘机器人障碍物检测和路径规划[J].农机化研究,2021,43(11):29-33. 被引量：6
5王慧,秦广义,杨春梅.定制家具板材搬运AGV路径规划[J].包装工程,2021,42(17):203-209. 被引量：3
6常见,任雁.基于改进遗传算法的机器人路径规划[J].组合机床与自动化加工技术,2023(2):23-27. 被引量：20
7李威,张晓东,姜学峰,李健俊,张稳稳.基于改进强化学习的机器人路径规划研究[J].制造业自动化,2023,45(3):148-151. 被引量：10
8张军,张婷,于士坤.应用蚁群算法的全局路径规划改进[J].新乡学院学报,2023,40(6):25-28. 被引量：1
9唐瑞东,游向荣.基于改进人工势场法的多目标点路径规划[J].农业装备与车辆工程,2023,61(8):105-109. 被引量：4
10张晓华,姚淑霞.面向嵌入式系统教学的助学PCB尺的设计[J].中国现代教育装备,2023(17):33-36.

1阮晓钢,庞涛,张晓平,王尔申.一种基于情感智能的机器人自主趋光行为研究[J].智能系统学报,2015,10(1):97-102. 被引量：2
2张涌金.阳光控制“被控端”[J].网络运维与管理,2014,0(21):120-121.
3张少白,周宁宁.用于机器人运动控制的通用小脑认知模块的构建[J].南京邮电大学学报（自然科学版）,2012,32(2):69-74. 被引量：2
4陈越,冷宏宇,赵志浩.太阳能电池板自动寻光控制系统的设计[J].科技视界,2016(14):100-101.
5王会.基于单片机的太阳能自动浇灌系统的设计[J].电子技术与软件工程,2015(20):257-258. 被引量：2
6龙之心,黄新乐.硬朗简约爱国者F932[J].数码先锋,2008,0(9):64-65.
7大卫.H.弗里德曼.用光控制大脑[J].科技创业,2011(1):60-64.
8悠然,周芳.简约时尚美格WE223DK[J].数码先锋,2008,0(7):62-63.
9蛋白质活性的光控制[J].激光与光电子学进展,2008,45(12):10-10.
10黄谭友,杨日福.声—光控制灯亮灭电子电路的工作波形仿真[J].实验技术与管理,2006,23(11):95-97. 被引量：1

北京工业大学学报

2014年第1期

浏览历史

内容加载中请稍等...

基于内发动机机制的机器人趋光控制被引量：3

参考文献12

二级参考文献14

共引文献21

同被引文献20

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于内发动机机制的机器人趋光控制 被引量：3

参考文献12

二级参考文献14

共引文献21

同被引文献20

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于内发动机机制的机器人趋光控制被引量：3