强化学习的模型、算法及应用被引量：9

Reinforcement Learning Model,Algorithms and Its Application

下载PDF

导出

摘要强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa算法、TD算法、Q-学习算法及函数估计算法,最后介绍了强化学习的应用情况及未来研究方向。 Reinforcement Learning does not need prior knowledge, and it gets optional policy through trial and error, its capacity of self-improving and online learning is one of the basic technologies of intelligent agent. In the paper, we firstly introduce the model and foundation of RL, then, we deeply discuss the main algorithms of RL, including Sarsa, temporal difference, Q-learning and function approximation, finally, we briefly introduce some applications of RL and some future research direction.

作者战忠丽王强陈显亭

机构地区吉林电子信息职业技术学院计算机系

出处《电子科技》 2011年第1期47-49,共3页 Electronic Science and Technology

关键词强化学习 Sarsa算法瞬时差分算法 Q-学习算法函数估计 reinforcement learning sarsa temporal difference Q-Learning function approximation

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1Singh S. Agents and Reinforcement Learning [M]. San Matco, CA, USA: Miller Freeman Publish Inc, 1997.
2Bush R R, Mosteller F. Stochastic Models for Learning [M]. New York: Wiley Press, 1955.
3Sutton S, Barto G. Reinforcement Learning: An Introduction [M]. Cambridge, MA, USA: MITPress, 1998.
4Rummery G, Niranjan M. On- learning Using Connectionist Systems [ R]. England: Cambridge University Engineering Department: Technical Report CUED/F- INFENG/TR 166, 1994.
5Sutton R S. Learning to Predict by Thmethods of Temporal Differences [J]. Machine Learning, 1988(3) : 9 -44.
6Watkins C. Q- Learning [J]. Machine Learning, 1992, 8(3) : 279 -292.

同被引文献79

1魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：14
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3管宇,杨琪瑜.试验设计中的重复试验次数的确定[J].生物数学学报,2005,20(3):369-374. 被引量：4
4高彬,郭庆丰.BP神经网络在电子战效能评估中的应用[J].电光与控制,2007,14(1):69-71. 被引量：21
5陈丹,方康玲,陈乔礼.遗传算法在PID参数优化中的应用[J].微计算机信息,2007,23(03S):35-36. 被引量：22
6王世进,孙晟,周炳海,奚立峰.基于Q-学习的动态单机调度[J].上海交通大学学报,2007,41(8):1227-1232. 被引量：11
7Watkins C J C H. Learning from delayed rewards[D]. Cambridge, England: Cambridge University, 1989.
8Rummery G A, Niranjan M. On-line Q-learning using connectionist systems[R]. Cambridge: Cambridge University, 1994.
9Tousi M R, Hosseinian S H, Jadidinejad A H, et al. Application of SARSA leaming algorithm for reactive power control in power systemiC] // 2rid IEEE International Conference on Power and Energy (PECon 08), December 1-3, 2008.
10LU Kai, XU Jian-min, LI Yi-shun. An optimization method for single intersection's signal timing based on SARSA(X) algorithmiC] // 2008 Chinese Control and Decision Conference (CCDC 2008): 5146-5150.

引证文献9

1王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
2余涛,张水平.在策略SARSA算法在互联电网CPS最优控制中的应用[J].电力系统保护与控制,2013,41(1):211-216. 被引量：16
3高瑞娟,吴梅.基于改进强化学习的PID参数整定原理及应用[J].现代电子技术,2014,37(4):1-4. 被引量：4
4李竞捷.增强学习在航空器运动姿态干预上的应用分析[J].科技风,2014(16):19-20.
5李云杰,朱云鹏,高梅国.基于Q-学习算法的认知雷达对抗过程设计[J].北京理工大学学报,2015,35(11):1194-1199. 被引量：38
6黄科举,杨俊安,周继航,刘辉.基于多臂赌博机模型的IEEE 802.11 MAC协议认知干扰技术[J].通信对抗,2017,36(2):30-35. 被引量：2
7姚颖,王菲.BP神经网络在远程教育学习者评价中的应用[J].软件导刊,2019,18(11):109-112. 被引量：4
8王泽学,万启东,秦杨梅,樊森清,肖泽仪.基于多Agent强化学习的危险车辆预警算法[J].电子科技,2020,33(9):44-49. 被引量：3
9冯振,牟海明,薛杰,李清都.融合模仿学习的双足机器人全向行走步态生成方法[J].电子科技,2025,38(1):29-36. 被引量：1

二级引证文献68

1王琦,邱红,谢铁文,侯虎,方恺.基于大学物理实验混合式教育模式与评价体系研究[J].物理与工程,2021,31(S01):19-27. 被引量：6
2程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：136
3刘洪,李吉峰,葛少云,张鹏,陈星屹.基于多主体博弈与强化学习的并网型综合能源微网协调调度[J].电力系统自动化,2019,43(1):40-48. 被引量：71
4常鲜戎,王建文,崔赵俊.基于戴维南等值模型的静稳极限在线监视[J].电测与仪表,2015,52(16):11-16. 被引量：3
5郭亮,于昌海,吴继平,滕贤亮,温丽丽.四川电网AGC机组协调优化控制策略研究与应用[J].电力系统保护与控制,2016,44(17):159-164. 被引量：9
6贺颖,潘杨,陶骞,刘悦遐,孙建军,查晓明.考虑调频死区的电网一次调频能力评价指标[J].电力系统保护与控制,2016,44(19):85-90. 被引量：19
7任红格,刘伟民,李福进.一种记忆可修剪型仿生机器人的速度跟踪算法研究[J].现代电子技术,2017,40(15):141-145. 被引量：2
8颛孙少帅,杨俊安,刘辉,黄科举.采用双层强化学习的干扰决策算法[J].西安交通大学学报,2018,52(2):63-69. 被引量：13
9赵万宗,韦化,韦昌福,鲍海波.考虑市场力风险约束的最优AGC控制模型[J].电力自动化设备,2018,38(5):77-82. 被引量：2
10席磊,李玉丹,黄悦华,杨苹,许志荣.基于虚拟狼群控制策略的智能发电控制[J].中国电机工程学报,2018,38(10):2966-2979. 被引量：12

1李瑞.强化学习主要算法的研究[J].渝西学院学报（自然科学版）,2004,3(3):22-25. 被引量：1
2常峰,贺元骅.基于强化学习和蚁群算法的WSN节点故障诊断[J].计算机测量与控制,2015,23(3):755-758. 被引量：1
3安飞,林锦国,李俊.一种基于MPEG-1检测运动目标的方法[J].微计算机信息,2008(3):306-307.
4王志勃,毕艳茹.基于Sarsa算法和蚁群优化的监测网络路由控制设计[J].计算机测量与控制,2014,22(10):3327-3329. 被引量：2
5何宏,李宇,张志宏.基于图像识别的爬壁机器人的路径规划[J].工业技术创新,2015,2(3):267-271. 被引量：1
6陈功,周谊成,王辉.基于强化学习TD算法的乒乓游戏击球策略优化[J].电脑知识与技术,2011,7(10):6926-6927.
7李学勇,欧阳柳波,李国徽.基于隐偏向信息学习的强化学习算法[J].南华大学学报（理工版）,2004,18(2):10-16. 被引量：4
8殷苌茗,付超红,薛丽华,李立云.基于组合神经网络的Sarsa(λ)学习算法[J].计算机工程与设计,2008,29(22):5817-5819.
9胡雯蔷,徐筱龙,徐国华.基于小脑模型关节控制器的水下机械手复合运动控制的研究及仿真[J].中国机械工程,2008,19(16):1891-1894. 被引量：3
10仲宇,顾国昌,张汝波.多智能体系统中的分布式强化学习研究现状[J].控制理论与应用,2003,20(3):317-322. 被引量：12

电子科技

2011年第1期

浏览历史

内容加载中请稍等...

强化学习的模型、算法及应用被引量：9

参考文献6

同被引文献79

引证文献9

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

强化学习的模型、算法及应用 被引量：9

参考文献6

同被引文献79

引证文献9

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

强化学习的模型、算法及应用被引量：9