基于一般化斜投影的异策略时序差分学习算法被引量：4

Off-policy linear temporal difference learning algorithms with a generalized oblique projection

下载PDF

导出

摘要在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种一般化的斜投影算子.基于此推导出两种残差时序差分学习算法,并给出了这两种算法在异策略下的收敛性证明.在著名的Baird的异策略反例实验上,与相关算法进行了对比,实验结果验证了所提算法的正确性和有效性. In the case of linear value function approximated reinforcement learning,it is meaningful to do research on off-policy algorithms to get a better balance on explore-exploit trade-off.In recent years,Sutton et al proposed offpolicy gradient temporal difference learning algorithms,which possess good properties in speed and convergence.The main contribution of this paper is proposing ageneralized oblique projection framework,which utilizes the weighted sum of two projections,so as to derive off-policy temporal difference learning algorithms with a generalized oblique projection.To derive a good algorithm,methods of Temporal Difference fixed-point and Bellman residual are widely used.However,they can be viewed as oblique projections of the true value function,therefore these two projections are not optimal.This paper starts from understanding different algorithms from the view of projection,and proposes a kind of method to obtain a better projection,by generalizing a kind of oblique projection as the weighted sum of projections of these two projections.Further,to obtain convergent algorithms for off-policy setting,we extend thegeneralized projection based on the norm of expected TD update,and generates two kinds of objective functions.Employing the approach of stochastic gradient method,this paper derives two convergent off-policy linear residual Temporal Difference algorithms.To theoretically prove the convergence of our algorithms,we use the method of ordinary-differential-equation approach,which views iterations as ordinary differential equations,and tries to guarantee the stability of them.Experimental results on Baird＇s off-policy counterexample demonstrate the effectiveness of the proposed algorithms.Discussions on performance for different weight value parameters are given at last.

作者吴毓双陈筱语马静雯陈兴国

机构地区南京邮电大学贝尔英才学院南京邮电大学计算机学院南京大学计算机软件新技术国家重点实验室

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2017年第6期1052-1062,共11页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(61403208) 南京大学计算机软件新技术国家重点实验室开放课题(KFKT2016B04) 南京邮电大学引进人才科研启动基金(NY214014)

关键词强化学习线性函数估计斜投影异策略时序差分学习 reinforcement learning, linear function approximation, oblique projection, off-policy, temporaldifference learning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：300

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献299

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：11
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献48

1厉海涛,金光,周经伦,周忠宝,李大庆.贝叶斯网络推理算法综述[J].系统工程与电子技术,2008,30(5):935-939. 被引量：58
2方琼,杨壮,舒毅.PBT网络的保护方式研究[J].光通信技术,2009,33(3):22-24. 被引量：1
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4王庆文,史浩山,戚茜.Ad Hoc网络Q学习稳定蚁群路由算法[J].哈尔滨工业大学学报,2012,44(7):120-125. 被引量：6
5吴静,刘德学.生产片断化与经济波动的国际协同效应——基于中国省际面板数据的实证研究[J].当代经济科学,2013,35(3):82-86. 被引量：3
6李芳芳,刘栋,高宪文,于戈.基于多目标规划的WSN路径动态选择算法[J].东北大学学报（自然科学版）,2013,34(8):1082-1085. 被引量：8
7杜传忠,王鑫,刘忠京.制造业与生产性服务业耦合协同能提高经济圈竞争力吗?——基于京津冀与长三角两大经济圈的比较[J].产业经济研究,2013(6):19-28. 被引量：92
8陈军,岳意定.中国区域产业集聚与产业转移——基于空间经济理论的分析[J].系统工程,2013,31(12):92-97. 被引量：3
9张岩,兰巨龙,王鹏,胡宇翔.一种基于马尔科夫决策过程的多态路由派生方法[J].电信科学,2015,31(6):64-70. 被引量：2
10冯陈伟,张璘.一种基于Q学习的网络接入控制算法[J].计算机工程,2015,41(10):99-104. 被引量：5

引证文献4

1王月娟,张苏宁,吴水明,朱斐.基于秩的Q-路由选择算法[J].计算机与现代化,2018(10):1-5. 被引量：3
2谭晓军,何建佳,王维祺.基于Q-Learning算法的产业互联协同调度研究[J].工业工程与管理,2021,26(6):171-178. 被引量：2
3陈兴国,孙丁源昊,杨光,杨尚东,高阳.不动点视角下的强化学习算法综述[J].计算机学报,2023,46(6):1246-1271. 被引量：4
4陈兴国,吕咏洲,巩宇,陈耀雄.基于贝叶斯优化的强化学习广义不动点解逼近[J].山东大学学报（工学版）,2024,54(4):21-34.

二级引证文献9

1邹佰翰,张吉懿,苑晓兵.最短路径算法在计算机网络路由选择中的应用研究[J].电声技术,2020,44(2):59-60. 被引量：2
2黄鑫陈,陈光祖,郑敏,谭冲,刘洪.基于Q-learning的飞行自组织网络QoS路由方法[J].中国科学院大学学报（中英文）,2022,39(1):134-143. 被引量：6
3何建佳,廖耀文,周洋.基于产业互联网络节点创新要素的链路预测方法[J].计算机应用研究,2023,40(10):3028-3031. 被引量：1
4张超,赵冬梅,季宇,张颖.基于改进深度Q网络的虚拟电厂实时优化调度[J].中国电力,2024,57(1):91-100. 被引量：12
5任靖辉.强化学习技术在工业产品质检调度中的实践[J].自动化应用,2024,65(6):22-24.
6陈兴国,吕咏洲,巩宇,陈耀雄.基于贝叶斯优化的强化学习广义不动点解逼近[J].山东大学学报（工学版）,2024,54(4):21-34.
7刘甜甜,云红艳,单凯.SDN中基于强化学习的路由算法[J].青岛大学学报(自然科学版),2024,37(4):26-30.
8高嵩巍,黄亦琦.面向WSN环境的无线通信安全策略研究[J].长江信息通信,2024,37(12):37-39.
9黄升,岳一骁,王宏宇,祁升龙,李秀广,陈凯,姬雄策.高精度手持式SF_(6)气体密度测试仪的研制及应用[J].宁夏电力,2025(6):73-78.

1杨建楠.理想数学课堂的基础、核心和目标[J].教学与管理（中学版）,2017(11):57-59. 被引量：1
2韩永强,康微.抛物线中的一个结论及推广--浅析2017年高考全国卷芋理科第20题[J].试题与研究（教学论坛）,2017(28):31-32.
3陈伯孝,项喆,王睿智,晁淑媛.基于斜投影预处理的自适应波束形成方法[J].制导与引信,2017,38(2):18-24. 被引量：4
4张锋.巧设问题情境培养符号意识——以苏科版“代数式”教学为例[J].中学数学（初中版）,2017(11):29-31. 被引量：1
5郑慧军.三阶非线性边值问题的正解存在性与唯一性[J].数学的实践与认识,2017,47(17):307-312.
6王丽珍,张君灵.移动互联网环境下小学创客校本课程设计——以基于UMU平台的剪纸课程设计为例[J].中国信息技术教育,2017(24):75-79. 被引量：1
7王少鹏.浅谈绝对值函数在高考中的几种考查[J].中学数学（高中版）,2017(12):45-47. 被引量：1
8邵春芳,叶培新.斜投影算子Moore-Penrose逆的表示（英文）[J].南开大学学报（自然科学版）,2017,50(5):28-35. 被引量：1
9曹成玉.“守候”升格指导与示范[J].阅读与作文（高中版）,2017,0(12):36-37.
10王紫莲,李长吾,王智森.基于差分概率的信道衰落估计方法[J].大连工业大学学报,2017,36(6):449-454.

南京大学学报（自然科学版）

2017年第6期

浏览历史

内容加载中请稍等...

基于一般化斜投影的异策略时序差分学习算法被引量：4

参考文献1

二级参考文献4

共引文献299

同被引文献48

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于一般化斜投影的异策略时序差分学习算法 被引量：4

参考文献1

二级参考文献4

共引文献299

同被引文献48

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于一般化斜投影的异策略时序差分学习算法被引量：4