面向多目标参数整定的协同深度强化学习方法被引量：2

Collaborative Deep Reinforcement Learning Method for Multi-Objective Parameter Tuning

下载PDF

导出

摘要多目标控制参数联合优化整定是自动化系统保持高效、稳定运行的关键问题,强化学习常用于建立自动化调参智能体,代替人工完成参数整定.针对现有方法使用固定权重将多个优化目标线性组合为单目标,训练具有固定调参知识的单智能体模型,导致实际目标关系受环境影响与先验不符时,智能体无法感知并做出适应性决策调整,限制参数整定效果的问题,提出一种面向多目标参数整定的协同深度强化学习方法.该方法利用离线仿真学习目标整定知识建立多个Double-DQN智能体,在线建立整定效果反馈,感知目标实际关系并调整智能体协同策略,实现有效的多目标参数整定.列车自动驾驶参数整定实验结果表明,方法对停车误差、舒适度两个目标整定效果良好,能自适应不同车轨性能且可持续优化,实用价值大. The joint optimization and tuning of multi-objective control parameters is a key issue for the automation system to maintain efficient and stable operation. Reinforcement learning is often used to establish an automated parameter adjustment agent which can replace experts to complete parameter tuning. Existing methods use fixed weights to linearly combine multiple optimization objectives into a single objective and train a single agent model with fixed tuning knowledge, making the actual objective relationship do not match the initialization, the agent can’t perceive and make adaptive decision-making adjustments, limiting the effect of parameter tuning. To solve the problem, a collaborative deep reinforcement learning method was proposed for multi-objective parameter tuning. Firstly, an offline simulation was used to learn objective tuning knowledge and to establish multiple Double-DQN agents. Then tuning effect feedback was established online to perceive the actual relationship between the objectives and adjust the agents’ coordination strategy to achieve effective multi-objective parameter tuning. The experimental results of automatic train operation parameter tuning show that the proposed method presents better effect on the two goals of parking error and comfort, adapting to different track performance and continue optimization, processing great practical value.

作者罗森林魏继勋刘晓双潘丽敏 LUO Senlin;WEI Jixun;LIU Xiaoshuang;PAN Limin(School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,China)

机构地区北京理工大学信息与电子学院

出处《北京理工大学学报》 EI CAS CSCD 北大核心 2022年第9期969-975,共7页 Transactions of Beijing Institute of Technology

关键词参数整定多目标强化学习自动化系统协同 parameter tuning multi-objective reinforcement learning automation system coordination

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献6

1林闯,陈莹,黄霁崴,向旭东.服务计算中服务质量的多目标优化模型与求解研究[J].计算机学报,2015,38(10):1907-1923. 被引量：42
2吕天佟,王登峰,王传青.隐式参数化白车身多目标协同优化设计[J].北京理工大学学报,2019,39(5):447-453. 被引量：18
3张之得,王正杰,郝智渊.基于数据驱动的小型柔性翼飞行器控制研究[J].北京理工大学学报,2021,41(2):177-185. 被引量：3
4张栋良,李帅位,黄昕宇,陈璞.VMD参数优化及其在轴承故障特征提取中的应用[J].北京理工大学学报,2019,39(8):846-851. 被引量：9
5祝亢,黄珍,王绪明.基于深度强化学习的智能船舶航迹跟踪控制[J].中国舰船研究,2021,16(1):105-113. 被引量：33
6甄岩,郝明瑞.基于深度强化学习的智能PID控制方法研究[J].战术导弹技术,2019,0(5):37-43. 被引量：14

二级参考文献107

1田浩彬,林建平,刘瑞同,许永超.汽车车身轻量化及其相关成形技术综述[J].汽车工程,2005,27(3):381-384. 被引量：58
2侯忠生.无模型自适应控制的现状与展望[J].控制理论与应用,2006,23(4):586-592. 被引量：139
3Zhang L J, Zhang J, Cai H. Services Computing. Beijing: Springer and Tsinghua University Press, 2007.
4Li Y, Lin C. QoS-aware service composition for workflow- based data-intensive applieations//Proceedings of the 2011 IEEE International Conference on Web Services (ICWS 2011). Washington, USA, 2011:452-459.
5Boyd S, Vandenberghe L. Convex Optimization. Cambridge, UK: Cambridge University Press, 2004.
6Cormen T H, Leiserson C E, Rivest R L, Stein C. Introduction to Algorithms. MIT, USA: MIT Press, 2005.
7Wada H, Champrasert P, Suzuki J, Oha K. Multiobjectrve optimization of SLA-aware service composition//Proceedings of the IEEE Congress on Services. Honolulu, USA, 2008: 368-375.
8Zhou Z, Liu F, Jin H, et al. On arbitrating the power- performance tradeoff in SaaS clouds//Proceedings of the IEEE INFOCOM 2013. Turin, Italy, 2013:872-880.
9Leitner P, Hummer W, Satzger B, et al. Cost-efficient and application SLA-aware client side request scheduling in an infrastructure-as-a-service cloud//Proceedings of the 2012 IEEE 5th International Conference on Cloud Computing (CLOUD 2012). Honolulu, USA, 2012:213-220.
10Kong X, Lin C, Jiang Y, et al. Efficient dynamic task scheduling in virtualized data centers with fuzzy prediction. Journal of Network and Computer Applications, 2011, 34(4) : 1068-1077.

共引文献113

1林继.基于智能控制的PID控制方式的分析[J].冶金管理,2020(23):67-68. 被引量：3
2李晓敏,秦晓卫.基于演化LSTM神经网络的用户终端睡眠预测模型[J].计算机系统应用,2020,29(11):196-203. 被引量：1
3刘芳正,马博闻,吕博枫,黄霁崴.一种面向移动边缘计算的无人机基站部署方法[J].计算机科学,2022,49(S02):848-854. 被引量：5
4卢剑虹.二滩水电站厂房进水口0号桥预应力梁的锚索施工[J].水电站设计,2000,16(1):104-106.
5马艳芳,闫芳,康凯,李宗敏.不确定同时取送货车辆路径问题及粒子群算法研究[J].运筹与管理,2018,27(12):73-83. 被引量：29
6李磊,王志国.物联网下离散制造系统PLM集成操控平台浅析[J].安徽工程大学学报,2015,30(4):79-83.
7郭继联.基于机会协作的动漫产业网络大数据处理系统设计[J].现代电子技术,2016,39(9):41-43. 被引量：3
8Chuang LIN,Chao XUE.Multi-objective evaluation and optimization on trustworthy computing[J].Science China(Information Sciences),2016,59(10):238-240.
9程子敬,赵俊楠,崔玉文,石乐义.基于纳什议价解的地外驻留平台网络可靠性与效用代价分析[J].通信学报,2017,38(2):10-15.
10徐进,黄勃,冯炯.基于消息通信的分布式系统最终一致性平台[J].计算机应用,2017,37(4):1157-1163. 被引量：13

同被引文献17

1张儒峰,李雪,姜涛,陈厚合.城市综合能源系统韧性评估与提升综述[J].全球能源互联网,2021,4(2):122-132. 被引量：21
2王崑声,詹海潭,经小川,李宁,张刚.航天嵌入式软件运行时错误静态分析方法[J].北京理工大学学报,2013,33(2):160-165. 被引量：7
3王英瑞,曾博,郭经,史佳琪,张建华.电–热–气综合能源系统多能流计算方法[J].电网技术,2016,40(10):2942-2950. 被引量：186
4杨丽君,吕雪姣,李丹,卢志刚.基于多代理系统的主动配电网多故障动态修复策略研究[J].中国电机工程学报,2017,37(23):6855-6865. 被引量：23
5胡涛,马晨辉,申立群,梁洁.基于蚁群算法的测试任务调度优化方法[J].兵工学报,2019,40(6):1310-1316. 被引量：11
6许寅,和敬涵,王颖,李佳旭,李长城.韧性背景下的配网故障恢复研究综述及展望[J].电工技术学报,2019,34(16):3416-3429. 被引量：141
7郇嘉嘉,隋宇,张小辉.综合能源系统级联失效及故障连锁反应分析方法[J].电力建设,2019,40(8):84-92. 被引量：11
8刘国静,吕风波,赵宏大,李冰洁,贡晓旭,史梓男.基于N-1准则的变电站储能容量优化配置模型及方法[J].电网与清洁能源,2019,35(12):54-59. 被引量：11
9杨海柱,李梦龙,江昭阳,刘向阳,郭一鸣.考虑需求侧电热气负荷响应的区域综合能源系统优化运行[J].电力系统保护与控制,2020,48(10):30-37. 被引量：100
10Xinyi Jiang,Jian Chen,Ming Chen,Zhen Wei.Multi-stage Dynamic Post-disaster Recovery Strategy for Distribution Networks Considering Integrated Energy and Transportation Networks[J].CSEE Journal of Power and Energy Systems,2021,7(2):408-420. 被引量：18

引证文献2

1龚贤夫,梁秀壮,廖晖,彭勃,唐文虎.考虑集中式新能源接入的综合能源系统韧性提升研究[J].广东电力,2023,36(11):75-86. 被引量：10
2邹渊,马文斌,张旭东,翟建阳,张兆龙.基于AUTOSAR的汽车控制器软件优化部署研究[J].北京理工大学学报,2024,44(11):1192-1198. 被引量：1

二级引证文献11

1吴佳毅,徐峰,郑燃,潘武略.基于TT变换谐波显著化的双馈新能源场站送出线故障性质识别方法[J].广东电力,2024,37(6):32-42. 被引量：1
2管霖,陈鎏凯,陈灏颖,李永哲.考虑新能源随机性的新型电力系统图深度学习稳定指标概率分布评估模型[J].南方电网技术,2024,18(7):118-128. 被引量：2
3黄新宝.智能电网中的电力工程技术应用[J].集成电路应用,2024,41(8):246-247. 被引量：1
4赵星源,谢芳毅,刘乙学,陈昉,崔建华,韩少峰,何青.压气储能电站智能建造体系及其关键技术[J].发电技术,2024,45(5):899-909. 被引量：8
5李浩然,姚方,宋显锦.计及源荷不确定性的综合能源系统协同优化策略[J].分布式能源,2024,9(5):32-40. 被引量：8
6侯慧,王燕,刘超,张炜,周杨珺,LI Zhengmao,李正天,林湘宁.抽水蓄能灰启动下冷热电互补综合能源系统优化调度[J].发电技术,2025,46(2):209-218. 被引量：1
7蔡敬寿,邓志辉,张钰涵,戴浩楠,张贵风.含干热岩发电系统及热储装置的新能源电站参与日前市场调度收益分析[J].湖北电力,2024,48(6):21-28.
8和学豪,周寒英,马朋飞,蔡云帆,陈卓,徐宪东.考虑电网连续调控需求的集群温控负荷灵活性恢复控制[J].电力系统及其自动化学报,2025,37(7):12-21.
9张旭东,何劲涛,张涛,邹渊,孙介东,袁博艺.基于虚拟化方法的车辆架构测试技术研究[J].北京理工大学学报,2025,45(8):815-823. 被引量：1
10徐澄莹,杨军,窦真兰,张宇威,朱旭.基于数据驱动鲁棒优化的配电网与微网级综合能源系统日内滚动调度技术研究[J].武汉大学学报(工学版),2025,58(8):1206-1216. 被引量：3

1舒斯亮,柳键.需求扰动下物流服务商参与的不同权力结构产品供应链应急决策[J].系统工程,2022,40(3):107-116. 被引量：5
2赵春荣.服务贸易与国际物流的协同发展分析[J].全国流通经济,2022(19):20-23. 被引量：2
3阳卫,吴汉,李霞,李光明,杨茂立.单容水箱液位PID控制参数整定优化[J].中国科技信息,2022(17):102-105. 被引量：2
4刘华,卫文韬,李泽珩.面向多目标意象设计的产品基因调控网络构建方法[J].机械设计,2022,39(7):129-134. 被引量：3
5谢启苗,郭帅帅.基于社会力模型的客船人员疏散仿真研究[J].系统仿真学报,2022,34(8):1710-1724. 被引量：7
6徐志雄,王锋.基于元权值学习方法的智能博弈对抗研究[J].军事运筹与评估,2022,37(3):31-36. 被引量：3
7黄子钊,庄子龙,滕浩,秦威,秦涛,邹鹰.自动化码头出口箱箱位分配优化超启发式算法[J].计算机集成制造系统,2022,28(8):2619-2632. 被引量：12
8赵聪,张昕源,李兴华,杜豫川.基于多智能体深度强化学习的停车系统智能延时匹配方法[J].中国公路学报,2022,35(7):261-272. 被引量：5
9周子涵,卜广全,王国政,马士聪.基于数据空间可靠域的多智能体互补电力系统暂态稳定评估[J].中国电机工程学报,2022,42(15):5471-5483. 被引量：11
10赵瑶瑶,周天.一种多通道综合回波信号模拟器设计[J].武汉职业技术学院学报,2022,21(4):103-109.

北京理工大学学报

2022年第9期

浏览历史

内容加载中请稍等...

面向多目标参数整定的协同深度强化学习方法被引量：2

参考文献6

二级参考文献107

共引文献113

同被引文献17

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

面向多目标参数整定的协同深度强化学习方法 被引量：2

参考文献6

二级参考文献107

共引文献113

同被引文献17

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

面向多目标参数整定的协同深度强化学习方法被引量：2