基于样本独特性的强化学习经验回放机制

Reinforcement Learning Experience Replay Mechanism Based on Sample Distinctiveness

下载PDF

导出

摘要在深度强化学习领域,特别是在高维连续的任务中,如何高效利用有限的训练数据,避免过拟合,同时提高模型的泛化能力,是一个重要的研究课题.传统的强化学习算法通常采用单一经验池机制,这种方法在处理高维连续状态和动作空间时,往往面临探索效率低下和样本利用率不足的问题.一种基于样本独特性的强化学习经验回放机制DER(distinctive experience replay)被提出,该机制通过选择具有显著独特性的样本进行经验回放,DER的核心思想是在训练过程中识别并选择具有显著独特性的样本,将其存储在专门的独特性样本经验池中.该机制不仅能够有效利用多样化的样本,避免神经网路过拟合,还能提高智能体在复杂环境中的学习效率和决策质量.实验结果表明,DER在经典强化学习环境中显著提高了智能体的学习效率和最终性能. In the field of deep reinforcement learning,particularly for high-dimensional continuous tasks,efficiently utilizing limited training data,preventing overfitting,and enhancing the model’s generalization ability are crucial research challenges.Traditional reinforcement learning algorithms typically rely on a single experience replay buffer,which often faces low exploration efficiency and insufficient sample utilization,when applied to high-dimensional continuous state and action spaces.A reinforcement learning experience replay mechanism based on sample distinctiveness called distinctive experience replay(DER)is proposed.This mechanism selects samples with notable distinctiveness for experience replay.The core concept of DER is to identify and select significantly distinctive samples during training and store them in a dedicated experience pool.This mechanism not only effectively utilizes diverse samples to prevent neural network overfitting but also enhances the agent’s learning efficiency and decision-making quality in complex environments.Experimental results show that DER significantly improves the agent’s learning efficiency and final performance in classic reinforcement learning environments.

作者周梓芸孔燕 ZHOU Zi-Yun;KONG Yan(School of Software,Nanjing University of Information Science&Technology,Nanjing 210044,China)

机构地区南京信息工程大学软件学院

出处《计算机系统应用》 2025年第8期228-236,共9页 Computer Systems & Applications

关键词深度强化学习经验回放样本效率双经验池机制 deep reinforcement learning experience replay sample efficiency dual experience replay mechanism

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1张峻伟,吕帅,张正昊,于佳玉,龚晓宇.基于样本效率优化的深度强化学习方法综述[J].软件学报,2022,33(11):4217-4238. 被引量：16

二级参考文献5

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：563
2刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：161
3李跃,邵振洲,赵振东,施智平,关永.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020,56(2):226-232. 被引量：14
4杨珉,汪洁.解决深度探索问题的贝叶斯深度强化学习算法[J].计算机科学与探索,2020,14(2):307-316. 被引量：8
5杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：51

共引文献15

1曹凯,朱勇,高强,刘金华.深度强化学习在自动控制领域研究现状与展望[J].排灌机械工程学报,2023,41(6):638-648. 被引量：10
2马里佳,洪华平,林秋镇,李坚强,公茂果.基于演化深度强化学习的符号网络影响最大化研究[J].软件学报,2023,34(11):5084-5112.
3王少桐,况立群,韩慧妍,熊风光,薛红新.基于优势后见经验回放的强化学习导航方法[J].计算机工程,2024,50(1):313-319. 被引量：3
4毕聪博,唐聿劼,罗永红,陆超.电力系统优化控制中强化学习方法应用及挑战[J].中国电机工程学报,2024,44(1):1-21. 被引量：25
5辛沅霞,华道阳,张犁.基于智能规划的多智能体强化学习算法[J].计算机科学,2024,51(5):179-192. 被引量：5
6王璠,王晓淋.基于深度强化学习的水库群供水优化调度研究[J].水利技术监督,2024(7):198-202. 被引量：3
7吕相霖,臧兆祥,李思博,邹耀斌.基于内在好奇心与自模仿学习的探索算法[J].现代电子技术,2024,47(16):137-144.
8周毅,高华,田永谌.基于裁剪优化和策略指导的近端策略优化算法[J].计算机应用,2024,44(8):2334-2341.
9董绍康,李超,杨光,葛振兴,曹宏业,陈武兵,杨尚东,陈兴国,李文斌,高阳.混合博弈问题的求解与应用综述[J].软件学报,2025,36(1):107-151. 被引量：5
10李东颖,朱建全,陈一熙.基于双缓冲区生成对抗模仿学习的电力系统实时安全约束经济调度[J].电网技术,2025,49(3):1121-1129. 被引量：5

1刘鸿梁,易亮,周小虎.基于神经网络的齿轮故障诊断原理综述[J].机械管理开发,2025,40(5):67-70. 被引量：1
2佘蕊,崔恩放,武宇亭,黄志兰.面向NOMA-MEC系统的异构计算能效优化策略研究[J].北京邮电大学学报,2025,48(2):133-143.
3黄举华,谭华伟,何孝崇,皮星.城乡居民普通门诊统筹层次提升的费用效应[J].中国卫生经济,2025,44(7):40-44.
4第轩,肖旺,王庆锋,宋运锋.基于多模型融合的轴承剩余寿命预测方法[J].计算机集成制造系统,2025,31(7):2412-2424. 被引量：3
5郝淑玲.R统计量及其应用[J].统计与决策,2025,41(15):18-23.
6危玲玲,高丙成,赵丽强.依托幼儿园优质资源释放,助力托育服务高质量发展[J].今日教育(幼教金刊),2025(7):30-34.
7杨瑞,张海清,李代伟,陈金京,任李娟,刘佳璇.融合边界和密度的时序不平衡过采样算法[J].计算机工程与设计,2025,46(8):2178-2185.
8李永胜,许夏琳,徐政.高质量城乡融合推进中国式现代化:理论逻辑与实践路径[J].农村经济,2025(4):12-21. 被引量：10
9余奇,张鑫浩,赵才友,王平.用于低频隔声的类Fano共振型声学超材料设计[J].复合材料学报,2025,42(5):2731-2741.

计算机系统应用

2025年第8期

浏览历史

内容加载中请稍等...

基于样本独特性的强化学习经验回放机制

参考文献1

二级参考文献5

共引文献15

相关作者

相关机构

相关主题

浏览历史