基于滑动窗口的非稳态环境Q⁃learning算法改进

下载PDF

导出

摘要 Q学习(Q⁃learning)算法是强化学习领域最经典的算法之一,与在其基础上构建的多种算法凭借低计算资源需求、高可解释性等独特优势,在静态环境下的学习问题中表现良好。然而,在更贴合实际的非稳态环境下,Q⁃learning算法面临收敛速率降低、收敛过程稳定性差等问题。本研究提出了一种基于指数衰减滑动窗口的Q⁃learning算法,通过引入监控窗口机制,提高智能体对策略效果变化的敏感性,并通过动态调整探索率使智能体适应环境变化,从而优化传统Q⁃learning算法在非稳态环境中的收敛性能。在改进的MountainCar环境中的对比实验结果表明,相比传统Q⁃learning算法,改进算法在应对环境随机性时具有显著优势,适应性与稳定性均有显著提升。

作者王文杰

机构地区郑州大学计算机与人工智能学院、软件学院

出处《信息记录材料》 2025年第11期70-72,共3页 Information Recording Materials

关键词强化学习 Q学习非稳态环境滑动窗口

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1王小康,冀杰,刘洋,贺庆.基于改进Q学习算法的无人物流配送车路径规划[J].系统仿真学报,2024,36(5):1211-1221. 被引量：15
2余欣磊,周贤文,张依恋,顾伟.基于区间分块Q学习的智能车辆安全舒适刹车算法[J].计算机应用研究,2024,41(1):183-187. 被引量：3
3赵振根,程磊.基于增量式Q学习的固定翼无人机跟踪控制性能优化[J].控制与决策,2024,39(2):391-400. 被引量：5
4Jin ZHU,Yutong WEI,Yu KANG,Xiaofeng JIANG,Geir E.DULLERUD.Adaptive deep reinforcement learning for non-stationary environments[J].Science China(Information Sciences),2022,65(10):221-237. 被引量：5

二级参考文献26

1江琼,陈怀民,吴佳楠.H_∞鲁棒控制与PID控制相结合的无人机飞行控制研究[J].宇航学报,2006,27(2):192-195. 被引量：20
2刘燕斌,陆宇平.基于反步法的高超音速飞机纵向逆飞行控制[J].控制与决策,2007,22(3):313-317. 被引量：39
3王美仙,李明,张子军.飞行器控制律设计方法发展综述[J].飞行力学,2007,25(2):1-4. 被引量：29
4CHEN ChunLin,DONG DaoYi,LI Han-Xiong,TARN Tzyh-Jong.Hybrid MDP based integrated hierarchical Q-learning[J].Science China(Information Sciences),2011,54(11):2279-2294. 被引量：9
5Xin MA,Ya XU,Guo-qiang SUN,Li-xia DENG,Yi-bin LI.State-chain sequential feedback reinforcement learning for path planning of autonomous mobile robots[J].Journal of Zhejiang University-Science C(Computers and Electronics),2013,14(3):167-178. 被引量：5
6Qing-Shan JIA,Junjie WU.On distributed event-based optimization for shared economy in cyber-physical energy systems[J].Science China(Information Sciences),2018,61(11):7-9. 被引量：4
7李百明.汽车追尾预警系统设计[J].机电技术,2015,38(6):126-127. 被引量：3
8黄志芳,宋世杰,陈泽锐,饶皆昌,何梓杰,甘海杰.汽车智能防撞系统[J].物联网技术,2020,10(5):67-69. 被引量：2
9Fukui TIAN,Chuanchuan YANG.Deep belief network-hidden Markov model based nonlinear equalizer for VCSEL based optical interconnect[J].Science China(Information Sciences),2020,63(6):151-159. 被引量：1
10黄志清,曲志伟,张吉,张严心,田锐.基于深度强化学习的端到端无人驾驶决策[J].电子学报,2020,48(9):1711-1719. 被引量：24

共引文献24

1Xinze JIN,Kuo LI,Qingshan JIA.Constrained reinforcement learning with statewise projection:a control barrier function approach[J].Science China(Information Sciences),2024,67(3):132-150.
2卢锦澎,梁宏斌.基于深度Q网络的机器人路径规划研究综述[J].传感器与微系统,2024,43(6):1-5. 被引量：10
3龚雪,彭鹏菲,荣里,郑雅莲,姜俊.基于深度强化学习的任务分析方法[J].系统仿真学报,2024,36(7):1670-1681.
4熊鑫立,黄郡,姚倩.基于Cheat-FlipIt博弈的网络安全对抗建模与分析[J].信息对抗技术,2024,3(4):63-80. 被引量：1
5Yu KANG,Jian DI,Ming LI,Yunbo ZHAO,Yuhui WANG.Autonomous multi-drone racing method based on deep reinforcement learning[J].Science China(Information Sciences),2024,67(8):31-44. 被引量：1
6QIAO Nan,LI Tao.Data-Driven Direct Adaptive Risk-Sensitive Control of Stochastic Systems[J].Journal of Systems Science & Complexity,2024,37(4):1446-1469.
7王兴旺,张清杨,姜守勇,董永权.基于改进黑翅鸢优化算法的动态无人机路径规划[J].计算机应用研究,2025,42(5):1401-1408. 被引量：2
8周林娜,蔡天赐,赵建国,熊梦辉,杨春雨.基于奇异摄动的复杂工业过程强化学习运行优化控制[J].控制与决策,2025,40(5):1581-1589. 被引量：1
9宋星星,储昭碧.基于非策略Q-learning的欺骗攻击下未知线性离散系统最优跟踪控制[J].控制与决策,2025,40(5):1641-1650.
10王鼎,赵明明,刘德荣,乔俊飞,宋世杰.数据驱动自适应评判控制研究进展[J].自动化学报,2025,51(6):1170-1190.

1陈喜群,朱奕璋,谢宁珂,耿茂思,吕朝锋.基于异构多智能体自注意力网络的路网信号协调顺序优化方法[J].交通运输系统工程与信息,2024,24(3):114-126. 被引量：3
2陈海萍.甘肃省酒泉市肃州区特色农业产业结构调整探索[J].农业产业化,2025(9):24-26.
3宋建飞,姚文兵.适应产业发展的高等教育专业动态调整探索——以药学类专业为例[J].中国高等教育,2025(15):66-70.
4李明明.近10年我国铁路警务研究热点与趋势分析[J].现代城市轨道交通,2025(10):111-117.
5李家涛.新中国成立初期上海邮政组织体制调整初探(1949-1960)[J].上海经济研究,2025(8):118-128.

信息记录材料

2025年第11期

浏览历史

内容加载中请稍等...

基于滑动窗口的非稳态环境Q⁃learning算法改进

参考文献4

二级参考文献26

共引文献24

相关作者

相关机构

相关主题

浏览历史