摘要
Q学习(Q⁃learning)算法是强化学习领域最经典的算法之一,与在其基础上构建的多种算法凭借低计算资源需求、高可解释性等独特优势,在静态环境下的学习问题中表现良好。然而,在更贴合实际的非稳态环境下,Q⁃learning算法面临收敛速率降低、收敛过程稳定性差等问题。本研究提出了一种基于指数衰减滑动窗口的Q⁃learning算法,通过引入监控窗口机制,提高智能体对策略效果变化的敏感性,并通过动态调整探索率使智能体适应环境变化,从而优化传统Q⁃learning算法在非稳态环境中的收敛性能。在改进的MountainCar环境中的对比实验结果表明,相比传统Q⁃learning算法,改进算法在应对环境随机性时具有显著优势,适应性与稳定性均有显著提升。
出处
《信息记录材料》
2025年第11期70-72,共3页
Information Recording Materials