摘要
Q学习是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.将Q学习算法和BP神经网络有效结合,实现了状态未离散化的倒立摆的无模型学习控制.仿真表明:该方法不仅能成功解决确定和随机倒立摆模型的平衡控制,而且和Anderson[2]的AHC(AdaptiveHeuristicCritic)等方法相比,具有更好的学习效果.
出处
《自动化学报》
EI
CSCD
北大核心
1998年第5期662-666,共5页
Acta Automatica Sinica
基金
国家自然科学基金