期刊文献+
共找到100篇文章
< 1 2 5 >
每页显示 20 50 100
一种基于状态聚类的SARSA(λ)强化学习算法 被引量:3
1
作者 李春贵 吴沧浦 刘永信 《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法... 为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数. 展开更多
关键词 sarsa(λ)强化学习算法 状态聚类 强化学习 函数近似 sarsa学习 人工神经网络
在线阅读 下载PDF
基于改进Sarsa算法的路径规划与障碍物还原
2
作者 刘艳菲 杨智超 《计算机与数字工程》 2025年第4期1086-1090,共5页
随着强化学习概念的普及,其已经逐步应用于智能体等移动通信设备。然而,智能体设备通信传输往往受到周围环境的干扰。路径规划可以有效改善智能体通信可靠性,但存在较多难点,因此智能体通信的路径规划问题已成为目前研究热点之一。论文... 随着强化学习概念的普及,其已经逐步应用于智能体等移动通信设备。然而,智能体设备通信传输往往受到周围环境的干扰。路径规划可以有效改善智能体通信可靠性,但存在较多难点,因此智能体通信的路径规划问题已成为目前研究热点之一。论文采用了较为经典的强化学习算法Sarsa对路径规划问题进行研究,并针对Sarsa算法效率低下等问题,提出了基于障碍物还原的改进Sarsa算法。针对路径规划问题,找出到达目标的最优路径。仿真结果表明,改进的Sarsa算法有效改进了智能体的运动路径及工作效率。 展开更多
关键词 强化学习 sarsa算法 路径规划
在线阅读 下载PDF
基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法 被引量:6
3
作者 肖飞 刘全 +2 位作者 傅启明 孙洪坤 高龙 《通信学报》 EI CSCD 北大核心 2013年第1期77-88,共12页
针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基... 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。 展开更多
关键词 强化学习 sarsa(λ) 梯度下降 势函数 塑造奖赏
在线阅读 下载PDF
一个因素化SARSA(λ)激励学习算法 被引量:8
4
作者 陈焕文 谢建平 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问... 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . 展开更多
关键词 激励学习 状态聚类 MDPs sarsa(λ)学习
在线阅读 下载PDF
在策略SARSA算法在互联电网CPS最优控制中的应用 被引量:16
5
作者 余涛 张水平 《电力系统保护与控制》 EI CSCD 北大核心 2013年第1期211-216,共6页
CPS标准下的互联电网的自动发电控制(AGC)系统是一个典型的不确定随机系统,提出一种新型应用于AGC系统的随机最优控制策略——基于SARSA算法的互联电网CPS最优控制策略。SARSA算法更多地考虑控制策略动作的花费,倾向于避开进入随机系统... CPS标准下的互联电网的自动发电控制(AGC)系统是一个典型的不确定随机系统,提出一种新型应用于AGC系统的随机最优控制策略——基于SARSA算法的互联电网CPS最优控制策略。SARSA算法更多地考虑控制策略动作的花费,倾向于避开进入随机系统中搜索一些危险的状态,相对于离策略(off-policy)的Q学习算法,在策略(on-policy)SARSA算法的学习试错过程中对受控系统影响更小。仿真结果表明,基于SARSA算法的CPS控制器较Q学习算法有更好的鲁棒性和适应性,能够获得更佳的CPS指标。 展开更多
关键词 随机控制 自动发电控制 CPS标准 sarsa算法 强化学习
在线阅读 下载PDF
一种最大集合期望损失的多目标Sarsa(λ)算法 被引量:3
6
作者 刘全 李瑾 +2 位作者 傅启明 崔志明 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2013年第8期1469-1473,共5页
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练... 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 展开更多
关键词 多目标 自适应sarsa(λ) 最大集合期望损失 强化学习 机器人足球
在线阅读 下载PDF
多步截断SARSA强化学习算法 被引量:5
7
作者 李春贵 林海涛 刘永信 《广西工学院学报》 CAS 2002年第1期1-4,共4页
提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)
关键词 强化学习 MARKOV决策过程 Q学习 SQRSA学习 机器学习 多步截断sarsa强化学习算法
在线阅读 下载PDF
基于Sarsa算法的城轨列车节能控制策略研究 被引量:3
8
作者 孟建军 蒋小一 +1 位作者 陈晓强 胥如迅 《铁道标准设计》 北大核心 2024年第8期8-14,共7页
针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连... 针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连续的驾驶过程分为若干个子区间进行分段求解。结合区间限速、初始状态、终末状态等限制条件,基于能耗及运行时间分别构造适当的奖励函数。同时,用当前状态下可达的最大速度与最小速度对可选速度集合进行限制,缩小探索空间,加快算法收敛。最后,通过对北京铁路亦庄线小红门站至肖村站的实例进行仿真。实验结果表明,与传统的动态规划方法相比,Sarsa算法在满足舒适性和准时性要求的情况下节能9.32%。相比于强化学习中的Q学习算法,在速度的选取过程中,超速次数也有明显下降。仿真结果证明Sarsa算法具有更好的节能效果和安全性。在算法参数不变的情况下,调整限速条件,与传统动态规划算法进行二次对比,依旧节能4.21%,验证了算法的鲁棒性。 展开更多
关键词 城市轨道交通 节能 强化学习 sarsa算法 控制策略
在线阅读 下载PDF
基于SARSA(λ)算法的单路口交通信号学习控制 被引量:3
9
作者 李春贵 阳树洪 +1 位作者 王萌 张增芳 《广西工学院学报》 CAS 2008年第2期10-14,共5页
针对复杂的、难以建模的城市交通系统,将多步强化学习算法SARSA(λ)应用于交通信号控制,根据实时的交通状态信息动态进行决策,自动适应环境以便取得更好的控制效果。由于问题状态空间太大而难以直接存储和表示,采用径向基函数神经网络... 针对复杂的、难以建模的城市交通系统,将多步强化学习算法SARSA(λ)应用于交通信号控制,根据实时的交通状态信息动态进行决策,自动适应环境以便取得更好的控制效果。由于问题状态空间太大而难以直接存储和表示,采用径向基函数神经网络进行值函数近似,通过训练自适应非线性处理单元,可达到较好的近似表示效果,解决了单个十字交叉路口的交通信号控制问题。对该方法进行仿真实验,结果表明其控制效果明显优于传统的固定配时控制策略。 展开更多
关键词 sarsa算法 值函数近似 径向基函数神经网络 交通信号 学习控制
在线阅读 下载PDF
一种新的基于值函数迁移的快速Sarsa算法 被引量:3
10
作者 傅启明 刘全 +2 位作者 尤树华 黄蔚 章晓芳 《电子学报》 EI CAS CSCD 北大核心 2014年第11期2157-2161,共5页
知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息... 知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度.基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法——VFT-Sarsa.该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习.将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度. 展开更多
关键词 强化学习 VFT-sarsa算法 自模拟度量 值函数迁移
在线阅读 下载PDF
一种集成规划的SARSA(λ)强化学习算法 被引量:2
11
作者 李春贵 吴沧浦 刘永信 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第3期325-327,共3页
提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出... 提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出了在学习和规划之间的量化折中参考 .实验结果表明 ,本算法比单纯的无模型学习SARSA(λ) 展开更多
关键词 强化学习 MARKOV决策过程 sarsa学习 规划
在线阅读 下载PDF
基于量子粒子群和SARSA算法的蜂窝网络信道分配 被引量:4
12
作者 柴旭清 孙丽娜 《计算机测量与控制》 2015年第10期3555-3557,共3页
为了对蜂窝网络的信道进行在线、实时和动态的分配,设计了一种基于量子粒子群算法和SARSA算法的蜂窝网络信道分配方法;采用分配方案表示量子粒子的位置,通过粒子群在粒子空间中不断寻优,将寻求的最优粒子位置作为信道分配方案的初始解;... 为了对蜂窝网络的信道进行在线、实时和动态的分配,设计了一种基于量子粒子群算法和SARSA算法的蜂窝网络信道分配方法;采用分配方案表示量子粒子的位置,通过粒子群在粒子空间中不断寻优,将寻求的最优粒子位置作为信道分配方案的初始解;在此基础上,根据得到的初始解的目标值来计算各状态动作对处的初始Q值,在此基础上,通过加入资格迹的SARSA(λ)算法和ε—greedy策略得到改进的SARSA(λ)算法,执行算法直到各状态动作对的Q值不发生变化为止,此时最终解为信道分配方案;采用具有30个小区的移动蜂窝网络进行实验,仿真实验结果表明文中方法能实现蜂窝通信网络中信道的在线分配,是一种有效的信道分配方法。 展开更多
关键词 信道分配 蜂窝网络 sarsa算法 收敛 粒子群
在线阅读 下载PDF
基于5要素试错更新算法SARSA(λ)的自动发电控制 被引量:2
13
作者 余涛 张水平 《控制理论与应用》 EI CAS CSCD 北大核心 2013年第10期1246-1251,共6页
本文提出了一种基于5要素试错更新算法SARSA(λ)强化学习的随机最优自动发电控制方法.该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略.以控制性能标准(control performance standards,CPS)和区域控制偏差(areal con... 本文提出了一种基于5要素试错更新算法SARSA(λ)强化学习的随机最优自动发电控制方法.该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略.以控制性能标准(control performance standards,CPS)和区域控制偏差(areal control error,ACE)瞬时滚动值为基础设计了即时奖励函数,有效提高了该方法的收敛速度和控制效果,并在算法中融入了资格迹以解决二次调频过程的延时问题.本文所提出的控制方法在进行状态空间搜索时,能有效摆脱避免搜索较大扰动状态,以此获得更佳的控制效果.标准两区域和南方电网仿真模型研究表明,本算法能给系统提供更加安全的控制策略,具有比Q(λ)算法更好的控制性能,有效提高CPS考核的合格率. 展开更多
关键词 sarsa(λ)算法 自动发电控制 强化学习 控制性能标准(CPS)
在线阅读 下载PDF
基于SARSA算法的水库长期随机优化调度研究 被引量:12
14
作者 李文武 张雪映 +1 位作者 Daniel Eliote Mbanze 吴巍 《水电能源科学》 北大核心 2018年第9期72-75,共4页
针对水库长期随机调度的维数灾问题,在描述来水随机过程的基础上,提出基于强化学习理论的水库长期随机优化调度模型。采用机器学习中有模型的SARSA算法,且考虑入库随机变量的马尔可夫特性,通过贪婪决策与近似值迭代,调整学习参数,求解... 针对水库长期随机调度的维数灾问题,在描述来水随机过程的基础上,提出基于强化学习理论的水库长期随机优化调度模型。采用机器学习中有模型的SARSA算法,且考虑入库随机变量的马尔可夫特性,通过贪婪决策与近似值迭代,调整学习参数,求解出近似最优决策序列。实例分析表明,对比随机动态规划(SDP)方法,SARSA算法在获得高质量解的同时,计算时间约减少41%,该算法高效求解能力与较少计算时长为水库长期随机调度问题提供了一种新的求解思路。 展开更多
关键词 水库调度 随机动态规划 强化学习 值迭代 sarsa
原文传递
基于Sarsa算法的无人直升机悬停控制 被引量:1
15
作者 蔡文澜 王俊生 +1 位作者 税海涛 马宏绪 《兵工自动化》 2007年第7期54-56,共3页
无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网... 无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网络,权值学习采用直接梯度下降的近似梯度迭代算法,用ε-Greed策略进行行为选择。 展开更多
关键词 无人直升机 悬停控制 sarsa增强学习算法 多层前馈神经网络
在线阅读 下载PDF
基于SARSA算法的风电——抽蓄联合系统日随机优化研究 被引量:9
16
作者 李文武 郑凯新 +1 位作者 刘江鹏 贺中豪 《水电能源科学》 北大核心 2020年第11期72-76,共5页
针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方... 针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方最小为目标函数的日随机优化模型;最后说明利用SARSA算法求解该问题的步骤。算例应用结果表明,利用SARSA算法求解该问题需迭代一定次数才收敛,且算法的学习率随迭代次数增加而减小时可加快算法收敛速度;将SARSA算法与随机动态规划算法相比,在优化结果接近的情况下,SARSA算法计算时间减少约35%,该算法为解决随机多能互补问题提供了新思路。 展开更多
关键词 风蓄随机优化调度 强化学习 sarsa算法 学习率
原文传递
一种状态集结因子化SARSA(λ)强化学习算法 被引量:1
17
作者 李春贵 刘永信 《内蒙古大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第6期675-678,共4页
提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验... 提出了一种自适应状态集结因子化 SARSA(λ)强化学习算法 ,在学习的过程中利用Bellman余留数进行状态集结 ,通过集结 ,大大减少了状态空间搜索与计算的复杂度 ,有利于求解大状态空间的 MDPs问题 ,而且 ,本算法不需要有关状态特征的先验知识 。 展开更多
关键词 强化学习 状态集结 MDPs Q(λ)学习 sarsa(λ)学习 机器学习 因子化 Bellman余留数
在线阅读 下载PDF
基于SARSA算法的水声通信自适应调制 被引量:5
18
作者 王安义 李萍 张育芝 《科学技术与工程》 北大核心 2020年第16期6505-6509,共5页
水声信道复杂多变,自适应调制系统中反馈信息存在较大的时延,实际信道状态与接收到的反馈信息无法匹配,带来反馈信道状态信息过时问题,发送端不能准确做出自适应决策进而导致传输误码高及吞吐量低等问题。针对该问题,利用强化学习中的SA... 水声信道复杂多变,自适应调制系统中反馈信息存在较大的时延,实际信道状态与接收到的反馈信息无法匹配,带来反馈信道状态信息过时问题,发送端不能准确做出自适应决策进而导致传输误码高及吞吐量低等问题。针对该问题,利用强化学习中的SARSA算法学习信道的变化并进行行为策略的选择,根据信道的变化,择优选出最佳的调制方式,以改善系统的传输误码和通信吞吐量。对比固定调制方式和直接反馈情况下的系统的误码率和吞吐量,结果表明,经强化学习后的系统误码率和吞吐量均优于其他两种方式,可见,强化学习算法在时变水声信道自适应调制中改善传输误码和吞吐量的问题上是有效可行的。 展开更多
关键词 水声通信 自适应调制 强化学习 sarsa算法
在线阅读 下载PDF
基于改进SARSA(λ)移动机器人路径规划 被引量:3
19
作者 宋宇 王志明 《长春工业大学学报》 CAS 2019年第1期55-59,共5页
在机器人选择下一点坐标时,分别计算周围格子到达概率以及所受合力。记录机器人每轮到达终点所经路径总距离,将全局最优距离值与机器人到达终点所得奖励值相关,并进行加权更新Q值。仿真结果表明,采用该算法机器人到达目标点用时减少了8... 在机器人选择下一点坐标时,分别计算周围格子到达概率以及所受合力。记录机器人每轮到达终点所经路径总距离,将全局最优距离值与机器人到达终点所得奖励值相关,并进行加权更新Q值。仿真结果表明,采用该算法机器人到达目标点用时减少了85%,路径总长度平均缩短22%。 展开更多
关键词 路径规划 强化学习 sarsa(λ) 人工势场法
在线阅读 下载PDF
Double Sarsa and Double Expected Sarsa with Shallow and Deep Learning 被引量:10
20
作者 Michael Ganger Ethan Duryea Wei Hu 《Journal of Data Analysis and Information Processing》 2016年第4期159-176,共18页
Double Q-learning has been shown to be effective in reinforcement learning scenarios when the reward system is stochastic. We apply the idea of double learning that this algorithm uses to Sarsa and Expected Sarsa, pro... Double Q-learning has been shown to be effective in reinforcement learning scenarios when the reward system is stochastic. We apply the idea of double learning that this algorithm uses to Sarsa and Expected Sarsa, producing two new algorithms called Double Sarsa and Double Expected Sarsa that are shown to be more robust than their single counterparts when rewards are stochastic. We find that these algorithms add a significant amount of stability in the learning process at only a minor computational cost, which leads to higher returns when using an on-policy algorithm. We then use shallow and deep neural networks to approximate the actionvalue, and show that Double Sarsa and Double Expected Sarsa are much more stable after convergence and can collect larger rewards than the single versions. 展开更多
关键词 Double sarsa Double Expected sarsa Reinforcement Learning Deep Learning
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部