期刊文献+
共找到333篇文章
< 1 2 17 >
每页显示 20 50 100
基于Actor-Critic算法的新能源电力系统发电控制研究
1
作者 杨媛 杨明 +2 位作者 朱生军 乔虎 杨洪志 《电子设计工程》 2026年第8期29-33,共5页
针对新能源电力系统因参数波动导致的控制稳定性不足问题,提出一种融合Actor-Critic算法与生成对抗网络的智能控制模型。通过轻量化网络架构设计,结合经验模态分解与网络剪枝技术优化计算效率,并利用生成对抗网络增强动态环境适应能力... 针对新能源电力系统因参数波动导致的控制稳定性不足问题,提出一种融合Actor-Critic算法与生成对抗网络的智能控制模型。通过轻量化网络架构设计,结合经验模态分解与网络剪枝技术优化计算效率,并利用生成对抗网络增强动态环境适应能力。实验表明,在0.001学习率与40个神经元的配置下,模型频率偏差最低达0.0035 Hz,功率控制误差为69.685 MW,系统运行总成本降至6.944万元。对比传统PID与模糊逻辑控制,新模型在动态响应速度与经济性方面表现最优。研究为高比例新能源并网系统的实时优化控制提供了数据驱动解决方案,具有显著的工程应用价值。 展开更多
关键词 actor-critic算法 新能源 电力系统 发电控制 轻量化
在线阅读 下载PDF
A New Approach for Topology Control in Software Defined Wireless Sensor Networks Using Soft Actor-Critic
2
作者 Ho Hai Quan Le Huu Binh +1 位作者 Nguyen Dinh Hoa Cuong Le Duc Huy 《Computers, Materials & Continua》 2026年第5期1272-1289,共18页
Wireless Sensor Networks(WSNs)play a crucial role in numerous Internet of Things(IoT)applications and next-generation communication systems,yet they continue to face challenges in balancing energy efficiency and relia... Wireless Sensor Networks(WSNs)play a crucial role in numerous Internet of Things(IoT)applications and next-generation communication systems,yet they continue to face challenges in balancing energy efficiency and reliable connectivity.This study proposes SAC-HTC(Soft Actor-Critic-based High-performance Topology Control),a deep reinforcement learning(DRL)method based on the Actor-Critic framework,implemented within a Software Defined Wireless Sensor Network(SDWSN)architecture.In this approach,sensor nodes periodically transmit state information,including coordinates,node degree,transmission power,and neighbor lists,to a centralized controller.The controller acts as the reinforcement learning(RL)agent,with the Actor generating decisions to adjust transmission ranges,while the Critic evaluates action values to reflect the overall network performance.The bidirectional Node-Controller feedback mechanism enables the controller to issue appropriate control commands to each node,ensuring the maintenance of the desired node degree,reducing energy consumption,and preserving network connectivity.The algorithmfurther incorporates soft entropy adjustment to balance exploration and exploitation,alongwith an off-policy mechanism for efficient data reuse,making it well-suited to the resource-constrained conditions ofWSNs.Simulation results demonstrate that SAC-HTC not only outperforms traditional methods and several existing RL algorithms but also achieves faster convergence,optimized communication range control,global connectivity maintenance,and extended network lifetime.The key novelty of this research lies in the integration of the SAC method with the SDWSN architecture forWSNs topology control,providing an adaptive,efficient,and highly promisingmechanism for large-scale,dynamic,and high-performance sensor networks. 展开更多
关键词 Soft actor-critic topology control deep reinforcement learning WSNS energy optimization SDWSN
在线阅读 下载PDF
Offline Generalized Actor-Critic With Distance Regularization
3
作者 Huanting Feng Yuhu Cheng Xuesong Wang 《IEEE/CAA Journal of Automatica Sinica》 2026年第1期57-71,共15页
In order to address the issue of overly conservative offline reinforcement learning(RL) methods that limit the generalization of policy in the out-of-distribution(OOD) region,this article designs a surrogate target fo... In order to address the issue of overly conservative offline reinforcement learning(RL) methods that limit the generalization of policy in the out-of-distribution(OOD) region,this article designs a surrogate target for OOD value function based on dataset distance and proposes a novel generalized Q-learning mechanism with distance regularization(GQDR).In theory,we not only prove the convergence of GQDR,but also ensure that the difference between the Q-value learned by GQDR and its true value is bounded.Furthermore,an offline generalized actor-critic method with distance regularization(OGACDR) is proposed by combining GQDR with actor-critic learning framework.Two implementations of OGACDR,OGACDR-EXP and OGACDRSQR,are introduced according to exponential(EXP) and opensquare(SQR) distance weight functions,and it has been theoretically proved that OGACDR provides a safe policy improvement.Experimental results on Gym-MuJoCo continuous control tasks show that OGACDR can not only alleviate the overestimation and overconservatism of Q-value function,but also outperform conservative offline RL baselines. 展开更多
关键词 actor-critic distance regularization generalized Qlearning offline reinforcement learning out-of-distribution(OOD)
在线阅读 下载PDF
Within-visual-range air combat maneuver decision-making in obstructed environments via a curriculum self-play soft actor-critic with an attention mechanism
4
作者 Longjie Zheng Xin Li +6 位作者 Xichao Su Bai Li Lei Wang Junlin Zhou Haijun Peng Wei Tian Xinwei Wang 《Defence Technology(防务技术)》 2026年第3期122-137,共16页
With the rapid development of artificial intelligence,intelligent air combat maneuver decision-making(ACMD)has garnered global attention.Although deep reinforcement learning provides a promising approach to ACMD,exist... With the rapid development of artificial intelligence,intelligent air combat maneuver decision-making(ACMD)has garnered global attention.Although deep reinforcement learning provides a promising approach to ACMD,existing methods often suffer from rigid reward functions and limited adaptability to evolving adversarial strategies.Moreover,most research assumes open airspace,overlooking the influence of potential obstacles.In this paper,we address one-on-one within-visual-range ACMD in obstructed environments,and propose an improved Soft Actor-Critic(SAC)algorithm trained under a curriculum self-play framework.A maneuver strategy mirroring inference module is integrated to estimate each other's likely positions when visual obstruction occurs.By leveraging curriculum learning to guide progressive experience accumulation and self-play for adversarial evolution,our method enhances both training efficiency and tactical diversity.We further integrate an attention mechanism that dynamically adjusts the weights of sub-rewards,enabling the learned policy to adapt to rapidly changing air combat situations.Numerical simulations demonstrate that our enhanced SAC converges more quickly and achieves higher win rates than other baseline methods.An animation is available at bilibili.com/video/BV1BHVszHE98 for better illustration. 展开更多
关键词 Air combat maneuver decision-making Soft actor-critic Curriculum self-play training Attention mechanism Obstructed environment
在线阅读 下载PDF
面向长序列自主作业的非对称Actor-Critic强化学习方法 被引量:1
5
作者 任君凯 瞿宇珂 +3 位作者 罗嘉威 倪子淇 卢惠民 叶益聪 《国防科技大学学报》 北大核心 2025年第4期111-122,共12页
长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑... 长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑战。通过整合多个Critic网络协同训练单一Actor网络,并引入生成对抗模仿学习为Critic网络生成内在奖励,从而降低长序列任务学习难度。在此基础上,设计两阶段学习方法,利用模仿学习为强化学习提供高质量预训练行为策略,在进一步提高学习效率的同时,增强策略的泛化性能。面向化学实验室长序列自主作业的仿真结果表明,该方法显著提高了机器人长序列操作技能的学习效率与行为策略的鲁棒性。 展开更多
关键词 自主作业机器人 强化学习 actor-critic 长序列操作
在线阅读 下载PDF
基于Actor-Critic算法的新能源汽车实时充电优化调度研究 被引量:1
6
作者 赖城贤 杨婷 苏庆列 《黑龙江工业学院学报(综合版)》 2025年第5期128-133,共6页
随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通... 随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通过并行计算提高算法效率。研究结果显示,该算法在精准率上迅速上升,在约200次迭代后达到0.9,显著优于其他算法。在运行时间方面,该算法始终保持较低水平,显示出高运行效率。在充电负载管理上,该算法在50小时内达到约45kW的负载,充电效率接近90%,且充电成本在所有车辆数量下均为最低。该算法在新能源汽车充电调度中表现出色,不仅提高了充电效率,降低了充电成本,而且具有较快的收敛速度和较低的运行时间,为新能源汽车充电调度提供了一种有效的解决方案。 展开更多
关键词 actor-critic算法 新能源汽车 实时充电 优化调度 状态空间
在线阅读 下载PDF
Mixture of Experts Framework Based on Soft Actor-Critic Algorithm for Highway Decision-Making of Connected and Automated Vehicles
7
作者 Fuxing Yao Chao Sun +2 位作者 Bing Lu Bo Wang Haiyang Yu 《Chinese Journal of Mechanical Engineering》 2025年第1期382-395,共14页
Decision-making of connected and automated vehicles(CAV)includes a sequence of driving maneuvers that improve safety and efficiency,characterized by complex scenarios,strong uncertainty,and high real-time requirements... Decision-making of connected and automated vehicles(CAV)includes a sequence of driving maneuvers that improve safety and efficiency,characterized by complex scenarios,strong uncertainty,and high real-time requirements.Deep reinforcement learning(DRL)exhibits excellent capability of real-time decision-making and adaptability to complex scenarios,and generalization abilities.However,it is arduous to guarantee complete driving safety and efficiency under the constraints of training samples and costs.This paper proposes a Mixture of Expert method(MoE)based on Soft Actor-Critic(SAC),where the upper-level discriminator dynamically decides whether to activate the lower-level DRL expert or the heuristic expert based on the features of the input state.To further enhance the performance of the DRL expert,a buffer zone is introduced in the reward function,preemptively applying penalties before insecure situations occur.In order to minimize collision and off-road rates,the Intelligent Driver Model(IDM)and Minimizing Overall Braking Induced by Lane changes(MOBIL)strategy are designed by heuristic experts.Finally,tested in typical simulation scenarios,MOE shows a 13.75%improvement in driving efficiency compared with the traditional DRL method with continuous action space.It ensures high safety with zero collision and zero off-road rates while maintaining high adaptability. 展开更多
关键词 DECISION-MAKING Soft actor-critic Connected and automated vehicles
在线阅读 下载PDF
基于Actor-Critic算法的无人机集群任务分配方法 被引量:1
8
作者 苏瑞 龚俊 张鸿宇 《兵工自动化》 北大核心 2025年第5期107-112,共6页
为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误... 为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误差,结合多个时间步的奖励来更新策略,以提高学习效率并减少延迟奖励。在多种任务场景下,通过仿真实验进行对比。仿真结果表明:该方法能够显著减少任务完成时间和航行距离,验证了在任务分配问题上的有效性。 展开更多
关键词 无人机集群 任务分配 强化学习 演员评论家算法
在线阅读 下载PDF
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:2
9
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 Actor网络 Critic网络 DDPG算法 深度强化学习 控制系统
原文传递
基于Actor-Critic框架的风机换流器参数优化策略
10
作者 李强 邹小明 +2 位作者 任必兴 何宇帆 杜文娟 《现代电力》 北大核心 2025年第5期1101-1110,共10页
随着可再生能源并网发电量的不断增加,由电力电子设备引发的电力系统次同步振荡问题逐渐凸显,给电力系统的安全稳定运行带来了新的挑战。除此之外,当目标电力系统规模较大时,常用的基于线性化模型的分析方法面临着维数灾难。为了解决上... 随着可再生能源并网发电量的不断增加,由电力电子设备引发的电力系统次同步振荡问题逐渐凸显,给电力系统的安全稳定运行带来了新的挑战。除此之外,当目标电力系统规模较大时,常用的基于线性化模型的分析方法面临着维数灾难。为了解决上述问题,根据强化学习原理,通过动作-评价(Actor-Critic)学习框架提出一种对风机换流器控制参数的优化策略。通过搜集永磁直驱风机(permanent magnetic synchronous generator,PMSG)运行状态数据,训练强化学习代理(Agent),以此评估风机运行状态及其稳定性,并寻找优化风机换流器参数的最优策略。该训练方法得到的代理能够基于时域采样数据对风机换流器参数进行优化,从而有效抑制由于换流器诱发的振荡现象,在没有建立线性化分析模型的情况下,能够有效优化并增强电力系统的稳定性。经实验验证,该优化策略在采样数据有噪声干扰的情况下仍然具有良好的优化性能。 展开更多
关键词 强化学习 动作-评价 永磁直驱风机 次同步振荡 参数优化
原文传递
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:12
11
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
在线阅读 下载PDF
基于对称扰动采样的Actor-critic算法 被引量:2
12
作者 张春元 朱清新 《控制与决策》 EI CSCD 北大核心 2015年第12期2161-2167,共7页
针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环... 针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环境并行交互;然后,基于两者的最大时域差分(TD)误差选取Agent的行为动作,并对值函数参数进行更新;最后,基于两者的平均常规梯度或增量自然梯度对策略参数进行更新.理论分析和仿真结果表明,所提框架具有较好的收敛性和计算效率. 展开更多
关键词 actor-critic方法 对称扰动采样 连续空间 强化学习
原文传递
基于改进Actor-Critic算法的多传感器交叉提示技术 被引量:2
13
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
在线阅读 下载PDF
基于批量递归最小二乘的自然Actor-Critic算法 被引量:4
14
作者 王国芳 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第7期1335-1342,共8页
为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法... 为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法的引入使得智能体能根据自身运算能力自由调整各批次运算的数据量,即每次策略估计时使用的数据量,在全乐观和部分乐观之间进行权衡,大大提高了NAC-LSTD算法的灵活性.山地车仿真实验表明,与NAC-LSTD算法相比,NAC-BRLS算法在保证一定收敛性能的前提下,能够明显降低智能体的单步平均运算负担. 展开更多
关键词 自然梯度 actor-critic 批次更新 递归最小二乘
在线阅读 下载PDF
基于Tile Coding编码和模型学习的Actor-Critic算法 被引量:3
15
作者 金玉净 朱文文 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2014年第6期239-242,249,共5页
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状... Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。 展开更多
关键词 强化学习 TILE CODING actor-critic 模型学习 函数逼近
在线阅读 下载PDF
Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用 被引量:30
16
作者 李琛 黄炎焱 +1 位作者 张永亮 陈天德 《系统工程与电子技术》 EI CSCD 北大核心 2021年第3期755-762,共8页
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针... 将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针对上述方法的不足,提出了一种基于强化学习并结合规则的多智能体决策方法,以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析,并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型,对比每个算子互不交流的封闭式行动决策学习方法,提出的分布执行集中训练方法更具优势且有效。 展开更多
关键词 智能战术 兵棋推演 多智能体强化学习 actor-critic框架 分布执行集中训练
在线阅读 下载PDF
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:4
17
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
在线阅读 下载PDF
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制 被引量:5
18
作者 马丽新 刘晨 刘磊 《应用数学和力学》 CSCD 北大核心 2022年第1期104-114,共11页
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数... 研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性. 展开更多
关键词 分数阶多自主体系统 actor-critic算法 最优主-从一致性 事件触发 间歇
在线阅读 下载PDF
滑模控制器参数整定的Actor-Critic学习算法 被引量:5
19
作者 宋仕元 胡剑波 +1 位作者 王应洋 韩霖晓 《电光与控制》 CSCD 北大核心 2020年第9期24-27,49,共5页
针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计了相应的滑模控制律,并给出了参数选择的范围,设计了基于Actor-Critic结构的参数在线整定器。然后,选择TD... 针对滑模变结构控制律设计过程中出现的控制参数整定问题,提出一种基于强化学习的滑模变结构控制参数寻优方法。首先,根据系统设计了相应的滑模控制律,并给出了参数选择的范围,设计了基于Actor-Critic结构的参数在线整定器。然后,选择TD-Error方法进行求解计算,并用梯度下降法计算出神经网络权值的更新取值。最后,以固定翼飞行器纵向通道系统为例进行了仿真和实验验证,实验结果说明所提出控制方法减小了控制参数整定的盲目性,有效提升了系统的动态性能。 展开更多
关键词 滑模变结构控制 actor-critic 强化学习 参数整定
在线阅读 下载PDF
Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法 被引量:29
20
作者 陈亮 梁宸 +1 位作者 张景异 刘韵婷 《控制与决策》 EI CSCD 北大核心 2021年第1期75-82,共8页
现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式... 现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值. 展开更多
关键词 强化学习 深度学习 多智能体 RNN DDPG actor-critic
原文传递
上一页 1 2 17 下一页 到第
使用帮助 返回顶部