期刊文献+
共找到877篇文章
< 1 2 44 >
每页显示 20 50 100
基于Actor-Critic算法的新能源电力系统发电控制研究
1
作者 杨媛 杨明 +2 位作者 朱生军 乔虎 杨洪志 《电子设计工程》 2026年第8期29-33,共5页
针对新能源电力系统因参数波动导致的控制稳定性不足问题,提出一种融合Actor-Critic算法与生成对抗网络的智能控制模型。通过轻量化网络架构设计,结合经验模态分解与网络剪枝技术优化计算效率,并利用生成对抗网络增强动态环境适应能力... 针对新能源电力系统因参数波动导致的控制稳定性不足问题,提出一种融合Actor-Critic算法与生成对抗网络的智能控制模型。通过轻量化网络架构设计,结合经验模态分解与网络剪枝技术优化计算效率,并利用生成对抗网络增强动态环境适应能力。实验表明,在0.001学习率与40个神经元的配置下,模型频率偏差最低达0.0035 Hz,功率控制误差为69.685 MW,系统运行总成本降至6.944万元。对比传统PID与模糊逻辑控制,新模型在动态响应速度与经济性方面表现最优。研究为高比例新能源并网系统的实时优化控制提供了数据驱动解决方案,具有显著的工程应用价值。 展开更多
关键词 actor-critic算法 新能源 电力系统 发电控制 轻量化
在线阅读 下载PDF
Actor–Critic Trajectory Controller with Optimal Design for Nonlinear Robotic Systems
2
作者 Nien-Tsu Hu Hsiang-Tung Kao +1 位作者 Chin-Sheng Chen Shih-Hao Chang 《Computers, Materials & Continua》 2026年第4期1996-2021,共26页
Trajectory tracking for nonlinear robotic systems remains a fundamental yet challenging problem in control engineering,particularly when both precision and efficiency must be ensured.Conventional control methods are o... Trajectory tracking for nonlinear robotic systems remains a fundamental yet challenging problem in control engineering,particularly when both precision and efficiency must be ensured.Conventional control methods are often effective for stabilization but may not directly optimize long-term performance.To address this limitation,this study develops an integrated framework that combines optimal control principles with reinforcement learning for a single-link robotic manipulator.The proposed scheme adopts an actor–critic structure,where the critic network approximates the value function associated with the Hamilton–Jacobi–Bellman equation,and the actor network generates near-optimal control signals in real time.This dual adaptation enables the controller to refine its policy online without explicit system knowledge.Stability of the closed-loop system is analyzed through Lyapunov theory,ensuring boundedness of the tracking error.Numerical simulations on the single-link manipulator demonstrate that themethod achieves accurate trajectory followingwhile maintaining lowcontrol effort.The results further showthat the actor–critic learning mechanism accelerates convergence of the control policy compared with conventional optimization-based strategies.This work highlights the potential of reinforcement learning integrated with optimal control for robotic manipulators and provides a foundation for future extensions to more complex multi-degree-of-freedom systems.The proposed controller is further validated in a physics-based virtual Gazebo environment,demonstrating stable adaptation and real-time feasibility. 展开更多
关键词 Reinforcement learning optimal control actorcritic algorithm trajectory tracking nonlinear systems robotic manipulator
在线阅读 下载PDF
Study on the destabilizing damage precursors of cemented tailings backfill based on critical slowing down theory combined with multiple denoising algorithms under consideration of initial defect conditions
3
作者 ZHAO Kang ZHONG Jun-cheng +3 位作者 YAN Ya-jing LIU Yang WEN Dao-tan XIAO Wei-ling 《Journal of Central South University》 2026年第1期375-399,共25页
The cemented tailings backfill(CTB)with initial defects is more prone to destabilization damage under the influence of various unfavorable factors during the mining process.In order to investigate its influence on the... The cemented tailings backfill(CTB)with initial defects is more prone to destabilization damage under the influence of various unfavorable factors during the mining process.In order to investigate its influence on the stability of underground mining engineering,this paper simulates the generation of different degrees of initial defects inside the CTB by adding different contents of air-entraining agent(AEA),investigates the acoustic emission RA/AF eigenvalues of CTB with different contents of AEA under uniaxial compression,and adopts various denoising algorithms(e.g.,moving average smoothing,median filtering,and outlier detection)to improve the accuracy of the data.The variance and autocorrelation coefficients of RA/AF parameters were analyzed in conjunction with the critical slowing down(CSD)theory.The results show that the acoustic emission RA/AF values can be used to characterize the progressive damage evolution of CTB.The denoising algorithm processed the AE signals to reduce the effects of extraneous noise and anomalous spikes.Changes in the variance curves provide clear precursor information,while abrupt changes in the autocorrelation coefficient can be used as an auxiliary localization warning signal.The phenomenon of dramatic increase in the variance and autocorrelation coefficient curves during the compression-tightening stage,which is influenced by the initial defects,can lead to false warnings.As the initial defects of the CTB increase,its instability precursor time and instability time are prolonged,the peak stress decreases,and the time difference between the CTB and the instability damage is smaller.The results provide a new method for real-time monitoring and early warning of CTB instability damage. 展开更多
关键词 initial defects cemented tailings backfill critical slowing down acoustic emission RA/AF values denoising algorithms
在线阅读 下载PDF
基于Actor-Critic算法的新能源汽车实时充电优化调度研究 被引量:1
4
作者 赖城贤 杨婷 苏庆列 《黑龙江工业学院学报(综合版)》 2025年第5期128-133,共6页
随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通... 随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通过并行计算提高算法效率。研究结果显示,该算法在精准率上迅速上升,在约200次迭代后达到0.9,显著优于其他算法。在运行时间方面,该算法始终保持较低水平,显示出高运行效率。在充电负载管理上,该算法在50小时内达到约45kW的负载,充电效率接近90%,且充电成本在所有车辆数量下均为最低。该算法在新能源汽车充电调度中表现出色,不仅提高了充电效率,降低了充电成本,而且具有较快的收敛速度和较低的运行时间,为新能源汽车充电调度提供了一种有效的解决方案。 展开更多
关键词 actor-critic算法 新能源汽车 实时充电 优化调度 状态空间
在线阅读 下载PDF
面向长序列自主作业的非对称Actor-Critic强化学习方法 被引量:1
5
作者 任君凯 瞿宇珂 +3 位作者 罗嘉威 倪子淇 卢惠民 叶益聪 《国防科技大学学报》 北大核心 2025年第4期111-122,共12页
长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑... 长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑战。通过整合多个Critic网络协同训练单一Actor网络,并引入生成对抗模仿学习为Critic网络生成内在奖励,从而降低长序列任务学习难度。在此基础上,设计两阶段学习方法,利用模仿学习为强化学习提供高质量预训练行为策略,在进一步提高学习效率的同时,增强策略的泛化性能。面向化学实验室长序列自主作业的仿真结果表明,该方法显著提高了机器人长序列操作技能的学习效率与行为策略的鲁棒性。 展开更多
关键词 自主作业机器人 强化学习 actor-critic 长序列操作
在线阅读 下载PDF
基于Actor-Critic算法的无人机集群任务分配方法 被引量:1
6
作者 苏瑞 龚俊 张鸿宇 《兵工自动化》 北大核心 2025年第5期107-112,共6页
为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误... 为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误差,结合多个时间步的奖励来更新策略,以提高学习效率并减少延迟奖励。在多种任务场景下,通过仿真实验进行对比。仿真结果表明:该方法能够显著减少任务完成时间和航行距离,验证了在任务分配问题上的有效性。 展开更多
关键词 无人机集群 任务分配 强化学习 演员评论家算法
在线阅读 下载PDF
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:2
7
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 actor网络 critic网络 DDPG算法 深度强化学习 控制系统
原文传递
Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning 被引量:3
8
作者 Yun Zou Qing-Zi Xing +4 位作者 Bai-Chuan Wang Shu-Xin Zheng Cheng Cheng Zhong-Ming Wang Xue-Wu Wang 《Nuclear Science and Techniques》 SCIE CAS CSCD 2019年第10期133-141,共9页
This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the pre... This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the predictions of physical designs because of errors in mechanical matching and installation.Therefore,parameter optimization methods such as pointwise scanning,evolutionary algorithms(EAs),and robust conjugate direction search are widely used in beam tuning to compensate for this inconsistency.However,it is difficult for them to deal with a large number of discrete local optima.The A3C algorithm,which has been applied in the automated control field,provides an approach for improving multi-dimensional optimization.The A3C algorithm is introduced and improved for the real-time beam tuning code for accelerators.Experiments in which optimization is achieved by using pointwise scanning,the genetic algorithm(one kind of EAs),and the A3C-algorithm are conducted and compared to optimize the currents of four steering magnets and two solenoids in the low-energy beam transport section(LEBT)of the Xi’an Proton Application Facility.Optimal currents are determined when the highest transmission of a radio frequency quadrupole(RFQ)accelerator downstream of the LEBT is achieved.The optimal work points of the tuned accelerator were obtained with currents of 0 A,0 A,0 A,and 0.1 A,for the four steering magnets,and 107 A and 96 A for the two solenoids.Furthermore,the highest transmission of the RFQ was 91.2%.Meanwhile,the lower time required for the optimization with the A3C algorithm was successfully verified.Optimization with the A3C algorithm consumed 42%and 78%less time than pointwise scanning with random initialization and pre-trained initialization of weights,respectively. 展开更多
关键词 REAL-TIME BEAM tuning Parameter optimization ASYNCHRONOUS ADVANTAGE actorcritic algorithm Low-energy BEAM transport
在线阅读 下载PDF
基于Actor-Critic框架的风机换流器参数优化策略
9
作者 李强 邹小明 +2 位作者 任必兴 何宇帆 杜文娟 《现代电力》 北大核心 2025年第5期1101-1110,共10页
随着可再生能源并网发电量的不断增加,由电力电子设备引发的电力系统次同步振荡问题逐渐凸显,给电力系统的安全稳定运行带来了新的挑战。除此之外,当目标电力系统规模较大时,常用的基于线性化模型的分析方法面临着维数灾难。为了解决上... 随着可再生能源并网发电量的不断增加,由电力电子设备引发的电力系统次同步振荡问题逐渐凸显,给电力系统的安全稳定运行带来了新的挑战。除此之外,当目标电力系统规模较大时,常用的基于线性化模型的分析方法面临着维数灾难。为了解决上述问题,根据强化学习原理,通过动作-评价(Actor-Critic)学习框架提出一种对风机换流器控制参数的优化策略。通过搜集永磁直驱风机(permanent magnetic synchronous generator,PMSG)运行状态数据,训练强化学习代理(Agent),以此评估风机运行状态及其稳定性,并寻找优化风机换流器参数的最优策略。该训练方法得到的代理能够基于时域采样数据对风机换流器参数进行优化,从而有效抑制由于换流器诱发的振荡现象,在没有建立线性化分析模型的情况下,能够有效优化并增强电力系统的稳定性。经实验验证,该优化策略在采样数据有噪声干扰的情况下仍然具有良好的优化性能。 展开更多
关键词 强化学习 动作-评价 永磁直驱风机 次同步振荡 参数优化
原文传递
结合遗传算法和改进CRITIC-GRA-TOPSIS的美学评价方法
10
作者 张旭壮 王卫星 王子翱 《机械科学与技术》 北大核心 2026年第2期261-269,共9页
鉴于现有设计评价方法存在主观性、不确定性和随机性等缺陷,提出一种美学评价方法,即采用结合遗传算法和改进CRITIC-GRA-TOPSIS的综合评价方法。该方法首先利用遗传算法对产品族形态特征进行优化选择,以美学计算原理为基础,进行多个美... 鉴于现有设计评价方法存在主观性、不确定性和随机性等缺陷,提出一种美学评价方法,即采用结合遗传算法和改进CRITIC-GRA-TOPSIS的综合评价方法。该方法首先利用遗传算法对产品族形态特征进行优化选择,以美学计算原理为基础,进行多个美学维度的研究并确定审美评价指标体系,以测量计算美学特征指标值。接着,采用改进的CRITIC法确定各项指标的权重,提高评价结果的客观性和准确性。最后,根据各指标权重使用GRA-TOPSIS法计算出样本的综合评价并排序。以汽车车灯为研究对象,通过实验验证并对比现有评价方法,证明了该方法的可行性和普适性。研究结果显示,结合遗传算法和改进CRITIC-GRA-TOPSIS的美学评价模型能够较准确地对产品美学进行客观定量评价,为美学评价提供了一种新的有效方法。 展开更多
关键词 遗传算法 改进critic GRA-TOPSIS 美学计算 审美评价
在线阅读 下载PDF
Study on the influence of internal bearing parameters on the critical speed and vibration behavior of the rotor-bearing coupled system
11
作者 Fanyu ZHANG Yulai ZHAO +3 位作者 Qingyu ZHU Xiangyu MENG Junzhe LIN Qingkai HAN 《Applied Mathematics and Mechanics(English Edition)》 2026年第3期653-674,I0016-I0022,共29页
The dual challenges of critical speed prediction inaccuracies and ambiguous vibration behaviors are present in high-speed flexible rotors,particularly in free turbine rotors in turboshaft engine systems.The study begi... The dual challenges of critical speed prediction inaccuracies and ambiguous vibration behaviors are present in high-speed flexible rotors,particularly in free turbine rotors in turboshaft engine systems.The study begins with an examination of the rotor-bearing bidirectional coupling mechanism,with a primary focus on the nonlinear characteristics of the bearing.An investigation is carried out on the mechanical modeling methodologies for four-point contact ball bearings(FPCBBs)and cylindrical roller bearings(CRBs).To address the issue of excessive computational time in traditional bearing calculation methods,the sled dog optimization(SDO)algorithm is substituted for the conventional Newton-Raphson method.A rotor-bearing coupling dynamics model is developed by the finite element and lumped mass methods,with experimental validation achieved through a simulator test rig.The effects of three internal bearing parameters in FPCBBs(arching width and raceway groove curvature coefficient)and CRBs(initial radial clearance)on the critical speed characteristics and vibrational behavior of rotorbearing coupled systems are examined.The numerical simulation results show some interesting conclusions. 展开更多
关键词 critical speed vibration behavior sled dog optimization(SDO)algorithm rotor-bearing coupled system
在线阅读 下载PDF
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:12
12
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
在线阅读 下载PDF
一种自适应模糊Actor-Critic学习 被引量:3
13
作者 王雪松 程玉虎 易建强 《控制与决策》 EI CSCD 北大核心 2006年第9期1068-1072,共5页
提出一种基于模糊RBF网络的自适应模糊A ctor-C ritic学习.采用一个模糊RBF神经网络同时逼近A ctor的动作函数和C ritic的值函数,解决状态空间泛化中易出现的“维数灾”问题.模糊RBF网络能够根据环境状态和被控对象特性的变化进行网络... 提出一种基于模糊RBF网络的自适应模糊A ctor-C ritic学习.采用一个模糊RBF神经网络同时逼近A ctor的动作函数和C ritic的值函数,解决状态空间泛化中易出现的“维数灾”问题.模糊RBF网络能够根据环境状态和被控对象特性的变化进行网络结构和参数的自适应学习,使得网络结构更加紧凑,整个模糊A ctor-C ritic学习具有泛化性能好、控制结构简单和学习效率高的特点.M oun ta in C ar的仿真结果验证了所提方法的有效性. 展开更多
关键词 actorcritic学习 模糊推理系统 RBF网络 泛化
在线阅读 下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术 被引量:2
14
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
在线阅读 下载PDF
基于对称扰动采样的Actor-critic算法 被引量:2
15
作者 张春元 朱清新 《控制与决策》 EI CSCD 北大核心 2015年第12期2161-2167,共7页
针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环... 针对传统Actor-critic(AC)方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题,提出一种基于对称扰动采样的AC算法框架.首先,框架采用高斯分布作为策略分布,在每一时间步对当前动作均值对称扰动,从而生成两个动作与环境并行交互;然后,基于两者的最大时域差分(TD)误差选取Agent的行为动作,并对值函数参数进行更新;最后,基于两者的平均常规梯度或增量自然梯度对策略参数进行更新.理论分析和仿真结果表明,所提框架具有较好的收敛性和计算效率. 展开更多
关键词 actor-critic方法 对称扰动采样 连续空间 强化学习
原文传递
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:4
16
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
在线阅读 下载PDF
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制 被引量:5
17
作者 马丽新 刘晨 刘磊 《应用数学和力学》 CSCD 北大核心 2022年第1期104-114,共11页
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数... 研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性. 展开更多
关键词 分数阶多自主体系统 actor-critic算法 最优主-从一致性 事件触发 间歇
在线阅读 下载PDF
基于批量递归最小二乘的自然Actor-Critic算法 被引量:4
18
作者 王国芳 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第7期1335-1342,共8页
为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法... 为了减轻Actor-Critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在Critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法的引入使得智能体能根据自身运算能力自由调整各批次运算的数据量,即每次策略估计时使用的数据量,在全乐观和部分乐观之间进行权衡,大大提高了NAC-LSTD算法的灵活性.山地车仿真实验表明,与NAC-LSTD算法相比,NAC-BRLS算法在保证一定收敛性能的前提下,能够明显降低智能体的单步平均运算负担. 展开更多
关键词 自然梯度 actor-critic 批次更新 递归最小二乘
在线阅读 下载PDF
基于Tile Coding编码和模型学习的Actor-Critic算法 被引量:3
19
作者 金玉净 朱文文 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2014年第6期239-242,249,共5页
Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状... Actor-Critic是一类具有较好性能及收敛保证的强化学习方法,然而,Agent在学习和改进策略的过程中并没有对环境的动态性进行学习,导致Actor-Critic方法的性能受到一定限制。此外,Actor-Critic方法中需要近似地表示策略以及值函数,其中状态和动作的编码方法以及参数对Actor-Critic方法有重要的影响。Tile Coding编码具有简单易用、计算时间复杂度较低等优点,因此,将Tile Coding编码与基于模型的Actor-Critic方法结合,并将所得算法应用于强化学习仿真实验。实验结果表明,所得算法具有较好的性能。 展开更多
关键词 强化学习 TILE CODING actor-critic 模型学习 函数逼近
在线阅读 下载PDF
Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用 被引量:30
20
作者 李琛 黄炎焱 +1 位作者 张永亮 陈天德 《系统工程与电子技术》 EI CSCD 北大核心 2021年第3期755-762,共8页
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针... 将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针对上述方法的不足,提出了一种基于强化学习并结合规则的多智能体决策方法,以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析,并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型,对比每个算子互不交流的封闭式行动决策学习方法,提出的分布执行集中训练方法更具优势且有效。 展开更多
关键词 智能战术 兵棋推演 多智能体强化学习 actor-critic框架 分布执行集中训练
在线阅读 下载PDF
上一页 1 2 44 下一页 到第
使用帮助 返回顶部