期刊文献+
共找到104篇文章
< 1 2 6 >
每页显示 20 50 100
Actor–Critic Trajectory Controller with Optimal Design for Nonlinear Robotic Systems
1
作者 Nien-Tsu Hu Hsiang-Tung Kao +1 位作者 Chin-Sheng Chen Shih-Hao Chang 《Computers, Materials & Continua》 2026年第4期1996-2021,共26页
Trajectory tracking for nonlinear robotic systems remains a fundamental yet challenging problem in control engineering,particularly when both precision and efficiency must be ensured.Conventional control methods are o... Trajectory tracking for nonlinear robotic systems remains a fundamental yet challenging problem in control engineering,particularly when both precision and efficiency must be ensured.Conventional control methods are often effective for stabilization but may not directly optimize long-term performance.To address this limitation,this study develops an integrated framework that combines optimal control principles with reinforcement learning for a single-link robotic manipulator.The proposed scheme adopts an actor–critic structure,where the critic network approximates the value function associated with the Hamilton–Jacobi–Bellman equation,and the actor network generates near-optimal control signals in real time.This dual adaptation enables the controller to refine its policy online without explicit system knowledge.Stability of the closed-loop system is analyzed through Lyapunov theory,ensuring boundedness of the tracking error.Numerical simulations on the single-link manipulator demonstrate that themethod achieves accurate trajectory followingwhile maintaining lowcontrol effort.The results further showthat the actor–critic learning mechanism accelerates convergence of the control policy compared with conventional optimization-based strategies.This work highlights the potential of reinforcement learning integrated with optimal control for robotic manipulators and provides a foundation for future extensions to more complex multi-degree-of-freedom systems.The proposed controller is further validated in a physics-based virtual Gazebo environment,demonstrating stable adaptation and real-time feasibility. 展开更多
关键词 Reinforcement learning optimal control actorcritic algorithm trajectory tracking nonlinear systems robotic manipulator
在线阅读 下载PDF
基于Actor-Critic算法的新能源电力系统发电控制研究
2
作者 杨媛 杨明 +2 位作者 朱生军 乔虎 杨洪志 《电子设计工程》 2026年第8期29-33,共5页
针对新能源电力系统因参数波动导致的控制稳定性不足问题,提出一种融合Actor-Critic算法与生成对抗网络的智能控制模型。通过轻量化网络架构设计,结合经验模态分解与网络剪枝技术优化计算效率,并利用生成对抗网络增强动态环境适应能力... 针对新能源电力系统因参数波动导致的控制稳定性不足问题,提出一种融合Actor-Critic算法与生成对抗网络的智能控制模型。通过轻量化网络架构设计,结合经验模态分解与网络剪枝技术优化计算效率,并利用生成对抗网络增强动态环境适应能力。实验表明,在0.001学习率与40个神经元的配置下,模型频率偏差最低达0.0035 Hz,功率控制误差为69.685 MW,系统运行总成本降至6.944万元。对比传统PID与模糊逻辑控制,新模型在动态响应速度与经济性方面表现最优。研究为高比例新能源并网系统的实时优化控制提供了数据驱动解决方案,具有显著的工程应用价值。 展开更多
关键词 actor-critic算法 新能源 电力系统 发电控制 轻量化
在线阅读 下载PDF
基于Actor-Critic算法的新能源汽车实时充电优化调度研究 被引量:1
3
作者 赖城贤 杨婷 苏庆列 《黑龙江工业学院学报(综合版)》 2025年第5期128-133,共6页
随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通... 随着新能源汽车的普及,其充电调度问题日益凸显。研究旨在通过优化充电调度算法,实现新能源汽车充电的实时优化,以提升充电效率和降低成本。研究采用了分两步执行的Actor-Critic充电调度算法,利用多层感知器构建Actor和Critic网络,并通过并行计算提高算法效率。研究结果显示,该算法在精准率上迅速上升,在约200次迭代后达到0.9,显著优于其他算法。在运行时间方面,该算法始终保持较低水平,显示出高运行效率。在充电负载管理上,该算法在50小时内达到约45kW的负载,充电效率接近90%,且充电成本在所有车辆数量下均为最低。该算法在新能源汽车充电调度中表现出色,不仅提高了充电效率,降低了充电成本,而且具有较快的收敛速度和较低的运行时间,为新能源汽车充电调度提供了一种有效的解决方案。 展开更多
关键词 actor-critic算法 新能源汽车 实时充电 优化调度 状态空间
在线阅读 下载PDF
基于Actor-Critic算法的无人机集群任务分配方法 被引量:1
4
作者 苏瑞 龚俊 张鸿宇 《兵工自动化》 北大核心 2025年第5期107-112,共6页
为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误... 为最小化无人机集群任务分配中任务的完成总时间和总航程,提出一种基于Actor-Critic算法的优化方法。利用Actor-Critic算法中的Actor网络,根据当前状态生成任务分配策略,并用Critic网络评估Actor网络生成的策略价值。采用多阶时序差分误差,结合多个时间步的奖励来更新策略,以提高学习效率并减少延迟奖励。在多种任务场景下,通过仿真实验进行对比。仿真结果表明:该方法能够显著减少任务完成时间和航行距离,验证了在任务分配问题上的有效性。 展开更多
关键词 无人机集群 任务分配 强化学习 演员评论家算法
在线阅读 下载PDF
Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning 被引量:3
5
作者 Yun Zou Qing-Zi Xing +4 位作者 Bai-Chuan Wang Shu-Xin Zheng Cheng Cheng Zhong-Ming Wang Xue-Wu Wang 《Nuclear Science and Techniques》 SCIE CAS CSCD 2019年第10期133-141,共9页
This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the pre... This paper describes a real-time beam tuning method with an improved asynchronous advantage actor–critic(A3C)algorithm for accelerator systems.The operating parameters of devices are usually inconsistent with the predictions of physical designs because of errors in mechanical matching and installation.Therefore,parameter optimization methods such as pointwise scanning,evolutionary algorithms(EAs),and robust conjugate direction search are widely used in beam tuning to compensate for this inconsistency.However,it is difficult for them to deal with a large number of discrete local optima.The A3C algorithm,which has been applied in the automated control field,provides an approach for improving multi-dimensional optimization.The A3C algorithm is introduced and improved for the real-time beam tuning code for accelerators.Experiments in which optimization is achieved by using pointwise scanning,the genetic algorithm(one kind of EAs),and the A3C-algorithm are conducted and compared to optimize the currents of four steering magnets and two solenoids in the low-energy beam transport section(LEBT)of the Xi’an Proton Application Facility.Optimal currents are determined when the highest transmission of a radio frequency quadrupole(RFQ)accelerator downstream of the LEBT is achieved.The optimal work points of the tuned accelerator were obtained with currents of 0 A,0 A,0 A,and 0.1 A,for the four steering magnets,and 107 A and 96 A for the two solenoids.Furthermore,the highest transmission of the RFQ was 91.2%.Meanwhile,the lower time required for the optimization with the A3C algorithm was successfully verified.Optimization with the A3C algorithm consumed 42%and 78%less time than pointwise scanning with random initialization and pre-trained initialization of weights,respectively. 展开更多
关键词 REAL-TIME BEAM tuning Parameter optimization ASYNCHRONOUS ADVANTAGE actorcritic algorithm Low-energy BEAM transport
在线阅读 下载PDF
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:2
6
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 actor网络 critic网络 DDPG算法 深度强化学习 控制系统
原文传递
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 被引量:12
7
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动actor-critic 框架
在线阅读 下载PDF
基于改进Actor-Critic算法的多传感器交叉提示技术 被引量:2
8
作者 韦道知 张曌宇 +1 位作者 谢家豪 李宁 《系统工程与电子技术》 EI CSCD 北大核心 2023年第6期1624-1632,共9页
针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态... 针对在减少战场资源浪费、平衡战场效费比的同时提高目标探测概率,保证目标的可持续跟踪,提出利用改进Actor-Critic算法的多传感器交叉提示技术进行目标探测。首先,综合传感器探测、能耗、时效等因素搭建基于“交叉提示”传感器的动态管理评估模型;其次,重点分析利用Actor-Critic交叉提示算法的传感器管理决策规则,并且提出了Actor-Critic算法,以根据任务自身需求组建中央评价网络,加大传感器与外部环境的交互。仿真结果表明,改进的算法可以加速网络收益,实现对目标的持续性探测,加强传感器之间的交叉提示功能,提升调度的智能化水平,具有较大的应用价值。 展开更多
关键词 多传感器交叉提示 actor-critic算法 强化学习 目标探测 传感器资源调度
在线阅读 下载PDF
基于Actor-Critic算法的多无人机协同空战目标重分配方法 被引量:4
9
作者 陈宇轩 王国强 +1 位作者 罗贺 马滢滢 《无线电工程》 北大核心 2022年第7期1266-1275,共10页
目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分... 目标重分配问题是多无人机协同空战中亟需解决的关键问题之一。考虑到空战中的不确定性、实时性等特点,建立了多无人机协同空战目标重分配问题的数学模型,结合强化学习核心概念,提出了基于Actor-Critic算法的多无人机协同空战目标重分配框架,构建了基于目标重分配的马尔科夫决策过程、Actor网络结构和Critic网络结构。针对强化学习算法中存在的奖励稀疏问题,设计了局部回报和全局汇报相结合的双层回报函数。在基于VR-Forces仿真平台中验证了该方法的有效性。实验结果表明,提出的多无人机协同空战目标重分配方法能够有效地提升空战对抗的胜率。 展开更多
关键词 无人机 空战 目标重分配 强化学习 actor-critic算法
在线阅读 下载PDF
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制 被引量:5
10
作者 马丽新 刘晨 刘磊 《应用数学和力学》 CSCD 北大核心 2022年第1期104-114,共11页
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数... 研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性. 展开更多
关键词 分数阶多自主体系统 actor-critic算法 最优主-从一致性 事件触发 间歇
在线阅读 下载PDF
Actor-critic框架下的二次指派问题求解方法 被引量:2
11
作者 李雪源 韩丛英 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第2期275-284,共10页
二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完... 二次指派问题(QAP)属于NP-hard组合优化问题,在现实生活中有着广泛应用。目前相对成熟的启发式算法通常以问题为导向来设计定制化算法,缺乏迁移泛化能力。为提供一个统一的QAP求解策略,将QAP问题的流量矩阵及距离矩阵抽象成两个无向完全图并构造相应的关联图,从而将设施和地点的指派任务转化为关联图上的节点选择任务,基于actor-critic框架,提出一种全新的求解算法ACQAP。首先,利用多头注意力机制构造策略网络,处理来自图卷积神经网络的节点表征向量;然后,通过actor-critic算法预测每个节点被作为最优节点输出的概率;最后,依据该概率在可行时间内输出满足目标奖励函数的动作决策序列。该算法摆脱人工设计,且适用于不同规模的输入,更加灵活可靠。实验结果表明,在QAPLIB实例上,本算法在精度媲美传统启发式算法的前提下,迁移泛化能力更强;同时相对于NGM等基于学习的算法,求解的指派费用与最优解之间的偏差最小,且在大部分实例中,偏差均小于20%。 展开更多
关键词 二次指派问题 图卷积神经网络 深度强化学习 多头注意力机制 actor-critic算法
在线阅读 下载PDF
基于Actor-Critical架构的5G Massive MIMO波束能效的研究与应用
12
作者 乔勇 葛昌帅 +1 位作者 张天兴 鲁晓峰 《通信技术》 2022年第12期1642-1649,共8页
大规模阵列天线技术(Massive Multiple Input Multiple Output,Massive MIMO)作为第五代移动通信(5G)的无线核心技术,实现了多波束空间覆盖增强,然而5G Massive MIMO的多波束射频高能耗、多波束碰撞和增加的干扰造会成5G网络能效下降,... 大规模阵列天线技术(Massive Multiple Input Multiple Output,Massive MIMO)作为第五代移动通信(5G)的无线核心技术,实现了多波束空间覆盖增强,然而5G Massive MIMO的多波束射频高能耗、多波束碰撞和增加的干扰造会成5G网络能效下降,运营成本增高。基于3D数字地图、基站工程参数、终端上报的测量报告/最小化路测(Measurement Report/Minimization of Drive Test,MR/MDT)数据、用户/业务分布构建的三维数字孪生栅格,通过卷积长短期记忆(Convolutional Long Short Term Memory,Conv-LSTM)算法对栅格内的用户分布、业务分布进行分析和预测,通过Actor-Critic架构对5G波束配置和优化策略进行评估,实现不同场景、时段的5G波束最佳能效,智能适应5G网络潮汐效应,实现“网随业动”。 展开更多
关键词 大规模阵列天线技术 数字孪生 actor-critic算法架构 波束能效
在线阅读 下载PDF
基于Actor-Critic框架的渗透测试路径技术研究
13
作者 陆燕 杨秋芬 《科技资讯》 2022年第21期5-10,共6页
该文将层次强化学习与渗透测试相结合,将渗透测试过程建模为半马尔可夫决策模型,训练Agent在模拟网络环境中完成渗透测试路径发现,并提出了一种改进的基于Actor-Critic框架改进的自动分层记忆AHM-DQN算法(Automatic hierarchical memory... 该文将层次强化学习与渗透测试相结合,将渗透测试过程建模为半马尔可夫决策模型,训练Agent在模拟网络环境中完成渗透测试路径发现,并提出了一种改进的基于Actor-Critic框架改进的自动分层记忆AHM-DQN算法(Automatic hierarchical memory Deep Q Networks,AHM-DQN)。首先,在Actor网络中加入一个双向递归神经网络作为同一Agent的信息交换层;其次,在Critic网络加入其他种类的Agent信息来学习多种Agent协同策略。该算法在Actor-Critic算法上进行了以下改进:一是集成了自动分层功能,对任务目标和动作的选择进行自动分层,提高了算法的效率;二是结合记忆因子,帮助Agent有效地记忆和学习,解决奖励值的稀疏性问题,提高算法精度。该算法在学习效率和收敛速度上优于传统的分层学习算法,解决了渗透测试主要依靠人工进行的问题。 展开更多
关键词 渗透测试 分层学习算法 AHM-DQN算法 actor-critic框架
在线阅读 下载PDF
基于交叉熵的AC算法动态调参微网变换器自抗扰稳压控制
14
作者 周雪松 马立聪 +3 位作者 赵明 陈韵霏 耿盛意 李双 《高电压技术》 北大核心 2026年第3期1146-1158,共13页
DC-DC接口变换器对直流微网强不确定性抑制具有重要作用,但其母线电压波动、负载变化和建模误差等不确定性因素,对系统稳压控制带来了严峻挑战。为抑制直流微网输出电压波动,考虑自抗扰不依赖模型信息和抗扰能力强的优点,融合演员-评论... DC-DC接口变换器对直流微网强不确定性抑制具有重要作用,但其母线电压波动、负载变化和建模误差等不确定性因素,对系统稳压控制带来了严峻挑战。为抑制直流微网输出电压波动,考虑自抗扰不依赖模型信息和抗扰能力强的优点,融合演员-评论家(actor-critic,AC)算法自学习的特征,提出一种基于AC算法的DC-DC接口变换器强化学习自抗扰控制策略,将自抗扰控制(active disturbance rejection control,ADRC)的控制器参数调节问题表征为马尔科夫决策过程,根据智能体与系统交互数据持续学习微网模型复杂规律,训练生成误差驱动的鲁棒最优参数动态调节曲线。数值仿真和物理实验结果表明,对比传统线性自抗扰控制(linear active disturbance rejection control,LADRC),所提策略在母线电压波动、负载变化时的输出电压最大偏移量分别减小了60.8%和58.6%,对应的恢复时间缩短了22 ms和23 ms,表现出更优越的抗扰性能,同时对电容电感参数变化具有较强的鲁棒性。 展开更多
关键词 直流微网 DC-DC变换器 强化学习 AC算法 自抗扰控制
原文传递
基于深度强化学习的医院人力资源调度优化研究
15
作者 朱文霞 赵海霞 +1 位作者 王顺丽 张燕 《电子设计工程》 2026年第8期144-148,共5页
针对医院人力资源调度过程中动态性和复杂性的问题,提出了一种基于深度强化学习的优化方法。通过建立约束优化模型,将人力资源分配问题建模为马尔可夫决策过程,并采用软演员-评论家算法作为主要框架,结合双网络结构进行改进,以提升算法... 针对医院人力资源调度过程中动态性和复杂性的问题,提出了一种基于深度强化学习的优化方法。通过建立约束优化模型,将人力资源分配问题建模为马尔可夫决策过程,并采用软演员-评论家算法作为主要框架,结合双网络结构进行改进,以提升算法的稳定性和响应效率。实验结果表明,深度强化学习方法在需求满足率(95.3%)、资源利用率(88%)和调度稳定性(10.2)等多个指标上均优于启发式规则方法和线性规划方法。同时,该方法在复杂动态任务中表现出良好的鲁棒性和高效性,能够有效提升医院人力资源的分配效率。 展开更多
关键词 医院人力资源 深度强化学习 调度优化 软演员-评论家算法
在线阅读 下载PDF
一种基于改进型SAC的蜂甲一体协同作战仿真算法
16
作者 付泽建 魏洁英 +3 位作者 罗浩 魏国强 王杰 张华 《火力与指挥控制》 北大核心 2026年第1期148-155,共8页
基于强化学习的多智能体算法在作战仿真领域具有重要意义,针对传统算法在模拟蜂甲一体作战等高扩展性、高灵活性的复杂场景中的问题,引入集中计算的评论家注意力共享机制和多智能体优势函数,提出了一种基于改进型SAC的蜂甲一体协同作战... 基于强化学习的多智能体算法在作战仿真领域具有重要意义,针对传统算法在模拟蜂甲一体作战等高扩展性、高灵活性的复杂场景中的问题,引入集中计算的评论家注意力共享机制和多智能体优势函数,提出了一种基于改进型SAC的蜂甲一体协同作战仿真算法。结合作战场景与改进后的算法,设计两种蜂甲一体仿真作战环境进行对比研究。结果表明,相较于MADDPG算法和SAC算法,改进型SAC算法进一步提高了算法的回报率和收敛速度。 展开更多
关键词 蜂甲一体 作战仿真 强化学习 注意力机制 优势函数 软演员-评论家算法
在线阅读 下载PDF
基于强化学习算法的闸控河网工程水位控制方法
17
作者 陈珠亮 孔令仲 +4 位作者 肖洋 张涛涛 冯仲恺 王晓颖 刘子涵 《南水北调与水利科技(中英文)》 北大核心 2026年第1期31-41,共11页
为保障河道网络工程景观功能发挥与供水安全、实现水位稳定控制,传统水位控制方法中基于经验的手动调节和比例-积分(proportional-integral,PI)自动控制算法存在明显局限性,易导致水位调节精度不足、动态过程中振荡现象明显等问题,难以... 为保障河道网络工程景观功能发挥与供水安全、实现水位稳定控制,传统水位控制方法中基于经验的手动调节和比例-积分(proportional-integral,PI)自动控制算法存在明显局限性,易导致水位调节精度不足、动态过程中振荡现象明显等问题,难以满足工程对水位稳定的核心需求。通过构建河道水闸群强化学习训练框架,采用软演员评论家(soft actor-critic,SAC)算法训练水闸控制智能体,以实现水闸群实时高效联合调控。结果表明:经充分训练收敛后,该智能体水力控制性能优异,随机流量扰动引发水位波动时,可快速将水位精准调控至目标值(偏差严格控制在±0.2 m内),调控误差范围较传统PI算法缩小48.8%。相较于PI算法,其核心优势为:水位稳定速度显著提升,动态调节收敛速度加快40%;水闸操作次数大幅减少,闸门动作频次降低32%;环境适应性更强,可在不同水流条件下稳定维持期望水位(PI算法对部分渠池如闸4的水位调控偏差达0.332 m,超出目标范围)。研究证实,基于SAC的强化学习方法为河道网络水位稳定调控提供了创新解决方案,能有效应对随机流量扰动,提升水位调节稳定性与精准度,为河网智能化管理控制提供重要技术支撑,在工程中应用前景广阔。 展开更多
关键词 河网 水位控制 强化学习 SAC算法 闸门调控
在线阅读 下载PDF
数据驱动的GNSS定位误差修正方法研究
18
作者 李静怡 庄忱 赵洪博 《信息对抗技术》 2026年第1期75-89,共15页
由于多路径效应和非视距干扰,全球导航卫星系统(global navigation satellite system, GNSS)在复杂的城市地区的定位精度受到严重影响,导致误差显著增加。传统的定位方法对复杂非线性误差处理能力有限,为此,提出了一种基于强化学习Actor... 由于多路径效应和非视距干扰,全球导航卫星系统(global navigation satellite system, GNSS)在复杂的城市地区的定位精度受到严重影响,导致误差显著增加。传统的定位方法对复杂非线性误差处理能力有限,为此,提出了一种基于强化学习Actor-Critic的GNSS定位误差修正方法。搭建了基于强化学习环境的定位误差修正系统,通过从输出高斯分布参数的策略中采样,设计了动作空间实现三维定位误差修正与补偿,兼顾定位误差修正与动作幅度约束引入了奖惩机制,并将多源特征融合形成多输入的观测状态空间,确保方法的可靠运行。为了验证所提算法误差修正的有效性,选取城市复杂环境下的实测数据进行验证,实验结果表明,该方法能够在训练集与测试集上均表现出良好的误差修正能力,测试集上模型实现了平均50.62%的误差修正,提升了GNSS定位精度。 展开更多
关键词 GNSS定位 误差修正 强化学习 城市复杂环境 actor-critic算法
在线阅读 下载PDF
基于软演员-评论家的移动边缘计算任务卸载策略
19
作者 郭阳 江晓明 《通信技术》 2026年第1期70-77,共8页
无人机凭借部署灵活、覆盖范围广以及无线通信可靠等特点,已在移动边缘计算中得到广泛应用。考虑到无人机在能耗和计算能力方面的局限性,构建了任务卸载与飞行轨迹的联合优化问题,并以任务处理时延与能耗的加权和最小化为优化目标,提出... 无人机凭借部署灵活、覆盖范围广以及无线通信可靠等特点,已在移动边缘计算中得到广泛应用。考虑到无人机在能耗和计算能力方面的局限性,构建了任务卸载与飞行轨迹的联合优化问题,并以任务处理时延与能耗的加权和最小化为优化目标,提出了一种改进型软演员-评论家算法。该算法通过引入长短期记忆网络增强模型对时序特征的建模能力,同时结合优先经验回放机制提升训练收敛效率。仿真结果表明,所提出的算法在降低系统开销方面表现出显著优势。 展开更多
关键词 移动边缘计算 任务卸载 无人机 软演员-评论家算法
在线阅读 下载PDF
基于SC-SAC算法的REHMIS-IES优化调度策略
20
作者 潘雷 丁云飞 +4 位作者 庞毅 王宇璇 陈建伟 高瑞 张立阳 《综合智慧能源》 2026年第1期43-58,共16页
可再生能源-制氢-制甲醇一体站(REHMIS)通过利用可再生能源发电制取绿氢,并进一步将绿氢与二氧化碳合成甲醇,从而实现绿氢对传统化石能源制氢的替代。为了同时满足REHMIS的甲醇负荷需求及其配套建筑的多能源需求,设计了新型综合能源系统... 可再生能源-制氢-制甲醇一体站(REHMIS)通过利用可再生能源发电制取绿氢,并进一步将绿氢与二氧化碳合成甲醇,从而实现绿氢对传统化石能源制氢的替代。为了同时满足REHMIS的甲醇负荷需求及其配套建筑的多能源需求,设计了新型综合能源系统(IES)拓扑结构REHMIS-IES。为获得REHMIS-IES高效运行策略,提出了一种基于严格约束的软演员-评论家(SC-SAC)算法执行框架。将所建数学模型转化为马尔可夫决策过程,同时引入状态约束机制(SCM)以避免储能系统状态出现剧烈波动。在SC-SAC算法的执行阶段,将训练后的Q网络与动作约束转化成混合整数线性规划(MILP)模型,以保证调度决策能够满足各项运行约束。多场景仿真结果表明:所提系统在保障多能需求的同时可有效降低运行成本;与其他深度强化学习算法相比,SC-SAC算法可使系统能量不平衡度降低约16.2%,运行成本至少下降11.7%。 展开更多
关键词 可再生能源-制氢-制甲醇一体化站 绿氢 储能 综合能源系统 深度强化学习 状态约束机制 软演员-评论家算法 混合整数线性规划
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部