期刊文献+
共找到81篇文章
< 1 2 5 >
每页显示 20 50 100
考虑空调系统的燃料电池汽车能量管理策略
1
作者 赵又群 徐周 +3 位作者 虞志浩 林棻 何鲲鹏 尤庆伸 《华南理工大学学报(自然科学版)》 北大核心 2025年第6期56-65,共10页
在燃料电池混合动力汽车的实际运行中,空调系统为驾驶员和乘客提供舒适的环境,然而空调系统的运行效果与汽车实际运行的能量分配相互影响,因此需要将空调系统考虑进能量管理策略,设计出在满足舱内温度舒适性要求的情况下,兼顾整车氢耗... 在燃料电池混合动力汽车的实际运行中,空调系统为驾驶员和乘客提供舒适的环境,然而空调系统的运行效果与汽车实际运行的能量分配相互影响,因此需要将空调系统考虑进能量管理策略,设计出在满足舱内温度舒适性要求的情况下,兼顾整车氢耗经济性的能量管理策略。首先在建立整车动力学模型的基础上,利用热平衡方程建立热泵空调系统模型和热负荷模型;然后采用结合了双Q网络和深度确定性策略梯度的优先经验采样的双延迟深度确定性策略梯度(TD3-PER)算法,建立考虑空调系统能耗与车辆运行需求的能量管理策略。在NEDC典型工况下进行仿真得出:TD3-PER能量管理策略下的空调系统能够使舱温在100s内迅速达到并维持在22~26℃的舒适范围内,满足制冷/制热的同时又保证车舱温度舒适,验证了考虑空调系统时TD3-PER能量管理策略的可行性;在空调系统制冷/制热时,相比传统的深度确定性策略梯度(DDPG)算法策略,基于TD3-PER算法策略的功率分配情况能够延长燃料电池和蓄电池使用寿命,且在制冷/制热时根据氢耗量分别可提高2.59和3.58个百分点的经济性,验证了基于TD3-PER算法能量管理策略在降低氢耗量、提高整车经济性方面相较于传统算法更具优势。 展开更多
关键词 双能源燃料电池汽车 空调系统 能量管理策略 TD3-PER DDPG
在线阅读 下载PDF
基于改进强化学习的复杂海况下船舶升沉补偿控制研究
2
作者 张琴 周静宜 +1 位作者 王星月 胡雄 《工程科学与技术》 北大核心 2025年第4期123-137,共15页
受多变海况下风浪涌影响,剧烈的船舶随机运动威胁着海上风机吊载安装的安全性,并对海上作业和人员换乘等造成不好的影响。为提高海上作业的可靠性、安全性和稳定性,针对船舶升沉运动补偿中面临的环境多变和建模不准确的问题,提出基于改... 受多变海况下风浪涌影响,剧烈的船舶随机运动威胁着海上风机吊载安装的安全性,并对海上作业和人员换乘等造成不好的影响。为提高海上作业的可靠性、安全性和稳定性,针对船舶升沉运动补偿中面临的环境多变和建模不准确的问题,提出基于改进强化学习的复杂海况下船舶升沉补偿控制方法。首先,对由伺服驱动器、伺服电机及编码器和电动缸构成的补偿系统进行机理法建模,作为强化学习训练的环境。其次,通过马尔可夫决策过程描述智能体的策略和奖励,同时采用双延迟深度确定策略梯度算法(TD3)强化学习算法作为控制策略,将Actor网络中的输出层TanH层的幅值扩大两倍,使TD3算法能更好地应对复杂海况,并通过主网络和目标网络的Actor和Critic 6个网络的迭代更新,得到自学习的最优控制动作输出。最后,添加OU动作噪声到目标策略中,能够更好地探索状态空间,并通过组合奖励函数改善智能体的学习和决策能力,使智能体可以适应复杂海况下的强化学习任务,在不同海况等级下利用已知的信息找到最优解,从而避免陷入局部最优,以提高船舶升沉运动的补偿精度。仿真结果表明,在恶劣的复杂海况下改进TD3算法有较好的补偿控制效果;将训练好的模型用于3~6级以及历时更长的变海况环境下的船舶升沉运动补偿,其补偿效率最高可达到99.95%,优于PSO优化的反步法控制和传统TD3强化学习方法,体现了良好的泛化性。 展开更多
关键词 复杂海况环境 船舶升沉运动 补偿控制系统 TD3强化学习
在线阅读 下载PDF
改进TD3算法的机械臂三维路径规划方法
3
作者 马天 李超 杨嘉怡 《电光与控制》 北大核心 2025年第1期100-105,共6页
在军事航空领域中,复杂任务对机械臂路径规划提出了挑战。针对双延迟深度确定性策略梯度(TD3)算法学习效率低、样本利用率低的问题,提出了一种改进的TD3算法(Recurrent-TD3算法)。首先,将LSTM结合到策略网络与价值网络中,捕获航空控制... 在军事航空领域中,复杂任务对机械臂路径规划提出了挑战。针对双延迟深度确定性策略梯度(TD3)算法学习效率低、样本利用率低的问题,提出了一种改进的TD3算法(Recurrent-TD3算法)。首先,将LSTM结合到策略网络与价值网络中,捕获航空控制任务中的时间序列信息,增强对时间序列变化的响应能力,使其能够在决策时考虑历史动作和状态,提高网络的表达能力;然后,将事后经验回放(HER)技术集成到TD3算法中,以解决任务中稀疏奖励难以学习的问题,通过将未达到目标的经验转化为达到新目标的经验,从而更有效地利用样本;最后,设计了一种基于包围盒的碰撞检测流程,以提高机械臂在军用航空任务中的安全性。实验表明,该算法相比于其他算法能够更快地找到一条无碰撞的路径,且平均路径长度最短。 展开更多
关键词 机械臂 路径规则 TD3 长短期记忆网络 事后经验回放技术
在线阅读 下载PDF
基于改进TD3算法的青霉素发酵过程控制方法
4
作者 王晓君 徐涛 +2 位作者 赵春丽 彭亮亮 杜越 《软件导刊》 2025年第10期104-110,共7页
为提高复杂场景下的青霉素产量,提出一种基于改进TD3算法的发酵控制模型Res-OD-TD3,以实现对青霉素发酵过程的优化控制。首先,将残差网络融合到Actor和Critic网络中,用于提升其收敛性;其次,使用OU噪声代替传统高斯噪声,使动作值能够在... 为提高复杂场景下的青霉素产量,提出一种基于改进TD3算法的发酵控制模型Res-OD-TD3,以实现对青霉素发酵过程的优化控制。首先,将残差网络融合到Actor和Critic网络中,用于提升其收敛性;其次,使用OU噪声代替传统高斯噪声,使动作值能够在连续控制任务中以更平滑的方式进行探索,减少探索过程中的剧烈波动;最后,通过动态调整的Huber损失函数对原有损失函数进行改进,在训练的不同阶段提供更合适的损失度量,使算法在处理异常值时更为鲁棒。仿真实验结果表明,与传统的TD3算法和DDPG算法相比,Res-OD-TD3算法对于温度精度和稳定性的控制效果更好,溶解氧浓度分别提升了4.1%、5.5%,产量分别提升了12.8%、27.8%,证实了其在青霉素发酵优化控制中的显著优势。 展开更多
关键词 深度强化学习 控制策略 TD3算法 残差网络 青霉素发酵
在线阅读 下载PDF
基于双延迟深度确定性策略梯度的路由优化算法
5
作者 郑艺 韩永国 《计算机与数字工程》 2025年第8期2117-2121,共5页
随着人工智能、网络通信、网络应用的飞速发展,传统的路由算法如RIP、OSPF在面对网络流量的指数级增长以及不同服务需求的情况下存在收敛慢、平均时延高等一系列问题。而近年来深度强化学习在复杂控制领域取得巨大发展。路由优化算法本... 随着人工智能、网络通信、网络应用的飞速发展,传统的路由算法如RIP、OSPF在面对网络流量的指数级增长以及不同服务需求的情况下存在收敛慢、平均时延高等一系列问题。而近年来深度强化学习在复杂控制领域取得巨大发展。路由优化算法本质上讲就是一个控制优化问题。所以为了克服现有路由算法在某些场合下的弊端,将深度强化学习与计算机路由优化相结合。论文提出一种利用改进的DDPG算法,并命名为TD3OR算法去解决传统路由在某些场合下的弊端。实验表明,采用TD3OR算法的路由对比单纯DDPG算法以及传统OSPF算法的路由具有更低的延时,证明其是有效的。 展开更多
关键词 深度强化学习 DDPG td3or 路由优化
在线阅读 下载PDF
基于深度强化学习与数据驱动的超临界热电联产机组宽负荷灵活控制策略 被引量:1
6
作者 朱珂言 张光明 +3 位作者 王庆华 王玮 牛玉广 刘吉臻 《动力工程学报》 北大核心 2025年第5期785-795,共11页
为满足传统火电机组灵活调节性能的需求,提出了一种数据驱动的超临界热电联产(S-CHP)非线性环境建模方法和基于双延迟深度确定性策略梯度(TD3)的强化学习控制方法。首先,基于多层感知机(MLP)的深度学习算法与S-CHP机组动态特性,建立了... 为满足传统火电机组灵活调节性能的需求,提出了一种数据驱动的超临界热电联产(S-CHP)非线性环境建模方法和基于双延迟深度确定性策略梯度(TD3)的强化学习控制方法。首先,基于多层感知机(MLP)的深度学习算法与S-CHP机组动态特性,建立了数据驱动的非线性模型环境;进而基于深度强化学习算法,设计了契合S-CHP机组动态特性的演员-评委策略价值网络和S-CHP特定状态值与奖励函数,提出了一种TD3灵活控制策略以实现快速响应、保证供热及稳定运行的控制目标。结果表明:MLP模型环境与单层网络相比,在额定功率52%~93%负荷宽度下,均方根误差降低了51.7%;与传统协调控制方法相比,TD3控制策略具有更好的跟踪效果和更高的响应速率。 展开更多
关键词 S-CHP 强化学习 TD3 数据驱动模型 MLP 负荷响应
在线阅读 下载PDF
基于强化学习的风电场自适应调频控制方法
7
作者 田盛 刘永前 +1 位作者 田新首 迟永宁 《动力工程学报》 北大核心 2025年第10期1689-1695,1721,共8页
针对传统自适应调频方法难以根据系统动态变化实时调整控制参数,限制调频性能提升的问题,提出了一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)深度强化学习算法的风电场自适应调频控制方法... 针对传统自适应调频方法难以根据系统动态变化实时调整控制参数,限制调频性能提升的问题,提出了一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)深度强化学习算法的风电场自适应调频控制方法。根据电网频率及风电场运行状态,智能体在训练过程中对调频参数进行学习和优化,实现对调频参数的动态自适应调整。结果表明:与传统自适应比例积分(PI)调频控制方法相比,所提方法在不同工况及负载扰动下的最大频率偏差显著降低,频率响应性能得到提升,验证了所提方法的有效性。 展开更多
关键词 风电场 调频控制 深度强化学习 TD3
在线阅读 下载PDF
基于TD3-MPC算法的芯片分拣机轨迹规划研究 被引量:1
8
作者 何金山 孟新宇 《凿岩机械气动工具》 2025年第3期86-88,共3页
针对芯片分拣机运动平台在复杂轨迹规划中的高精度需求,文章提出了一种将双延迟深度确定策略梯度算法(twin delayed deep deterministic policy gradient,TD3)与模型预测控制(model predictive control,MPC)相结合的混合控制策略——TD3... 针对芯片分拣机运动平台在复杂轨迹规划中的高精度需求,文章提出了一种将双延迟深度确定策略梯度算法(twin delayed deep deterministic policy gradient,TD3)与模型预测控制(model predictive control,MPC)相结合的混合控制策略——TD3-MPC。仿真实验结果表明,TD3-MPC算法能够有效提高轨迹规划精度,并在复杂轨迹和动态环境中表现出更高的灵活性与稳定性。 展开更多
关键词 TD3 MPC 轨迹规划 芯片分拣机
在线阅读 下载PDF
基于强化学习的路径规划算法研究
9
作者 徐澳 付昱凯 +1 位作者 彭瑞飞 崔世界 《组合机床与自动化加工技术》 北大核心 2025年第10期52-57,共6页
在庞大而复杂的动态环境中,自动导引车(automated guided vehicle, AGV)路径规划系统存在搜索效率低、收敛速度慢,甚至无法收敛的问题。为了解决这些问题,提高AGV在学习过程中的收敛速度,提出了一种新的强化学习方法I-TD3-LSTM算法。具... 在庞大而复杂的动态环境中,自动导引车(automated guided vehicle, AGV)路径规划系统存在搜索效率低、收敛速度慢,甚至无法收敛的问题。为了解决这些问题,提高AGV在学习过程中的收敛速度,提出了一种新的强化学习方法I-TD3-LSTM算法。具体来说,通过引入模仿学习(imitation learning, IL)和长短时记忆(long short-term memory, LSTM)网络对双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3)算法进行了优化。首先,在AGV的强化学习过程中引入模仿学习,促使AGV学习已知环境中的专家经验,从而帮助AGV进行动作选择和决策;其次,使用LSTM网络处理AGV的时间序列信息,加快AGV的收敛速度。实验结果表明,I-TD3-LSTM算法能够有效解决复杂环境下的AGV路径规划问题。 展开更多
关键词 路径规划 强化学习 TD3 IL LSTM
在线阅读 下载PDF
基于TD3算法的多智能体协作缓存策略
10
作者 曾建州 李泽平 张素勤 《计算机工程》 北大核心 2025年第2期365-374,共10页
为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节... 为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节点的缓存状态和内容请求信息融入到各节点的观察空间,提高智能体对环境的感知能力,并通过三次指数平滑法提取各节点内容请求的流行度特征,使得算法能够适应内容流行度变化,从而提高缓存命中率;然后联合本地与相邻节点的传输时延和开销来设计指导性奖励函数,引导智能体进行协作缓存,降低系统的缓存冗余和内容传输开销;最后结合Wolpertinger Architecture方法对TD3算法进行多智能体扩展,使每个边缘节点都能自适应地学习缓存策略,从而提高系统性能。实验结果表明,MACC算法中边缘节点牺牲了部分缓存空间来协助相邻节点缓存请求内容,从而提高缓存命中率,在同一数据集上与MAAC、DDPG、独立TD3算法相比,MACC算法的缓存命中率分别平均提高了8.50%、13.91%和29.21%,并能适应动态的边缘环境,实现较小的内容获取时延和传输开销。 展开更多
关键词 移动边缘网络 多智能体 协作缓存 深度强化学习 TD3算法
在线阅读 下载PDF
基于改进TD3的四足机器人非结构化地形运动控制 被引量:1
11
作者 谢子健 秦建军 曹钰 《现代制造工程》 北大核心 2025年第1期33-41,共9页
四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融... 四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融合记忆组件的双延迟深度确定性策略梯度(Memory-integrated Twin Delayed Deep Deterministic policy gradient,M-TD3)算法。首先,对四足机器人以及非结构化地形建模;其次,分析M-TD3算法收敛状态与学习效率;最后,为验证控制器性能,针对多种地形进行运动控制仿真对比并制作样机进行测试。仿真结果表明,相较于传统TD3算法,M-TD3算法收敛更快,效率更高,运动控制性能有显著改善,样机测试结果证明基于改进TD3算法所设计的控制器能够让四足机器人在非结构化地形进行有效的运动越障。 展开更多
关键词 四足机器人 非结构化地形 深度强化学习 TD3算法
在线阅读 下载PDF
基于改进TD3的山地无人作业底盘姿态控制方法
12
作者 李希明 刘业通 +3 位作者 彭世康 吴湘柠 李恒强 蒙艳玫 《现代制造工程》 北大核心 2025年第5期1-11,共11页
针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度... 针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法的底盘姿态控制策略。首先,搭建七自由度主动悬架振动模型环境;然后,训练NRBO-XGBoost的状态预测模型,在TD3算法中加入状态预测模型并在网络中加入注意力机制,增强TD3智能体在复杂环境下的决策能力和适应能力,同时设计奖励函数并训练TD3智能体,实现在复杂道路环境下的底盘姿态控制;最后,基于Matlab 2023a/Simulink软件开展仿真。仿真结果表明,基于改进TD3的底盘姿态控制策略能够有效抑制无人作业底盘在复杂道路下的姿态变化,其俯仰角、侧倾角和垂向位移分别抑制了61.4%、84.9%和84.9%,显著提高了平稳性;相比传统DDPG、PPO和TD3强化学习控制策略,改进TD3算法下的俯仰角分别改善了49.1%、7.4%和37.2%,侧倾角分别改善了83.3%、36.5%和34.7%,垂向位移分别改善了70.7%、77.5%和64.0%,垂向位移加速度分别改善了67.7%、42.1%和49.7%,控制效果更好,具有更好的适应性与鲁棒性。 展开更多
关键词 山地无人作业底盘 主动悬架控制 改进TD3算法 自注意力机制
在线阅读 下载PDF
基于状态距离优先的多经验池经验回放方法
13
作者 邓玲 李智 《电子制作》 2025年第2期62-66,共5页
在MuJoCo连续控制任务中TD3算法表现良好。为进一步提高其经验回放机制的利用率、学习稳定性、加快收敛,提出改进多经验池的经验回放方法(DRP_TER)。三经验池:全局经验池、优先经验池、最新经验池,在全局经验池中,优先采样状态距离接近... 在MuJoCo连续控制任务中TD3算法表现良好。为进一步提高其经验回放机制的利用率、学习稳定性、加快收敛,提出改进多经验池的经验回放方法(DRP_TER)。三经验池:全局经验池、优先经验池、最新经验池,在全局经验池中,优先采样状态距离接近(距离远离)当前最新经验状态以及高于当前最新经验奖励的经验;而在优先经验(PER)池中,则根据经验的优先级进行采样;在最新经验池中采样最新的经验。TD3算法基础上改进经验回放在MuJoCo连续控制任务中测试。实验结果表明,相比于均匀采样以及优先经验回放,DRP_TER具有更优越的性能。 展开更多
关键词 TD3算法 优先经验回放 多经验池 距离最近(最远)经验 最新经验
在线阅读 下载PDF
基于深度强化学习的高铁网络多路径智能拥塞控制算法
14
作者 谢周杨 王成群 《电子科技》 2025年第11期1-7,共7页
多路径传输控制协议(Multipath Transmission Control Protocol,MPTCP)可保证高速铁路网络中通信服务的可靠性,但高速铁路网络中频繁切换和无线损失现象会对MPTCP的性能产生不利影响。针对这些问题,文中提出了一种基于深度强化学习的高... 多路径传输控制协议(Multipath Transmission Control Protocol,MPTCP)可保证高速铁路网络中通信服务的可靠性,但高速铁路网络中频繁切换和无线损失现象会对MPTCP的性能产生不利影响。针对这些问题,文中提出了一种基于深度强化学习的高铁网络多路径拥塞控制算法(High Speed Railway Multipath Congestion Control,HSR-MPCC)。HSR-MPCC算法在传统多路径拥塞控制算法中加入加减窗因子,可以根据不同网络状态智能调节加减窗因子数值,从而在传统多路径拥塞控制算法计算所得的拥塞窗口较大或较小时对拥塞窗口进行调整。在此基础上,利用深度强化学习技术实时计算最佳加减窗因子,从而使客户端发送速率与高度动态变化的高铁链路带宽相匹配。实验结果表明,HSR-MPCC能够提升Uncoupled、LIA(Linked Increase Algorithm)和OLIA(Opportunistic Linked Increases Algorithm)等传统多路径拥塞控制算法的性能,可以使改进后的多路径拥塞算法更好地适应动态高速铁路网络。 展开更多
关键词 高速铁路网络 多路径TCP 拥塞控制 深度强化学习 TD3 系统吞吐量 ns-3 天地一体化网络
在线阅读 下载PDF
基于强化学习的飞行器轨迹跟踪制导与编队保持问题研究
15
作者 滕庆骅 惠俊鹏 +1 位作者 李天任 杨奔 《导弹与航天运载技术(中英文)》 北大核心 2025年第2期60-68,共9页
飞行器的智能化升级对制导能力提出了新的需求,传统算法在有偏差条件下跟踪空间三维轨迹的表现不佳。基于TD3强化学习算法设计了飞行器轨迹跟踪制导方式。通过偏差形式的动作空间、奖励函数中的惩罚项、距离变化率的导引,解决了算法训... 飞行器的智能化升级对制导能力提出了新的需求,传统算法在有偏差条件下跟踪空间三维轨迹的表现不佳。基于TD3强化学习算法设计了飞行器轨迹跟踪制导方式。通过偏差形式的动作空间、奖励函数中的惩罚项、距离变化率的导引,解决了算法训练难收敛、控制量波动过大、中末交班点偏差累积大等问题。相比传统LQR算法,强化学习制导算法的制导精度、偏差适应性均有较大提升,且具备良好的泛用性,能够应用于小规模编队保持问题。 展开更多
关键词 TD3算法 标准轨迹制导 强化学习制导 编队保持 蒙特卡罗仿真
在线阅读 下载PDF
非完美SIC D2D-NOMA系统吞吐量最大化功率分配
16
作者 张东方 叶成荫 《电子测量技术》 北大核心 2025年第8期80-87,共8页
针对D2D-NOMA系统在非完美串行干扰消除条件下的吞吐量最大化问题,提出了一种基于非完美SIC的D2D-NOMA系统吞吐量最大化算法。首先在蜂窝用户和D2D用户的服务质量、最大发射功率下,考虑非完美SIC条件,建立一个以D2D-NOMA系统的吞吐量最... 针对D2D-NOMA系统在非完美串行干扰消除条件下的吞吐量最大化问题,提出了一种基于非完美SIC的D2D-NOMA系统吞吐量最大化算法。首先在蜂窝用户和D2D用户的服务质量、最大发射功率下,考虑非完美SIC条件,建立一个以D2D-NOMA系统的吞吐量最大化为目标的优化模型。然后将模型转换为以吞吐量为奖励的马尔可夫决策过程。利用TD3算法设计了一个功率分配算法,实现了系统吞吐量最大化。经仿真验证,所提出的算法与DDPG算法、遗传算法和随机功率分配算法相比,非完美SIC下D2D-NOMA系统的吞吐量分别提高了约14%、25%和40%,也展现出更优的收敛性和公平性。 展开更多
关键词 非完美SIC D2D-NOMA系统 吞吐量最大化 TD3算法
原文传递
基于多智能体强化学习的反应堆功率协调控制方法研究
17
作者 牛振锋 李桐 +4 位作者 李江宽 刘永超 吕为 谭思超 田瑞峰 《核动力工程》 北大核心 2025年第2期186-192,共7页
为提高核电厂反应堆功率与蒸汽发生器水位的协调控制精度,本研究提出了一种基于双延迟深度确定性策略梯度(TD3)算法的多智能体强化学习协调控制框架,在该框架中,不同子任务被分配给相应的智能体,各智能体相互配合以准确协调反应堆功率... 为提高核电厂反应堆功率与蒸汽发生器水位的协调控制精度,本研究提出了一种基于双延迟深度确定性策略梯度(TD3)算法的多智能体强化学习协调控制框架,在该框架中,不同子任务被分配给相应的智能体,各智能体相互配合以准确协调反应堆功率和蒸汽发生器水位。通过一系列仿真实验,评估了该框架在不同工况下的性能表现,结果表明,多智能体控制框架在多种功率切换工况下显著提高了控制速度和稳定性,其超调量和控制时间均优于传统比例积分微分(PID)控制器,证明了该框架的有效性和优越性;此外,该框架在未经训练的新工况中也表现出优异的泛化能力,能够有效改善反应堆功率的协调控制精度与稳定性。 展开更多
关键词 RELAP5协调控制 反应堆功率控制 蒸汽发生器水位控制 多智能体强化学习 双延迟深度确定性策略梯度(TD3)
原文传递
Evaluating Domain Randomization Techniques in DRL Agents:A Comparative Study of Normal,Randomized,and Non-Randomized Resets
18
作者 Abubakar Elsafi 《Computer Modeling in Engineering & Sciences》 2025年第8期1749-1766,共18页
Domain randomization is a widely adopted technique in deep reinforcement learning(DRL)to improve agent generalization by exposing policies to diverse environmental conditions.This paper investigates the impact of diff... Domain randomization is a widely adopted technique in deep reinforcement learning(DRL)to improve agent generalization by exposing policies to diverse environmental conditions.This paper investigates the impact of different reset strategies,normal,non-randomized,and randomized,on agent performance using the Deep Deterministic Policy Gradient(DDPG)and Twin Delayed DDPG(TD3)algorithms within the CarRacing-v2 environment.Two experimental setups were conducted:an extended training regime with DDPG for 1000 steps per episode across 1000 episodes,and a fast execution setup comparing DDPG and TD3 for 30 episodes with 50 steps per episode under constrained computational resources.A step-based reward scaling mechanism was applied under the randomized reset condition to promote broader state exploration.Experimental results showthat randomized resets significantly enhance learning efficiency and generalization,with DDPG demonstrating superior performance across all reset strategies.In particular,DDPG combined with randomized resets achieves the highest smoothed rewards(reaching approximately 15),best stability,and fastest convergence.These differences are statistically significant,as confirmed by t-tests:DDPG outperforms TD3 under randomized(t=−101.91,p<0.0001),normal(t=−21.59,p<0.0001),and non-randomized(t=−62.46,p<0.0001)reset conditions.The findings underscore the critical role of reset strategy and reward shaping in enhancing the robustness and adaptability of DRL agents in continuous control tasks,particularly in environments where computational efficiency and training stability are crucial. 展开更多
关键词 DDPG agent TD3 agent deep reinforcement learning domain randomization generalization non-randomized reset normal reset randomized reset
在线阅读 下载PDF
Active Disturbance Rejection Control Based on Twin-Delayed Deep Deterministic Policy Gradient for an Exoskeleton
19
作者 Zhong Li Xiaorong Guan +4 位作者 Chunyang Liu Dingzhe Li Long He Yanfeng Cao Yi Long 《Journal of Bionic Engineering》 2025年第3期1211-1230,共20页
The study of exoskeletons has been a popular topic worldwide.However,there is still a long way to go before exoskeletons can be widely used.One of the major challenges is control,and there is no specific research tren... The study of exoskeletons has been a popular topic worldwide.However,there is still a long way to go before exoskeletons can be widely used.One of the major challenges is control,and there is no specific research trend for controlling exoskeletons.In this paper,we propose a novel exoskeleton control strategy that combines Active Disturbance Rejection Control(ADRC)and Deep Reinforcement Learning(DRL).The dynamic model of the exoskeleton is constructed,followed with the design of the ADRC.To automatically adjust the control parameters of the ADRC,the Twin-Delayed Deep Deterministic Policy Gradient(TD3)is utilized.Then a reward function is defined in terms of the joint angle,angular velocity,and their errors to the desired values,to maximize the accuracy of the joint angle.In the simulations and experiments,a conventional ADRC,and ADRC based on Genetic Algorithm(GA)and Particle Swarm Optimization(PSO)were carried out for comparison with the proposed control method.The results of the tests show that TD3-ADRC has a rapid response,small overshoot,and low Mean Absolute Error(MAE)and Root Mean Square Error(RMSE)followed with the desired,demonstrating the superiority of the proposed control method for the self-learning control of exoskeleton. 展开更多
关键词 EXOSKELETON ADRC TD3 Parameter tuning
在线阅读 下载PDF
基于深度强化学习陶瓷辊道窑温度自适应PID控制
20
作者 朱永红 姜涛 李蔓华 《中国陶瓷工业》 2025年第3期41-48,共8页
陶瓷辊道窑烧成温度是影响陶瓷成品质量的关键因素,因而陶瓷辊道窑温度控制至关重要。针对目前辊道窑使用传统PID控制效果不理想,而使用模糊控制器又需要大量专家经验造成调试困难的问题,本文提出一种基于深度强化学习陶瓷辊道窑温度自... 陶瓷辊道窑烧成温度是影响陶瓷成品质量的关键因素,因而陶瓷辊道窑温度控制至关重要。针对目前辊道窑使用传统PID控制效果不理想,而使用模糊控制器又需要大量专家经验造成调试困难的问题,本文提出一种基于深度强化学习陶瓷辊道窑温度自适应PID控制方法。该方法通过深度强化学习TD3算法来自适应调整PID控制器参数,并采用Smith预估器来消除辊道窑系统时滞的影响,从而较好地实现对陶瓷辊道窑温度的控制。仿真实验结果表明,针对陶瓷辊道窑温度控制,本文基于Smith预估补偿的TD3的自适应PID控制比传统PID控制、Smith-PID控制、Smith-模糊PID控制均方差减少了5.58~11.42。因此,本文提出的控制方法有效可行,为提高陶瓷辊道窑温度控制效果提供了一种新思路,具有较大的理论意义与应用前景。 展开更多
关键词 陶瓷辊道窑 温度控制 TD3算法 PID控制 SMITH预估器
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部