期刊文献+
共找到121篇文章
< 1 2 7 >
每页显示 20 50 100
基于TD3强化学习的光储微网双向DC-DC变换器自抗扰控制研究
1
作者 马幼捷 胡钰 +3 位作者 周雪松 闫凤祥 白鑫 陶珑 《太阳能学报》 北大核心 2026年第1期202-213,共12页
考虑到高比例新能源接入带来的不确定性问题会导致微电网直流母线电压的大幅波动难以平抑,该文提出一种基于双延迟深度确定性策略梯度算法(TD3)强化学习的双向DC-DC变换器的自抗扰控制策略。首先,利用线性扩张状态观测器进行系统重构来... 考虑到高比例新能源接入带来的不确定性问题会导致微电网直流母线电压的大幅波动难以平抑,该文提出一种基于双延迟深度确定性策略梯度算法(TD3)强化学习的双向DC-DC变换器的自抗扰控制策略。首先,利用线性扩张状态观测器进行系统重构来实现对总扰动的估计补偿,并就控制策略的跟踪性和抗扰性进行频域分析。接着,通过大量的仿真交互自学习获得观测器参数来智能调节神经网络的权值更新方式,优化奖励函数形式,并在线利用网络进行参数实时调度,使其充分训练以实现近似最优控制律。最后,利用数字仿真平台和小功率实验验证了在多工况下所提控制策略较双闭环PI控制和传统线性自抗扰控制具有更小的电压偏差及更快的响应速度等优越的动稳态性能,有效提升了直流母线电压的抗扰能力。 展开更多
关键词 双向DC-DC变换器 光储微电网 自抗扰控制 td3深度强化学习算法
原文传递
基于TD3算法的改进LADRC风电机组变桨控制研究
2
作者 岳有军 樊鹏博 赵辉 《现代电子技术》 北大核心 2026年第6期102-111,共10页
针对风力发电系统中因波动风速和复杂风况导致的传统变桨控制参数难以动态整定、输出功率波动大等问题,提出一种基于改进误差补偿的TD3-LADRC控制策略。该策略通过分析线性扩展状态观测器(LESO)的估计误差,并引入控制增益改进自抗扰控制... 针对风力发电系统中因波动风速和复杂风况导致的传统变桨控制参数难以动态整定、输出功率波动大等问题,提出一种基于改进误差补偿的TD3-LADRC控制策略。该策略通过分析线性扩展状态观测器(LESO)的估计误差,并引入控制增益改进自抗扰控制律,增强了风机系统的抗扰性。同时,采用双延迟深度确定性策略梯度(TD3)深度强化学习算法,对改进后的线性自抗扰控制(LADRC)观测器带宽和控制器带宽等关键参数进行动态优化,有效提升了风电机组的输出稳定性。通过Matlab/Simulink对2 MW风电机组进行建模,仿真结果表明,所提控制策略在阶跃风况和湍流风况下均能显著降低风机输出功率波动,验证了其有效性。 展开更多
关键词 风机系统 变桨距控制 td3算法 误差补偿 线性自抗扰控制 线性扩展状态观测器
在线阅读 下载PDF
基于AEA-ITD3-MMC算法的核电蒸汽系统性能优化
3
作者 董元发 张俊 +4 位作者 肖云龙 安友军 刘浩 张弦 郭鹏 《计算机集成制造系统》 北大核心 2026年第1期115-130,共16页
针对核电蒸汽系统的高维函数优化问题,传统进化算法存在精度差、收敛速度慢和极易陷入局部最优等问题。为此,通过结合传统进化算法和深度强化学习,提出了一种包含多机制协同和改进TD3(ITD3)的自适应进化算法(AEA-ITD3-MMC)。首先,引入... 针对核电蒸汽系统的高维函数优化问题,传统进化算法存在精度差、收敛速度慢和极易陷入局部最优等问题。为此,通过结合传统进化算法和深度强化学习,提出了一种包含多机制协同和改进TD3(ITD3)的自适应进化算法(AEA-ITD3-MMC)。首先,引入基于多机制协同的种群重构策略,以增强初始种群的质量;其次,采用平衡优选策略,增强算法的全局探索能力和局部开发能力;然后,通过对标准TD3算法进行改进,设计了针对单目标函数优化问题的状态空间、动作空间、决策变量更新策略和自适应终止条件等,极大地提升了标准TD3算法的局部搜索能力;最后,设计了子代种群的生成策略,以保持子代种群的收敛性和多样性。在数值实验中,首先利用CEC2014和CEC2017测试函数集对AEA-ITD3-MMC算法的改进算子进行有效性分析,论证了所有改进算子的有效性;然后通过与传统进化算法进行对比,证明了AEA-ITD3-MMC算法在整体性能上显著优于10种经典进化算法;最后将AEA-ITD3-MMC算法应用于某核电蒸汽系统的高维决策变量优化问题上,进一步论证了该算法在工程应用中的优越性。 展开更多
关键词 自适应进化算法 td3算法 高维函数优化 核电蒸汽系统性能优化
在线阅读 下载PDF
基于BO-TD3混合动力丘陵山地移动作业底盘能源控制策略
4
作者 师国靖 许恩永 +3 位作者 林长波 展新 李骏 蒙艳玫 《农机化研究》 北大核心 2026年第7期243-252,共10页
为优化混合动力丘陵山地移动作业底盘在梨耕工况下的燃油经济性与电池SOC维持性能,并解决强化学习能源管理策略中超参数选择的不确定性问题,提出了一种基于贝叶斯超参数优化的双延迟深度确定性策略梯度算法(BO-TD3)控制策略。首先,以双... 为优化混合动力丘陵山地移动作业底盘在梨耕工况下的燃油经济性与电池SOC维持性能,并解决强化学习能源管理策略中超参数选择的不确定性问题,提出了一种基于贝叶斯超参数优化的双延迟深度确定性策略梯度算法(BO-TD3)控制策略。首先,以双延迟深度确定性策略梯度算法(TD3)为核心,通过贝叶斯优化(BO)算法对学习率、折扣因子等关键超参数进行寻优,确定最优参数组合;然后,将优化后的参数应用于TD3算法,对梨耕工况数据进行训练,通过发动机与电机协同控制,实现燃油消耗最小化与电池利用优化。仿真结果表明,所提出的BO-TD3策略在燃油经济性和电池性能方面表现优异,与传统TD3和深度确定性策略梯度算法(DDPG)控制策略相比,燃油经济性分别提高了2.08%和10.37%,提升了车辆的综合能源管理效率。实时在线控制策略验证中,相较于TD3、DDPG和基于规则的耗电-维持充电控制策略(CDCS),BO-TD3的燃油经济性分别提高了4.75%、7.13%、28.71%,电池SOC维持性能良好,验证了策略的优越性与适用性。研究可为混合动力移动作业底盘和其他农业机械的能量管理提供新的解决思路。 展开更多
关键词 混合动力 移动作业底盘 能源管理 贝叶斯优化 td3 燃油经济性 电池SOC维持 丘陵山地
在线阅读 下载PDF
基于双经验回放池TD3算法的PID参数优化
5
作者 钟皓俊 王振雷 《控制理论与应用》 北大核心 2026年第1期139-148,共10页
PID控制器在工业控制领域应用广泛,其参数的选择过度依赖于人工经验,效率低且过程繁琐.近年来,深度强化学习因其具有对复杂环境自学习的能力,在很多领域取得了成功应用.本文提出一种基于双经验回放池双延迟深度确定性策略梯度(TD3)算法... PID控制器在工业控制领域应用广泛,其参数的选择过度依赖于人工经验,效率低且过程繁琐.近年来,深度强化学习因其具有对复杂环境自学习的能力,在很多领域取得了成功应用.本文提出一种基于双经验回放池双延迟深度确定性策略梯度(TD3)算法的PID参数优化方法,利用深度强化学习的方法,自主优化PID控制器的参数.在整个优化过程中,将控制问题视为序列决策过程,通过设计智能体的状态、动作空间以及网络结构,将PID参数的优化过程转化为强化学习策略网络权重的更新过程.同时,针对TD3算法训练前期探索效率低的问题,在TD3算法的基础上,增加双经验回放池机制,提升了算法训练前期的效率.最后,在二阶系统和一阶加纯时滞系统上进行仿真验证,并与基于粒子群优化(PSO)算法优化PID参数的方法进行对比,实验结果表明,所提算法优化得到的PID参数在控制器上体现的控制性能要优于PSO算法. 展开更多
关键词 PID参数优化 深度强化学习 td3
在线阅读 下载PDF
基于改进TD3的深度强化学习算法研究
6
作者 杨宇伟 李智 《电子制作》 2026年第3期53-58,共6页
针对TD3算法在高维状态空间、稀疏奖励环境及动态不确定性系统中存在的策略探索效率不足、收敛速度慢、对超参数敏感等问题,本文提出一种改进TD3算法。首先,设计经验优先级重评估机制,采用TD-error与状态价值双指标动态计算样本优先级,... 针对TD3算法在高维状态空间、稀疏奖励环境及动态不确定性系统中存在的策略探索效率不足、收敛速度慢、对超参数敏感等问题,本文提出一种改进TD3算法。首先,设计经验优先级重评估机制,采用TD-error与状态价值双指标动态计算样本优先级,避免智能体过度关注负面经验;其次,构建动态经验回放框架,通过质量评分对经验进行分类存储,并采用指数衰减函数动态调整优先池与探索池的采样概率,平衡策略学习与探索;最后,引入回合式延迟学习策略,将网络参数更新延迟至每回合结束时进行,基于长期收益优化策略稳定性。在MuJoCo平台的Pusher、Walker2d、Reacher和Hopper四个连续控制任务上的实验表明,改进后的TD3算法相比原始TD3算法在Pusher、Reacher环境中奖励值分别提升了11.6%、12.8%,有效提升了奖励值,具有较高的实用价值和应用潜力。 展开更多
关键词 强化学习 td3 优先级重评估 动态经验回放
在线阅读 下载PDF
基于随机集成网络-TD3的四足机器人步态学习方法
7
作者 朱晓庆 朱晓宇 +2 位作者 阮晓钢 南博睿 毕兰越 《北京工业大学学报》 北大核心 2026年第4期371-379,共9页
为解决四足机器人技能学习领域中双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法中存在Q值低估导致价值估计不准确,从而出现学习效果恶化的问题,提出一种随机集成网络-TD3(randomized ensembled n... 为解决四足机器人技能学习领域中双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法中存在Q值低估导致价值估计不准确,从而出现学习效果恶化的问题,提出一种随机集成网络-TD3(randomized ensembled network-TD3,RE-TD3)算法。首先,该算法集成多个Q值网络,并随机选取Q值网络进行评估,缓解价值估计不准确的问题,有效提高策略性能;其次,设计合适的奖励函数以正确引导四足机器人的步态学习任务;最后,设置仿真实验进行验证。实验结果表明,该算法能够使四足机器人学习到良好的运动步态,与TD3算法相比,奖励值提高了32%,机体稳定性提高了约67%,期望方向偏离量提高了60%。 展开更多
关键词 强化学习 四足机器人 双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient td3) 奖励函数 步态学习 集成网络
在线阅读 下载PDF
改进TD3算法的机械臂三维路径规划方法 被引量:1
8
作者 马天 李超 杨嘉怡 《电光与控制》 北大核心 2025年第1期100-105,共6页
在军事航空领域中,复杂任务对机械臂路径规划提出了挑战。针对双延迟深度确定性策略梯度(TD3)算法学习效率低、样本利用率低的问题,提出了一种改进的TD3算法(Recurrent-TD3算法)。首先,将LSTM结合到策略网络与价值网络中,捕获航空控制... 在军事航空领域中,复杂任务对机械臂路径规划提出了挑战。针对双延迟深度确定性策略梯度(TD3)算法学习效率低、样本利用率低的问题,提出了一种改进的TD3算法(Recurrent-TD3算法)。首先,将LSTM结合到策略网络与价值网络中,捕获航空控制任务中的时间序列信息,增强对时间序列变化的响应能力,使其能够在决策时考虑历史动作和状态,提高网络的表达能力;然后,将事后经验回放(HER)技术集成到TD3算法中,以解决任务中稀疏奖励难以学习的问题,通过将未达到目标的经验转化为达到新目标的经验,从而更有效地利用样本;最后,设计了一种基于包围盒的碰撞检测流程,以提高机械臂在军用航空任务中的安全性。实验表明,该算法相比于其他算法能够更快地找到一条无碰撞的路径,且平均路径长度最短。 展开更多
关键词 机械臂 路径规则 td3 长短期记忆网络 事后经验回放技术
在线阅读 下载PDF
融合TD3智能优化与自适应分数阶的电液伺服滑模控制
9
作者 孙春耕 孙泽宇 刘建强 《机床与液压》 北大核心 2025年第23期108-117,共10页
针对传统控制算法难以解决电液伺服系统强非线性、参数摄动和位置干扰带来的跟踪精度下降与稳定性劣化问题,提出一种融合TD3深度强化学习算法与自适应分数阶滑模控制(AFOSMC)的智能复合控制策略——TD3AFOSMC。设计分数阶滑模面,并根据... 针对传统控制算法难以解决电液伺服系统强非线性、参数摄动和位置干扰带来的跟踪精度下降与稳定性劣化问题,提出一种融合TD3深度强化学习算法与自适应分数阶滑模控制(AFOSMC)的智能复合控制策略——TD3AFOSMC。设计分数阶滑模面,并根据滑模面设计系统控制律。依据Lyapunov稳定性理论设计自适应律,并使用TD3深度强化学习算法在线优化滑模切换增益参数。最后,建立仿真环境来验证此控制器的有效性:先在两种参考信号中加入轻微干扰,验证控制器的追踪能力和稳定性,再建立恶劣突变负载和时变参数模型,评估其在复杂工况下的鲁棒性和抗干扰能力。仿真结果表明:在参考信号1、2下,所提TD3AFOSMC控制器较自适应分数阶滑模控制器的误差标准差(SDE)和均方根误差(RMSE)都降低了0.3%~31%,峰值误差(PE)降低1.5%~84%;在恶劣突变干扰和时变参数下,所提TD3AFOSMC控制器较AFOSMC的SDE和RMSE均降低78%,PE降低81%。因此,所提控制器能够有效提升跟踪性能,降低抖振,提高系统的稳定性与安全性。 展开更多
关键词 电液伺服系统 分数阶滑模控制 td3深度强化学习算法 自适应律
在线阅读 下载PDF
基于改进TD3算法的青霉素发酵过程控制方法
10
作者 王晓君 徐涛 +2 位作者 赵春丽 彭亮亮 杜越 《软件导刊》 2025年第10期104-110,共7页
为提高复杂场景下的青霉素产量,提出一种基于改进TD3算法的发酵控制模型Res-OD-TD3,以实现对青霉素发酵过程的优化控制。首先,将残差网络融合到Actor和Critic网络中,用于提升其收敛性;其次,使用OU噪声代替传统高斯噪声,使动作值能够在... 为提高复杂场景下的青霉素产量,提出一种基于改进TD3算法的发酵控制模型Res-OD-TD3,以实现对青霉素发酵过程的优化控制。首先,将残差网络融合到Actor和Critic网络中,用于提升其收敛性;其次,使用OU噪声代替传统高斯噪声,使动作值能够在连续控制任务中以更平滑的方式进行探索,减少探索过程中的剧烈波动;最后,通过动态调整的Huber损失函数对原有损失函数进行改进,在训练的不同阶段提供更合适的损失度量,使算法在处理异常值时更为鲁棒。仿真实验结果表明,与传统的TD3算法和DDPG算法相比,Res-OD-TD3算法对于温度精度和稳定性的控制效果更好,溶解氧浓度分别提升了4.1%、5.5%,产量分别提升了12.8%、27.8%,证实了其在青霉素发酵优化控制中的显著优势。 展开更多
关键词 深度强化学习 控制策略 td3算法 残差网络 青霉素发酵
在线阅读 下载PDF
基于TD3-MPC算法的芯片分拣机轨迹规划研究 被引量:1
11
作者 何金山 孟新宇 《凿岩机械气动工具》 2025年第3期86-88,共3页
针对芯片分拣机运动平台在复杂轨迹规划中的高精度需求,文章提出了一种将双延迟深度确定策略梯度算法(twin delayed deep deterministic policy gradient,TD3)与模型预测控制(model predictive control,MPC)相结合的混合控制策略——TD3... 针对芯片分拣机运动平台在复杂轨迹规划中的高精度需求,文章提出了一种将双延迟深度确定策略梯度算法(twin delayed deep deterministic policy gradient,TD3)与模型预测控制(model predictive control,MPC)相结合的混合控制策略——TD3-MPC。仿真实验结果表明,TD3-MPC算法能够有效提高轨迹规划精度,并在复杂轨迹和动态环境中表现出更高的灵活性与稳定性。 展开更多
关键词 td3 MPC 轨迹规划 芯片分拣机
在线阅读 下载PDF
基于改进TD3的四足机器人非结构化地形运动控制 被引量:2
12
作者 谢子健 秦建军 曹钰 《现代制造工程》 北大核心 2025年第1期33-41,共9页
四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融... 四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融合记忆组件的双延迟深度确定性策略梯度(Memory-integrated Twin Delayed Deep Deterministic policy gradient,M-TD3)算法。首先,对四足机器人以及非结构化地形建模;其次,分析M-TD3算法收敛状态与学习效率;最后,为验证控制器性能,针对多种地形进行运动控制仿真对比并制作样机进行测试。仿真结果表明,相较于传统TD3算法,M-TD3算法收敛更快,效率更高,运动控制性能有显著改善,样机测试结果证明基于改进TD3算法所设计的控制器能够让四足机器人在非结构化地形进行有效的运动越障。 展开更多
关键词 四足机器人 非结构化地形 深度强化学习 td3算法
在线阅读 下载PDF
基于TD3算法的多智能体协作缓存策略
13
作者 曾建州 李泽平 张素勤 《计算机工程》 北大核心 2025年第2期365-374,共10页
为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节... 为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节点的缓存状态和内容请求信息融入到各节点的观察空间,提高智能体对环境的感知能力,并通过三次指数平滑法提取各节点内容请求的流行度特征,使得算法能够适应内容流行度变化,从而提高缓存命中率;然后联合本地与相邻节点的传输时延和开销来设计指导性奖励函数,引导智能体进行协作缓存,降低系统的缓存冗余和内容传输开销;最后结合Wolpertinger Architecture方法对TD3算法进行多智能体扩展,使每个边缘节点都能自适应地学习缓存策略,从而提高系统性能。实验结果表明,MACC算法中边缘节点牺牲了部分缓存空间来协助相邻节点缓存请求内容,从而提高缓存命中率,在同一数据集上与MAAC、DDPG、独立TD3算法相比,MACC算法的缓存命中率分别平均提高了8.50%、13.91%和29.21%,并能适应动态的边缘环境,实现较小的内容获取时延和传输开销。 展开更多
关键词 移动边缘网络 多智能体 协作缓存 深度强化学习 td3算法
在线阅读 下载PDF
基于改进TD3的山地无人作业底盘姿态控制方法
14
作者 李希明 刘业通 +3 位作者 彭世康 吴湘柠 李恒强 蒙艳玫 《现代制造工程》 北大核心 2025年第5期1-11,共11页
针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度... 针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法的底盘姿态控制策略。首先,搭建七自由度主动悬架振动模型环境;然后,训练NRBO-XGBoost的状态预测模型,在TD3算法中加入状态预测模型并在网络中加入注意力机制,增强TD3智能体在复杂环境下的决策能力和适应能力,同时设计奖励函数并训练TD3智能体,实现在复杂道路环境下的底盘姿态控制;最后,基于Matlab 2023a/Simulink软件开展仿真。仿真结果表明,基于改进TD3的底盘姿态控制策略能够有效抑制无人作业底盘在复杂道路下的姿态变化,其俯仰角、侧倾角和垂向位移分别抑制了61.4%、84.9%和84.9%,显著提高了平稳性;相比传统DDPG、PPO和TD3强化学习控制策略,改进TD3算法下的俯仰角分别改善了49.1%、7.4%和37.2%,侧倾角分别改善了83.3%、36.5%和34.7%,垂向位移分别改善了70.7%、77.5%和64.0%,垂向位移加速度分别改善了67.7%、42.1%和49.7%,控制效果更好,具有更好的适应性与鲁棒性。 展开更多
关键词 山地无人作业底盘 主动悬架控制 改进td3算法 自注意力机制
在线阅读 下载PDF
基于约束型TD3的动态探索噪声改进算法 被引量:1
15
作者 陈春甫 穆煜 韩凯涛 《现代信息科技》 2025年第7期103-108,共6页
本研究针对无约束探索可能致使移动小车受损的问题,提出一种融合自适应噪声探索与拉格朗日乘子约束的强化学习方法,旨在优化小车到达目标点的轨迹规划。此方法通过动态调节噪声来提升探索效率,运用TD3算法应对连续动作空间,借助拉格朗... 本研究针对无约束探索可能致使移动小车受损的问题,提出一种融合自适应噪声探索与拉格朗日乘子约束的强化学习方法,旨在优化小车到达目标点的轨迹规划。此方法通过动态调节噪声来提升探索效率,运用TD3算法应对连续动作空间,借助拉格朗日乘子法处理约束条件,这与直接在马尔科夫决策过程(MDP)中添加非期望行为惩罚的方式有所不同。仿真实验表明,该方法能够有效地引导小车避开障碍物,减少违反约束的情形,同时保障任务的安全性与可靠性,呈现出良好的训练收敛特性。 展开更多
关键词 安全强化学习 约束马尔科夫决策过程 轨迹规划 td3算法
在线阅读 下载PDF
基于TD3的高超声速再入弹道动态规划方法
16
作者 张瀚 王正强 +2 位作者 王立峰 王德昊 张勋 《弹道学报》 北大核心 2025年第4期48-56,共9页
高超声速飞行器在突防过程中需同时满足热流、动压、过载等物理约束以及禁飞区、拦截弹等多重任务约束。传统轨迹规划方法难以在毫秒级时间内完成满足上述所有约束的同时实时规划与决策。为此,提出了一种基于双延迟深度确定性策略梯度(t... 高超声速飞行器在突防过程中需同时满足热流、动压、过载等物理约束以及禁飞区、拦截弹等多重任务约束。传统轨迹规划方法难以在毫秒级时间内完成满足上述所有约束的同时实时规划与决策。为此,提出了一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的弹道动态规划方法。该方法将再入弹道规划问题建模为马尔可夫决策过程,通过合理定义状态空间与动作空间,并构建融合多约束的复合奖励函数,驱动智能体在仿真环境中自主学习最优控制策略。该奖励函数综合考虑了热流密度、动压、过载等路径约束,以及禁飞区避让和拦截弹规避等任务目标,实现了多目标之间的有效平衡。仿真结果表明,本文方法能够在满足所有严格路径约束的同时,精确命中终端位置,有效提升再入飞行的鲁棒性与自主决策能力。与主流SAC算法的对比进一步验证了所提算法在控制指令平滑性、训练效率和策略稳定性方面的优势,为高超声速飞行器在复杂拦截环境下的智能制导提供了一种可行且高效的解决方案。 展开更多
关键词 高超声速飞行器 再入 弹道规划 深度强化学习 td3算法 多约束优化 突防
在线阅读 下载PDF
基于MLP与改进GCN-TD3的交通信号控制建模与仿真
17
作者 黄德启 涂亚婷 +1 位作者 张振华 郭鑫 《系统仿真学报》 北大核心 2025年第10期2568-2577,共10页
针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特... 针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特征聚合为区域交通的潜在特征,由改进的双延迟深度确定性策略梯度算法进行多次迭代得到控制策略,将控制策略应用于城市路网的交通相位配时中,最大化的提升路网车辆的通行效率。仿真实验表明:该算法能够适应动态变化的复杂路网环境,且在高饱和流量下控制效果明显,能有效提高路网的通行效率,缓解交叉口高峰期拥堵问题。 展开更多
关键词 交通信号控制 图卷积神经网络 强化学习 双延迟深度确定性策略梯度 协同控制
原文传递
Real-time dispatch strategy for microgrid considering source-load uncertainty:a tailored TD3 reinforcement learning approach
18
作者 Shenpeng Xiang Mohan Lin +3 位作者 Zhe Chen Pingliang Zeng Xiangjin Wang Diyang Gong 《Global Energy Interconnection》 2025年第6期905-917,共13页
The integration of large-scale-distributed new energy resources has led to heightened source‒load uncertainty.As energy prosumers,microgrids urgently require enhanced real-time regulation capabilities over controllabl... The integration of large-scale-distributed new energy resources has led to heightened source‒load uncertainty.As energy prosumers,microgrids urgently require enhanced real-time regulation capabilities over controllable resources amid uncertain environments,rendering real-time and rapid decision-making a critical issue.This paper proposes a tailored twin delayed deep deterministic policy gradient(TD3)reinforcement learning algorithm that explicitly accounts for source‒load uncertainty.First,following an expert experience-based methodology,Gaussian process regression was implemented using the radial basis function covariance with historical source and load data.The parameters were adaptively adjusted by maximum likelihood estimation to generate the expected curves of demand and wind‒solar power generation,along with their 95%confidence regions,which were treated as representative uncertainty scenarios.Second,the traditional scheduling model was transformed into a deep reinforcement learning(DRL)environment through a Markov process.To minimize the total operational cost of the microgrid,the tailored TD3 algorithm was applied to formulate rapid intraday scheduling decisions.Finally,simulations were conducted using real historical data from an actual region in Zhejiang province,China,to verify the efficacy of the proposed method.The results demonstrate the potential of the algorithm for achieving economic scheduling for microgrids. 展开更多
关键词 MICROGRID Deep reinforcement learning Tailored td3 algorithm Intraday real-time scheduling Gaussian process regression
在线阅读 下载PDF
基于A-TD3的码垛机器人轨迹规划 被引量:1
19
作者 金桥 杨光锐 +2 位作者 王霄 徐凌桦 张芳 《现代制造工程》 北大核心 2025年第5期42-52,共11页
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Determini... 深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。 展开更多
关键词 机械臂 深度强化学习 改进方位奖励函数 双延迟深度确定性策略梯度 轨迹规划
在线阅读 下载PDF
基于TD3-RRT的特殊环境下USV路径规划算法研究
20
作者 陈际同 周佳加 +1 位作者 吴迪 江海龙 《系统仿真学报》 北大核心 2025年第11期2888-2903,共16页
面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep dete... 面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)提出一种全局路径规划算法(TD3-RRT)。结合RRT算法与深度强化学习建立USV路径搜索模型,利用前视探测感知环境以自适应调整扩展步长,通过策略网络输出路径搜索方向,解决RRT算法扩展盲目的问题;改进后见经验回放策略,通过重选虚拟目标、双经验回放池采样等策略以增强复杂环境下路径搜索能力;通过奖励函数提高规划路径质量,加快路径搜索速度。实验结果表明:不同环境下TD3-RRT相比当前主流算法能够有效提高规划成功率,优化转向角度、路径长度和规划时间,证明了改进算法能有效加快路径搜索速度并提高路径质量,且对不同环境具有良好适应性。 展开更多
关键词 双延迟深度确定性策略梯度算法 路径规划 特殊环境 快速扩展随机树算法 USV 后见经验回放
原文传递
上一页 1 2 7 下一页 到第
使用帮助 返回顶部