期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进TD3算法的青霉素发酵过程控制方法
1
作者 王晓君 徐涛 +2 位作者 赵春丽 彭亮亮 杜越 《软件导刊》 2025年第10期104-110,共7页
为提高复杂场景下的青霉素产量,提出一种基于改进TD3算法的发酵控制模型Res-OD-TD3,以实现对青霉素发酵过程的优化控制。首先,将残差网络融合到Actor和Critic网络中,用于提升其收敛性;其次,使用OU噪声代替传统高斯噪声,使动作值能够在... 为提高复杂场景下的青霉素产量,提出一种基于改进TD3算法的发酵控制模型Res-OD-TD3,以实现对青霉素发酵过程的优化控制。首先,将残差网络融合到Actor和Critic网络中,用于提升其收敛性;其次,使用OU噪声代替传统高斯噪声,使动作值能够在连续控制任务中以更平滑的方式进行探索,减少探索过程中的剧烈波动;最后,通过动态调整的Huber损失函数对原有损失函数进行改进,在训练的不同阶段提供更合适的损失度量,使算法在处理异常值时更为鲁棒。仿真实验结果表明,与传统的TD3算法和DDPG算法相比,Res-OD-TD3算法对于温度精度和稳定性的控制效果更好,溶解氧浓度分别提升了4.1%、5.5%,产量分别提升了12.8%、27.8%,证实了其在青霉素发酵优化控制中的显著优势。 展开更多
关键词 深度强化学习 控制策略 td3算法 残差网络 青霉素发酵
在线阅读 下载PDF
Real-time dispatch strategy for microgrid considering source-load uncertainty:a tailored TD3 reinforcement learning approach
2
作者 Shenpeng Xiang Mohan Lin +3 位作者 Zhe Chen Pingliang Zeng Xiangjin Wang Diyang Gong 《Global Energy Interconnection》 2025年第6期905-917,共13页
The integration of large-scale-distributed new energy resources has led to heightened source‒load uncertainty.As energy prosumers,microgrids urgently require enhanced real-time regulation capabilities over controllabl... The integration of large-scale-distributed new energy resources has led to heightened source‒load uncertainty.As energy prosumers,microgrids urgently require enhanced real-time regulation capabilities over controllable resources amid uncertain environments,rendering real-time and rapid decision-making a critical issue.This paper proposes a tailored twin delayed deep deterministic policy gradient(TD3)reinforcement learning algorithm that explicitly accounts for source‒load uncertainty.First,following an expert experience-based methodology,Gaussian process regression was implemented using the radial basis function covariance with historical source and load data.The parameters were adaptively adjusted by maximum likelihood estimation to generate the expected curves of demand and wind‒solar power generation,along with their 95%confidence regions,which were treated as representative uncertainty scenarios.Second,the traditional scheduling model was transformed into a deep reinforcement learning(DRL)environment through a Markov process.To minimize the total operational cost of the microgrid,the tailored TD3 algorithm was applied to formulate rapid intraday scheduling decisions.Finally,simulations were conducted using real historical data from an actual region in Zhejiang province,China,to verify the efficacy of the proposed method.The results demonstrate the potential of the algorithm for achieving economic scheduling for microgrids. 展开更多
关键词 MICROGRID Deep reinforcement learning Tailored td3 algorithm Intraday real-time scheduling Gaussian process regression
在线阅读 下载PDF
融合TD3智能优化与自适应分数阶的电液伺服滑模控制
3
作者 孙春耕 孙泽宇 刘建强 《机床与液压》 北大核心 2025年第23期108-117,共10页
针对传统控制算法难以解决电液伺服系统强非线性、参数摄动和位置干扰带来的跟踪精度下降与稳定性劣化问题,提出一种融合TD3深度强化学习算法与自适应分数阶滑模控制(AFOSMC)的智能复合控制策略——TD3AFOSMC。设计分数阶滑模面,并根据... 针对传统控制算法难以解决电液伺服系统强非线性、参数摄动和位置干扰带来的跟踪精度下降与稳定性劣化问题,提出一种融合TD3深度强化学习算法与自适应分数阶滑模控制(AFOSMC)的智能复合控制策略——TD3AFOSMC。设计分数阶滑模面,并根据滑模面设计系统控制律。依据Lyapunov稳定性理论设计自适应律,并使用TD3深度强化学习算法在线优化滑模切换增益参数。最后,建立仿真环境来验证此控制器的有效性:先在两种参考信号中加入轻微干扰,验证控制器的追踪能力和稳定性,再建立恶劣突变负载和时变参数模型,评估其在复杂工况下的鲁棒性和抗干扰能力。仿真结果表明:在参考信号1、2下,所提TD3AFOSMC控制器较自适应分数阶滑模控制器的误差标准差(SDE)和均方根误差(RMSE)都降低了0.3%~31%,峰值误差(PE)降低1.5%~84%;在恶劣突变干扰和时变参数下,所提TD3AFOSMC控制器较AFOSMC的SDE和RMSE均降低78%,PE降低81%。因此,所提控制器能够有效提升跟踪性能,降低抖振,提高系统的稳定性与安全性。 展开更多
关键词 电液伺服系统 分数阶滑模控制 td3深度强化学习算法 自适应律
在线阅读 下载PDF
基于TD3-RRT的特殊环境下USV路径规划算法研究
4
作者 陈际同 周佳加 +1 位作者 吴迪 江海龙 《系统仿真学报》 北大核心 2025年第11期2888-2903,共16页
面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep dete... 面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)提出一种全局路径规划算法(TD3-RRT)。结合RRT算法与深度强化学习建立USV路径搜索模型,利用前视探测感知环境以自适应调整扩展步长,通过策略网络输出路径搜索方向,解决RRT算法扩展盲目的问题;改进后见经验回放策略,通过重选虚拟目标、双经验回放池采样等策略以增强复杂环境下路径搜索能力;通过奖励函数提高规划路径质量,加快路径搜索速度。实验结果表明:不同环境下TD3-RRT相比当前主流算法能够有效提高规划成功率,优化转向角度、路径长度和规划时间,证明了改进算法能有效加快路径搜索速度并提高路径质量,且对不同环境具有良好适应性。 展开更多
关键词 双延迟深度确定性策略梯度算法 路径规划 特殊环境 快速扩展随机树算法 USV 后见经验回放
原文传递
基于TD3算法的多智能体协作缓存策略
5
作者 曾建州 李泽平 张素勤 《计算机工程》 北大核心 2025年第2期365-374,共10页
为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节... 为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节点的缓存状态和内容请求信息融入到各节点的观察空间,提高智能体对环境的感知能力,并通过三次指数平滑法提取各节点内容请求的流行度特征,使得算法能够适应内容流行度变化,从而提高缓存命中率;然后联合本地与相邻节点的传输时延和开销来设计指导性奖励函数,引导智能体进行协作缓存,降低系统的缓存冗余和内容传输开销;最后结合Wolpertinger Architecture方法对TD3算法进行多智能体扩展,使每个边缘节点都能自适应地学习缓存策略,从而提高系统性能。实验结果表明,MACC算法中边缘节点牺牲了部分缓存空间来协助相邻节点缓存请求内容,从而提高缓存命中率,在同一数据集上与MAAC、DDPG、独立TD3算法相比,MACC算法的缓存命中率分别平均提高了8.50%、13.91%和29.21%,并能适应动态的边缘环境,实现较小的内容获取时延和传输开销。 展开更多
关键词 移动边缘网络 多智能体 协作缓存 深度强化学习 td3算法
在线阅读 下载PDF
基于改进TD3的四足机器人非结构化地形运动控制 被引量:1
6
作者 谢子健 秦建军 曹钰 《现代制造工程》 北大核心 2025年第1期33-41,共9页
四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融... 四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融合记忆组件的双延迟深度确定性策略梯度(Memory-integrated Twin Delayed Deep Deterministic policy gradient,M-TD3)算法。首先,对四足机器人以及非结构化地形建模;其次,分析M-TD3算法收敛状态与学习效率;最后,为验证控制器性能,针对多种地形进行运动控制仿真对比并制作样机进行测试。仿真结果表明,相较于传统TD3算法,M-TD3算法收敛更快,效率更高,运动控制性能有显著改善,样机测试结果证明基于改进TD3算法所设计的控制器能够让四足机器人在非结构化地形进行有效的运动越障。 展开更多
关键词 四足机器人 非结构化地形 深度强化学习 td3算法
在线阅读 下载PDF
基于改进TD3的山地无人作业底盘姿态控制方法
7
作者 李希明 刘业通 +3 位作者 彭世康 吴湘柠 李恒强 蒙艳玫 《现代制造工程》 北大核心 2025年第5期1-11,共11页
针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度... 针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法的底盘姿态控制策略。首先,搭建七自由度主动悬架振动模型环境;然后,训练NRBO-XGBoost的状态预测模型,在TD3算法中加入状态预测模型并在网络中加入注意力机制,增强TD3智能体在复杂环境下的决策能力和适应能力,同时设计奖励函数并训练TD3智能体,实现在复杂道路环境下的底盘姿态控制;最后,基于Matlab 2023a/Simulink软件开展仿真。仿真结果表明,基于改进TD3的底盘姿态控制策略能够有效抑制无人作业底盘在复杂道路下的姿态变化,其俯仰角、侧倾角和垂向位移分别抑制了61.4%、84.9%和84.9%,显著提高了平稳性;相比传统DDPG、PPO和TD3强化学习控制策略,改进TD3算法下的俯仰角分别改善了49.1%、7.4%和37.2%,侧倾角分别改善了83.3%、36.5%和34.7%,垂向位移分别改善了70.7%、77.5%和64.0%,垂向位移加速度分别改善了67.7%、42.1%和49.7%,控制效果更好,具有更好的适应性与鲁棒性。 展开更多
关键词 山地无人作业底盘 主动悬架控制 改进td3算法 自注意力机制
在线阅读 下载PDF
基于TD3的高超声速再入弹道动态规划方法
8
作者 张瀚 王正强 +2 位作者 王立峰 王德昊 张勋 《弹道学报》 北大核心 2025年第4期48-56,共9页
高超声速飞行器在突防过程中需同时满足热流、动压、过载等物理约束以及禁飞区、拦截弹等多重任务约束。传统轨迹规划方法难以在毫秒级时间内完成满足上述所有约束的同时实时规划与决策。为此,提出了一种基于双延迟深度确定性策略梯度(t... 高超声速飞行器在突防过程中需同时满足热流、动压、过载等物理约束以及禁飞区、拦截弹等多重任务约束。传统轨迹规划方法难以在毫秒级时间内完成满足上述所有约束的同时实时规划与决策。为此,提出了一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的弹道动态规划方法。该方法将再入弹道规划问题建模为马尔可夫决策过程,通过合理定义状态空间与动作空间,并构建融合多约束的复合奖励函数,驱动智能体在仿真环境中自主学习最优控制策略。该奖励函数综合考虑了热流密度、动压、过载等路径约束,以及禁飞区避让和拦截弹规避等任务目标,实现了多目标之间的有效平衡。仿真结果表明,本文方法能够在满足所有严格路径约束的同时,精确命中终端位置,有效提升再入飞行的鲁棒性与自主决策能力。与主流SAC算法的对比进一步验证了所提算法在控制指令平滑性、训练效率和策略稳定性方面的优势,为高超声速飞行器在复杂拦截环境下的智能制导提供了一种可行且高效的解决方案。 展开更多
关键词 高超声速飞行器 再入 弹道规划 深度强化学习 td3算法 多约束优化 突防
在线阅读 下载PDF
基于约束型TD3的动态探索噪声改进算法
9
作者 陈春甫 穆煜 韩凯涛 《现代信息科技》 2025年第7期103-108,共6页
本研究针对无约束探索可能致使移动小车受损的问题,提出一种融合自适应噪声探索与拉格朗日乘子约束的强化学习方法,旨在优化小车到达目标点的轨迹规划。此方法通过动态调节噪声来提升探索效率,运用TD3算法应对连续动作空间,借助拉格朗... 本研究针对无约束探索可能致使移动小车受损的问题,提出一种融合自适应噪声探索与拉格朗日乘子约束的强化学习方法,旨在优化小车到达目标点的轨迹规划。此方法通过动态调节噪声来提升探索效率,运用TD3算法应对连续动作空间,借助拉格朗日乘子法处理约束条件,这与直接在马尔科夫决策过程(MDP)中添加非期望行为惩罚的方式有所不同。仿真实验表明,该方法能够有效地引导小车避开障碍物,减少违反约束的情形,同时保障任务的安全性与可靠性,呈现出良好的训练收敛特性。 展开更多
关键词 安全强化学习 约束马尔科夫决策过程 轨迹规划 td3算法
在线阅读 下载PDF
基于HER-TD3算法的青皮核桃采摘机械臂路径规划 被引量:9
10
作者 杨淑华 谢晓波 +3 位作者 邴振凯 郝建军 张秀花 袁大超 《农业机械学报》 EI CAS CSCD 北大核心 2024年第4期113-123,共11页
针对青皮核桃和树枝等障碍物无序生长导致机械臂采摘环境复杂、训练任务量大、稳定性差等普遍存在的问题,本文设计了一种同步带模组与机械臂协作的采摘装置,并采用基于事后经验回放的双延迟深度确定性策略梯度算法(Twin delayed deep de... 针对青皮核桃和树枝等障碍物无序生长导致机械臂采摘环境复杂、训练任务量大、稳定性差等普遍存在的问题,本文设计了一种同步带模组与机械臂协作的采摘装置,并采用基于事后经验回放的双延迟深度确定性策略梯度算法(Twin delayed deep deterministic policy gradient with hindsight experience replay,HER-TD3)对采摘机械臂进行路径规划,通过HER算法提高智能体的探索能力,缓解稀疏奖励的问题;通过TD3算法提高智能体的稳定性,减少了训练中出现的震荡现象。为了证明HER-TD3算法的可行性和泛化能力,引入TD3、HER-DDPG算法进行对比,采用降维训练方法对3种深度强化学习智能体进行训练,结果表明HER-TD3算法模型在完成路径规划任务中成功率达到98%,与HER-DDPG算法相比提高4个百分点,与TD3算法相比提高19个百分点;在CoppeliaSim软件中搭建三维模型仿真环境,设计初始姿态和碰撞检测,使用YOLO v4识别青皮核桃,通过该算法模型能够引导虚拟采摘机械臂避开树枝障碍物达到目标位置,完成无碰撞路径规划,无障碍物和有障碍物时路径规划成功率分别为91%和86%;利用物理样机进行青皮核桃采摘试验时,仍能较好地完成路径规划任务,无障碍物时采摘路径规划成功率为86.7%,平均运动时间为12.8 s,有障碍物时采摘路径规划成功率为80.0%,平均运动时间为13.6 s,验证了HER-TD3算法对复杂环境具有较好的适应性和稳定性。 展开更多
关键词 青皮核桃 采摘机器人 机械臂 HER-td3算法 路径规划
在线阅读 下载PDF
基于深度强化学习TD3的PID参数自整定算法 被引量:2
11
作者 梁杰 专祥涛 严家政 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2024年第11期1635-1643,共9页
传统的PID(proportional integral differential)算法在用于控制一些模型复杂、参数时变的对象时存在参数整定过程繁琐、控制性能不佳、无法解决控制对象实时变化状态的影响等问题。针对上述问题,提出了一种基于双延迟深度确定性策略梯... 传统的PID(proportional integral differential)算法在用于控制一些模型复杂、参数时变的对象时存在参数整定过程繁琐、控制性能不佳、无法解决控制对象实时变化状态的影响等问题。针对上述问题,提出了一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TDDDPG,以下简称TD3)算法的PID参数自整定算法。该算法将TD3算法与PID算法相结合,对TD3算法中的神经网络结构、奖励函数进行设计,能够实现控制器参数的自整定。以两轮直立车为实验对象,针对直立车的角度PID控制器进行参数整定实验。实验结果表明,与传统的参数整定算法(Z-N(Ziegler-Nichols)参数整定法)和基于强化学习的动态PID参数自整定算法相比,所提出的算法具有更优的控制效果,能够通过神经网络学习拟合更优的控制策略,提升控制器的动态响应性能和鲁棒性。 展开更多
关键词 深度强化学习 td3算法 整定 控制器 直立车
原文传递
TD3算法在热电站温度调节中的研究与应用
12
作者 刘欣 《现代工业经济和信息化》 2024年第12期123-125,共3页
针对某热电站在调控供热时的温度调节能力不佳的问题,设计了基于调整一次侧管网供水流量的热电站温度调节方案,研究了TD3算法相较于DDPG算法的优越性,设计了基于TD3算法的热力站温度调节控制流程。通过工业应用发现热电站的温度调节的... 针对某热电站在调控供热时的温度调节能力不佳的问题,设计了基于调整一次侧管网供水流量的热电站温度调节方案,研究了TD3算法相较于DDPG算法的优越性,设计了基于TD3算法的热力站温度调节控制流程。通过工业应用发现热电站的温度调节的相对误差保持在4%以下,可工业使用。同时,经过经济计算发现TD3温度调节控制算法为热电站带来475万元的年收益,经济性可行。 展开更多
关键词 td3算法 温度调节 供水调节
在线阅读 下载PDF
改进TD3算法在电机PID控制器中的应用 被引量:2
13
作者 张梦杰 陈姚节 邓江 《计算机系统应用》 2024年第5期262-270,共9页
本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,... 本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,以优化PID参数调整,实现更精确的电机速度控制.在本文的方法中,融合双向长短期记忆网络(BiLSTM)到Actor和Critic网络中,极大增强了对PMSM动态行为的时间序列数据处理能力,使得系统不仅能够准确捕捉当前状态,还能预测未来趋势,从而实现对PID参数更精确和适应性强的自整定.此外,通过整合熵正则化和好奇心驱动的探索方法进一步增强策略的多样性,避免过早收敛到次优策略,并鼓励模型对未知环境进行深入探索.为验证方法的有效性,设计了一个永磁同步电机的仿真模型,并将本文提出的方法BiLSTM-TD3-ICE与传统的TD3以及经典的Ziegler-Nichols (Z-N)方法进行对比.实验结果充分证明了本文提出的策略在控制性能上具有显著的优势. 展开更多
关键词 深度强化学习 td3算法 永磁同步电机 PID参数自整定 BiLSTM 内在好奇心 熵正则化
在线阅读 下载PDF
基于改进TD3算法的无人机轨迹规划 被引量:2
14
作者 牟文心 时宏伟 《计算机系统应用》 2024年第12期197-209,共13页
深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能... 深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能够更好地引导无人机有效避开障碍物并且快速接近目标点.仿真结果表明,算法的改进可以有效提高网络的训练效率以及在复杂场景中的航迹规划表现,同时能够在不同初始电量的情况下都能够灵活调整策略,做到在能耗和迅速抵达目的地之间的有效平衡. 展开更多
关键词 深度强化学习 无人机 航迹规划 人工势场 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于改进型TD3算法的车载边缘计算任务卸载决策 被引量:4
15
作者 李亚 王卫岗 +1 位作者 张原 刘瑞鹏 《电子测量技术》 北大核心 2024年第6期64-70,共7页
为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔... 为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔可夫决策过程(MDP),提出了在传统双延时深度确定性策略梯度(TD3)的基础上,利用长短期记忆网络(LSTM)来逼近策略函数和价值函数,将系统状态进行归一化处理以加速网络收敛并增强训练稳定性的改进算法(LN-TD3)。仿真结果表明,LN-TD3性能与全部本地计算和全部卸载计算相比提高了两倍以上;收敛速度上与深度确定性策略梯度DDPG、TD3相比提高了约20%。 展开更多
关键词 车载边缘计算 td3算法 任务卸载 深度强化学习 马尔可夫决策过程
原文传递
基于SAC和TD3的含电动汽车虚拟电厂调度策略 被引量:5
16
作者 陶力 杨夏喜 +3 位作者 顾金辉 魏兵兵 张琳 王嘉宁 《电气传动》 2023年第9期25-34,共10页
虚拟电厂(VPP)可以聚合分布式电源(DER)参与电力市场和辅助服务市场运行,为配电网和输电网提供管理和辅助服务,其运行和控制得到广泛关注。针对含电动汽车(EV)充电站的虚拟电厂,构建了基于柔性行动器-评判器(SAC)算法和双延迟深度确定... 虚拟电厂(VPP)可以聚合分布式电源(DER)参与电力市场和辅助服务市场运行,为配电网和输电网提供管理和辅助服务,其运行和控制得到广泛关注。针对含电动汽车(EV)充电站的虚拟电厂,构建了基于柔性行动器-评判器(SAC)算法和双延迟深度确定性策略梯度(TD3)算法的VPP与EV充电站主从博弈模型。通过训练主从博弈网络参数,计算博弈均衡时的策略和解。算例结果表明,上述模型训练完成后,可以有效地降低EV充电站运行费用以及平缓功率,基于SAC强化学习方法能够整合VPP内部DER,并引导电动汽车有序充电。在VPP作为价格接受者参与日前电力市场时,也能够给出优化的交易策略;当VPP与EV之间存在主从博弈时,EV用确定性策略算法可以降低充电成本,VPP用随机性策略算法则可以提高收益。 展开更多
关键词 虚拟电厂 SAC算法 td3算法 电动汽车 主从博弈 实时调度
在线阅读 下载PDF
基于TD3的恶意节点检测与鲁棒联邦聚合算法
17
作者 孙凡 文红 +3 位作者 侯文静 王永丰 姚瑞祥 严地宝 《通信技术》 2024年第8期845-849,共5页
针对联邦学习中的数据安全与隐私问题,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)的恶意节点检测与鲁棒联邦聚合算法,旨在提高系统在面对恶意攻击时的鲁棒性。以标签翻转攻击和梯... 针对联邦学习中的数据安全与隐私问题,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)的恶意节点检测与鲁棒联邦聚合算法,旨在提高系统在面对恶意攻击时的鲁棒性。以标签翻转攻击和梯度上升攻击为例,展示了该算法对于恶意节点的有效识别与抵御能力,并对比分析了所提方法与传统的聚合算法,如FedAvg、Krum、MKrum等。试验结果表明,相较于传统算法,所提算法不仅能有效防御恶意攻击,同时能保持高效的学习效率和模型准确性,显著提升了模型的整体安全防御能力。 展开更多
关键词 联邦学习 恶意节点检测 鲁棒联邦聚合 td3算法
在线阅读 下载PDF
基于改进TD3算法的无人机区域侦察研究 被引量:1
18
作者 蒋方庆 陈自力 +1 位作者 高喜俊 张云 《飞行力学》 CSCD 北大核心 2024年第6期36-42,共7页
在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法实现无人机快速侦察目标。针对TD3算法的单策... 在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法实现无人机快速侦察目标。针对TD3算法的单策略网络输出动作波动大问题,提出构建双策略网络来缓解,并提出利用带修正偏差的指数移动加权平均法建立价值网络与策略网络更新之间的联系,以自适应地改变更新周期。当无人机接收到辐射源信号时,采用最优航迹对辐射源进行定位;未检测到信号时,则根据历史经验飞行寻找信号源。仿真结果表明,所提方法可有效提高算法的收敛速度。 展开更多
关键词 无人机 双延迟深度确定性策略梯度算法 双策略网络 自适应延迟更新机制
原文传递
基于TD3算法的热管堆功率控制算法优化研究
19
作者 宋霄森 余刃 +1 位作者 毛伟 殷少轩 《舰船电子工程》 2023年第8期104-109,共6页
核反应堆功率控制仍多采用PID控制算法,但其控制参数往往难以选择,也难以在不同功率水平下均保持最优的控制效果。论文针对热管冷却核反应堆的功率控制设计PID控制算法,并基于深度强化学习TD3算法来实现对PID控制器的参数寻优。对比基... 核反应堆功率控制仍多采用PID控制算法,但其控制参数往往难以选择,也难以在不同功率水平下均保持最优的控制效果。论文针对热管冷却核反应堆的功率控制设计PID控制算法,并基于深度强化学习TD3算法来实现对PID控制器的参数寻优。对比基于试凑法和参数寻优选取的PID参数的控制效果,采用深度强化学习TD3算法寻优参数可以获得更快速稳定的控制效果。 展开更多
关键词 热管冷却核反应堆 深度强化学习 td3算法 功率控制
在线阅读 下载PDF
基于TD3算法的自动协商策略 被引量:1
20
作者 陈佐明 詹捷宇 《计算机系统应用》 2023年第3期15-24,共10页
协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间... 协商是人们就某些议题进行交流寻求一致协议的过程.而自动协商旨在通过协商智能体的使用降低协商成本、提高协商效率并且优化协商结果.近年来深度强化学习技术开始被运用于自动协商领域并取得了良好的效果,然而依然存在智能体训练时间较长、特定协商领域依赖、协商信息利用不充分等问题.为此,本文提出了一种基于TD3深度强化学习算法的协商策略,通过预训练降低训练过程的探索成本,通过优化状态和动作定义提高协商策略的鲁棒性从而适应不同的协商场景,通过多头语义神经网络和对手偏好预测模块充分利用协商的交互信息.实验结果表明,该策略在不同协商环境下都可以很好地完成协商任务. 展开更多
关键词 自动协商 协商策略 深度强化学习 td3算法 偏好预测
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部