期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
基于TD3算法的多智能体协作缓存策略
1
作者 曾建州 李泽平 张素勤 《计算机工程》 北大核心 2025年第2期365-374,共10页
为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节... 为了降低移动边缘网络中的内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP),把相邻节点的缓存状态和内容请求信息融入到各节点的观察空间,提高智能体对环境的感知能力,并通过三次指数平滑法提取各节点内容请求的流行度特征,使得算法能够适应内容流行度变化,从而提高缓存命中率;然后联合本地与相邻节点的传输时延和开销来设计指导性奖励函数,引导智能体进行协作缓存,降低系统的缓存冗余和内容传输开销;最后结合Wolpertinger Architecture方法对TD3算法进行多智能体扩展,使每个边缘节点都能自适应地学习缓存策略,从而提高系统性能。实验结果表明,MACC算法中边缘节点牺牲了部分缓存空间来协助相邻节点缓存请求内容,从而提高缓存命中率,在同一数据集上与MAAC、DDPG、独立TD3算法相比,MACC算法的缓存命中率分别平均提高了8.50%、13.91%和29.21%,并能适应动态的边缘环境,实现较小的内容获取时延和传输开销。 展开更多
关键词 移动边缘网络 多智能体 协作缓存 深度强化学习 td3算法
在线阅读 下载PDF
基于改进TD3的四足机器人非结构化地形运动控制 被引量:1
2
作者 谢子健 秦建军 曹钰 《现代制造工程》 北大核心 2025年第1期33-41,共9页
四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融... 四足机器人在非结构化地形的运动控制高度依赖于复杂的动力学模型和控制器设计,利用深度强化学习方法设计四足机器人控制器已成为趋势。针对在深度强化学习训练过程中收敛较慢、容易陷入局部最优解及计算资源消耗较大等问题,提出一种融合记忆组件的双延迟深度确定性策略梯度(Memory-integrated Twin Delayed Deep Deterministic policy gradient,M-TD3)算法。首先,对四足机器人以及非结构化地形建模;其次,分析M-TD3算法收敛状态与学习效率;最后,为验证控制器性能,针对多种地形进行运动控制仿真对比并制作样机进行测试。仿真结果表明,相较于传统TD3算法,M-TD3算法收敛更快,效率更高,运动控制性能有显著改善,样机测试结果证明基于改进TD3算法所设计的控制器能够让四足机器人在非结构化地形进行有效的运动越障。 展开更多
关键词 四足机器人 非结构化地形 深度强化学习 td3算法
在线阅读 下载PDF
基于改进TD3的山地无人作业底盘姿态控制方法
3
作者 李希明 刘业通 +3 位作者 彭世康 吴湘柠 李恒强 蒙艳玫 《现代制造工程》 北大核心 2025年第5期1-11,共11页
针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度... 针对山地无人作业底盘在复杂道路下姿态不平稳,传统控制方法适应性、鲁棒性差等问题,提出了一种基于牛顿-拉弗森优化(Newton-Raphson-Based Optimizer,NRBO)算法、极致梯度提升树(eXtreme Gradient Boosting,XGBoost)算法和双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法的底盘姿态控制策略。首先,搭建七自由度主动悬架振动模型环境;然后,训练NRBO-XGBoost的状态预测模型,在TD3算法中加入状态预测模型并在网络中加入注意力机制,增强TD3智能体在复杂环境下的决策能力和适应能力,同时设计奖励函数并训练TD3智能体,实现在复杂道路环境下的底盘姿态控制;最后,基于Matlab 2023a/Simulink软件开展仿真。仿真结果表明,基于改进TD3的底盘姿态控制策略能够有效抑制无人作业底盘在复杂道路下的姿态变化,其俯仰角、侧倾角和垂向位移分别抑制了61.4%、84.9%和84.9%,显著提高了平稳性;相比传统DDPG、PPO和TD3强化学习控制策略,改进TD3算法下的俯仰角分别改善了49.1%、7.4%和37.2%,侧倾角分别改善了83.3%、36.5%和34.7%,垂向位移分别改善了70.7%、77.5%和64.0%,垂向位移加速度分别改善了67.7%、42.1%和49.7%,控制效果更好,具有更好的适应性与鲁棒性。 展开更多
关键词 山地无人作业底盘 主动悬架控制 改进td3算法 自注意力机制
在线阅读 下载PDF
基于约束型TD3的动态探索噪声改进算法
4
作者 陈春甫 穆煜 韩凯涛 《现代信息科技》 2025年第7期103-108,共6页
本研究针对无约束探索可能致使移动小车受损的问题,提出一种融合自适应噪声探索与拉格朗日乘子约束的强化学习方法,旨在优化小车到达目标点的轨迹规划。此方法通过动态调节噪声来提升探索效率,运用TD3算法应对连续动作空间,借助拉格朗... 本研究针对无约束探索可能致使移动小车受损的问题,提出一种融合自适应噪声探索与拉格朗日乘子约束的强化学习方法,旨在优化小车到达目标点的轨迹规划。此方法通过动态调节噪声来提升探索效率,运用TD3算法应对连续动作空间,借助拉格朗日乘子法处理约束条件,这与直接在马尔科夫决策过程(MDP)中添加非期望行为惩罚的方式有所不同。仿真实验表明,该方法能够有效地引导小车避开障碍物,减少违反约束的情形,同时保障任务的安全性与可靠性,呈现出良好的训练收敛特性。 展开更多
关键词 安全强化学习 约束马尔科夫决策过程 轨迹规划 td3算法
在线阅读 下载PDF
基于HER-TD3算法的青皮核桃采摘机械臂路径规划 被引量:9
5
作者 杨淑华 谢晓波 +3 位作者 邴振凯 郝建军 张秀花 袁大超 《农业机械学报》 EI CAS CSCD 北大核心 2024年第4期113-123,共11页
针对青皮核桃和树枝等障碍物无序生长导致机械臂采摘环境复杂、训练任务量大、稳定性差等普遍存在的问题,本文设计了一种同步带模组与机械臂协作的采摘装置,并采用基于事后经验回放的双延迟深度确定性策略梯度算法(Twin delayed deep de... 针对青皮核桃和树枝等障碍物无序生长导致机械臂采摘环境复杂、训练任务量大、稳定性差等普遍存在的问题,本文设计了一种同步带模组与机械臂协作的采摘装置,并采用基于事后经验回放的双延迟深度确定性策略梯度算法(Twin delayed deep deterministic policy gradient with hindsight experience replay,HER-TD3)对采摘机械臂进行路径规划,通过HER算法提高智能体的探索能力,缓解稀疏奖励的问题;通过TD3算法提高智能体的稳定性,减少了训练中出现的震荡现象。为了证明HER-TD3算法的可行性和泛化能力,引入TD3、HER-DDPG算法进行对比,采用降维训练方法对3种深度强化学习智能体进行训练,结果表明HER-TD3算法模型在完成路径规划任务中成功率达到98%,与HER-DDPG算法相比提高4个百分点,与TD3算法相比提高19个百分点;在CoppeliaSim软件中搭建三维模型仿真环境,设计初始姿态和碰撞检测,使用YOLO v4识别青皮核桃,通过该算法模型能够引导虚拟采摘机械臂避开树枝障碍物达到目标位置,完成无碰撞路径规划,无障碍物和有障碍物时路径规划成功率分别为91%和86%;利用物理样机进行青皮核桃采摘试验时,仍能较好地完成路径规划任务,无障碍物时采摘路径规划成功率为86.7%,平均运动时间为12.8 s,有障碍物时采摘路径规划成功率为80.0%,平均运动时间为13.6 s,验证了HER-TD3算法对复杂环境具有较好的适应性和稳定性。 展开更多
关键词 青皮核桃 采摘机器人 机械臂 HER-td3算法 路径规划
在线阅读 下载PDF
基于深度强化学习TD3的PID参数自整定算法 被引量:2
6
作者 梁杰 专祥涛 严家政 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2024年第11期1635-1643,共9页
传统的PID(proportional integral differential)算法在用于控制一些模型复杂、参数时变的对象时存在参数整定过程繁琐、控制性能不佳、无法解决控制对象实时变化状态的影响等问题。针对上述问题,提出了一种基于双延迟深度确定性策略梯... 传统的PID(proportional integral differential)算法在用于控制一些模型复杂、参数时变的对象时存在参数整定过程繁琐、控制性能不佳、无法解决控制对象实时变化状态的影响等问题。针对上述问题,提出了一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TDDDPG,以下简称TD3)算法的PID参数自整定算法。该算法将TD3算法与PID算法相结合,对TD3算法中的神经网络结构、奖励函数进行设计,能够实现控制器参数的自整定。以两轮直立车为实验对象,针对直立车的角度PID控制器进行参数整定实验。实验结果表明,与传统的参数整定算法(Z-N(Ziegler-Nichols)参数整定法)和基于强化学习的动态PID参数自整定算法相比,所提出的算法具有更优的控制效果,能够通过神经网络学习拟合更优的控制策略,提升控制器的动态响应性能和鲁棒性。 展开更多
关键词 深度强化学习 td3算法 整定 控制器 直立车
原文传递
TD3算法在热电站温度调节中的研究与应用
7
作者 刘欣 《现代工业经济和信息化》 2024年第12期123-125,共3页
针对某热电站在调控供热时的温度调节能力不佳的问题,设计了基于调整一次侧管网供水流量的热电站温度调节方案,研究了TD3算法相较于DDPG算法的优越性,设计了基于TD3算法的热力站温度调节控制流程。通过工业应用发现热电站的温度调节的... 针对某热电站在调控供热时的温度调节能力不佳的问题,设计了基于调整一次侧管网供水流量的热电站温度调节方案,研究了TD3算法相较于DDPG算法的优越性,设计了基于TD3算法的热力站温度调节控制流程。通过工业应用发现热电站的温度调节的相对误差保持在4%以下,可工业使用。同时,经过经济计算发现TD3温度调节控制算法为热电站带来475万元的年收益,经济性可行。 展开更多
关键词 td3算法 温度调节 供水调节
在线阅读 下载PDF
改进TD3算法在电机PID控制器中的应用 被引量:2
8
作者 张梦杰 陈姚节 邓江 《计算机系统应用》 2024年第5期262-270,共9页
本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,... 本文针对永磁同步电机(PMSM)在工业领域中的多变量、非线性和强耦合特性以及传统PID控制在应对其变化时可能导致参数调整困难、响应延迟、鲁棒性差以及适应性问题,提出一种结合双延迟深度确定性策略梯度(TD3)算法和PID控制的创新方案,以优化PID参数调整,实现更精确的电机速度控制.在本文的方法中,融合双向长短期记忆网络(BiLSTM)到Actor和Critic网络中,极大增强了对PMSM动态行为的时间序列数据处理能力,使得系统不仅能够准确捕捉当前状态,还能预测未来趋势,从而实现对PID参数更精确和适应性强的自整定.此外,通过整合熵正则化和好奇心驱动的探索方法进一步增强策略的多样性,避免过早收敛到次优策略,并鼓励模型对未知环境进行深入探索.为验证方法的有效性,设计了一个永磁同步电机的仿真模型,并将本文提出的方法BiLSTM-TD3-ICE与传统的TD3以及经典的Ziegler-Nichols (Z-N)方法进行对比.实验结果充分证明了本文提出的策略在控制性能上具有显著的优势. 展开更多
关键词 深度强化学习 td3算法 永磁同步电机 PID参数自整定 BiLSTM 内在好奇心 熵正则化
在线阅读 下载PDF
基于改进TD3算法的无人机轨迹规划 被引量:2
9
作者 牟文心 时宏伟 《计算机系统应用》 2024年第12期197-209,共13页
深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能... 深度强化学习算法在无人机的航迹规划任务中的应用越来越广泛,但是许多研究没有考虑随机变化的复杂场景,针对以上问题,本文提出一种基于TD3改进的PP-CMNTD3算法,提出了一种简单有效的先验策略并且借鉴人工势场的思想设计了密集奖励,能够更好地引导无人机有效避开障碍物并且快速接近目标点.仿真结果表明,算法的改进可以有效提高网络的训练效率以及在复杂场景中的航迹规划表现,同时能够在不同初始电量的情况下都能够灵活调整策略,做到在能耗和迅速抵达目的地之间的有效平衡. 展开更多
关键词 深度强化学习 无人机 航迹规划 人工势场 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于改进型TD3算法的车载边缘计算任务卸载决策 被引量:3
10
作者 李亚 王卫岗 +1 位作者 张原 刘瑞鹏 《电子测量技术》 北大核心 2024年第6期64-70,共7页
为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔... 为满足复杂车辆任务在时延、能耗和计算性能方面的要求,同时减少网络资源的竞争和消耗,设计了一种基于车载边缘计算(VEC)的任务卸载策略,以最小化任务处理延迟和能源消耗之间平衡的长期成本为目标,将车联网中的任务卸载问题建模为马尔可夫决策过程(MDP),提出了在传统双延时深度确定性策略梯度(TD3)的基础上,利用长短期记忆网络(LSTM)来逼近策略函数和价值函数,将系统状态进行归一化处理以加速网络收敛并增强训练稳定性的改进算法(LN-TD3)。仿真结果表明,LN-TD3性能与全部本地计算和全部卸载计算相比提高了两倍以上;收敛速度上与深度确定性策略梯度DDPG、TD3相比提高了约20%。 展开更多
关键词 车载边缘计算 td3算法 任务卸载 深度强化学习 马尔可夫决策过程
原文传递
基于TD3的恶意节点检测与鲁棒联邦聚合算法
11
作者 孙凡 文红 +3 位作者 侯文静 王永丰 姚瑞祥 严地宝 《通信技术》 2024年第8期845-849,共5页
针对联邦学习中的数据安全与隐私问题,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)的恶意节点检测与鲁棒联邦聚合算法,旨在提高系统在面对恶意攻击时的鲁棒性。以标签翻转攻击和梯... 针对联邦学习中的数据安全与隐私问题,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)的恶意节点检测与鲁棒联邦聚合算法,旨在提高系统在面对恶意攻击时的鲁棒性。以标签翻转攻击和梯度上升攻击为例,展示了该算法对于恶意节点的有效识别与抵御能力,并对比分析了所提方法与传统的聚合算法,如FedAvg、Krum、MKrum等。试验结果表明,相较于传统算法,所提算法不仅能有效防御恶意攻击,同时能保持高效的学习效率和模型准确性,显著提升了模型的整体安全防御能力。 展开更多
关键词 联邦学习 恶意节点检测 鲁棒联邦聚合 td3算法
在线阅读 下载PDF
低地球轨道下基于TD3算法的通用轨道转移控制
12
作者 曹海涛 邱鹏鹏 蔡霞 《软件工程》 2024年第9期6-9,共4页
为应对低地球轨道下潜在的航天器脉冲式轨道转移任务挑战,提出一种用深度强化学习算法建立轨道转移通用控制模型的方法,以减少人工干预,解决反应不及时等问题。通过对轨道动力学的建模和对马尔可夫决策过程的设计,成功将TD3(Twin Delaye... 为应对低地球轨道下潜在的航天器脉冲式轨道转移任务挑战,提出一种用深度强化学习算法建立轨道转移通用控制模型的方法,以减少人工干预,解决反应不及时等问题。通过对轨道动力学的建模和对马尔可夫决策过程的设计,成功将TD3(Twin Delayed Deep Deterministic Policy Gradient)算法运用于轨道转移决策,实现高度自主的脉冲式点火控制器的设计。实验结果表明,使用TD3算法建立的脉冲式点火控制器,在不同的轨道转移任务下自主到达目标轨道的成功率可达96.1%,同时完成了轨道5个根数的收敛,证明TD3算法用于解决该问题的可行性与有效性。 展开更多
关键词 轨道转移 深度强化学习 td3算法
在线阅读 下载PDF
基于改进TD3算法的无人机区域侦察研究
13
作者 蒋方庆 陈自力 +1 位作者 高喜俊 张云 《飞行力学》 CSCD 北大核心 2024年第6期36-42,共7页
在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法实现无人机快速侦察目标。针对TD3算法的单策... 在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法实现无人机快速侦察目标。针对TD3算法的单策略网络输出动作波动大问题,提出构建双策略网络来缓解,并提出利用带修正偏差的指数移动加权平均法建立价值网络与策略网络更新之间的联系,以自适应地改变更新周期。当无人机接收到辐射源信号时,采用最优航迹对辐射源进行定位;未检测到信号时,则根据历史经验飞行寻找信号源。仿真结果表明,所提方法可有效提高算法的收敛速度。 展开更多
关键词 无人机 双延迟深度确定性策略梯度算法 双策略网络 自适应延迟更新机制
原文传递
基于Advanced-TD3算法的卫星探索控制策略
14
作者 马志昕 骆淑云 《智能计算机与应用》 2024年第4期83-88,共6页
卫星控制算法在卫星控制领域拥有十分重要的地位,而深度强化学习则是当前前沿的卫星控制算法之一。针对目前太空环境日渐复杂的问题,提出了基于TD3算法的改进TD3(Advanced-TD3)算法,实现控制卫星到达预定目标区域。在开源环境中进行仿... 卫星控制算法在卫星控制领域拥有十分重要的地位,而深度强化学习则是当前前沿的卫星控制算法之一。针对目前太空环境日渐复杂的问题,提出了基于TD3算法的改进TD3(Advanced-TD3)算法,实现控制卫星到达预定目标区域。在开源环境中进行仿真实验,实验结果验证了该算法的空间探索能力,拥有较高的鲁棒性,可以较为精确地帮助卫星完成控制问题,增强卫星对复杂空间中的控制能力,提高卫星的运行效率。 展开更多
关键词 深度强化学习 Advanced-td3算法 卫星控制 空间探索
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
15
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
基于自主探索的移动机器人路径规划研究 被引量:3
16
作者 陈浩 陈珺 刘飞 《计算机工程》 北大核心 2025年第1期60-70,共11页
移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径... 移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径规划性能。首先,引入长短期记忆(LSTM)神经网络并与TD3算法相结合,通过门结构筛选历史状态信息,并感知探测范围内障碍物的状态变化,帮助机器人更好地理解环境的动态变化和障碍物的移动模式,使移动机器人能够准确预测和响应动态障碍物的行为,从而降低与障碍物的碰撞率。其次,加入OU (Ornstein-Uhlenbeck)探索噪声,帮助移动机器人持续探索周围环境,增强移动机器人的探索能力和随机性。在此基础上,将单个经验池设置为成功、失败和临时3个经验池,以此提高有效经验样本的采样效率,进而减少训练时间。最后,在2个不同的动、静态障碍物混合场景中进行路径规划实验仿真。实验结果表明:场景1中该算法相较于深度确定性策略梯度(DDPG)算法以及TD3算法,模型收敛的回合数减少了100~200个,路径长度缩短了0.5~0.8,规划时间减少了1~4 s;场景2中该算法相较于TD3算法,模型收敛的回合数减少了100~300个,路径长度缩短了1~3,规划时间减少了4~8 s, DDPG算法失败,移动机器人无法成功抵达终点。由此可见,改进的算法具有更好的路径规划性能。 展开更多
关键词 移动机器人 路径规划 双延迟深度确定性策略梯度算法 长短期记忆神经网络 OU探索噪声
在线阅读 下载PDF
基于RIS辅助的UAV物理层安全传输技术
17
作者 丁伟豪 屈正浩 +3 位作者 申凌峰 王光辉 朱政宇 张千坤 《无线电工程》 2025年第10期1976-1985,共10页
针对低空通信背景下智能超表面(Reconfigurable Intelligent Surface,RIS)辅助的UAV物理层安全(Physical Layer Security,PLS)传输技术,考虑可能存在多窃听威胁的场景,提出基于UAV轨迹和RIS相移联合优化的安全增强机制。具体提出2种优... 针对低空通信背景下智能超表面(Reconfigurable Intelligent Surface,RIS)辅助的UAV物理层安全(Physical Layer Security,PLS)传输技术,考虑可能存在多窃听威胁的场景,提出基于UAV轨迹和RIS相移联合优化的安全增强机制。具体提出2种优化方案:①基于凸优化理论,通过连续凸近似(Successive Convex Approximation,SCA)和交替优化将非凸问题分解为可解的凸子问题,以最大化平均安全速率;②引入双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)深度强化学习(Deep Reinforcement Learing,DRL)算法,利用双重Q网络和延迟策略更新机制,联合优化UAV轨迹与RIS相位,在连续动作空间中生成较为平滑的UAV轨迹,实现高效实时优化。仿真结果表明,凸优化算法在所构建的系统中展现出更快的收敛特性,而TD3算法在安全速率方面显著高于凸优化方法,尤其在RIS单元数增加时优势更明显,验证了其在提升通信安全性和鲁棒性方面的潜力。 展开更多
关键词 UAV通信 智能超表面 物理层安全 凸优化算法 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
非完美SIC D2D-NOMA系统吞吐量最大化功率分配
18
作者 张东方 叶成荫 《电子测量技术》 北大核心 2025年第8期80-87,共8页
针对D2D-NOMA系统在非完美串行干扰消除条件下的吞吐量最大化问题,提出了一种基于非完美SIC的D2D-NOMA系统吞吐量最大化算法。首先在蜂窝用户和D2D用户的服务质量、最大发射功率下,考虑非完美SIC条件,建立一个以D2D-NOMA系统的吞吐量最... 针对D2D-NOMA系统在非完美串行干扰消除条件下的吞吐量最大化问题,提出了一种基于非完美SIC的D2D-NOMA系统吞吐量最大化算法。首先在蜂窝用户和D2D用户的服务质量、最大发射功率下,考虑非完美SIC条件,建立一个以D2D-NOMA系统的吞吐量最大化为目标的优化模型。然后将模型转换为以吞吐量为奖励的马尔可夫决策过程。利用TD3算法设计了一个功率分配算法,实现了系统吞吐量最大化。经仿真验证,所提出的算法与DDPG算法、遗传算法和随机功率分配算法相比,非完美SIC下D2D-NOMA系统的吞吐量分别提高了约14%、25%和40%,也展现出更优的收敛性和公平性。 展开更多
关键词 非完美SIC D2D-NOMA系统 吞吐量最大化 td3算法
原文传递
基于强化学习的飞行器轨迹跟踪制导与编队保持问题研究
19
作者 滕庆骅 惠俊鹏 +1 位作者 李天任 杨奔 《导弹与航天运载技术(中英文)》 北大核心 2025年第2期60-68,共9页
飞行器的智能化升级对制导能力提出了新的需求,传统算法在有偏差条件下跟踪空间三维轨迹的表现不佳。基于TD3强化学习算法设计了飞行器轨迹跟踪制导方式。通过偏差形式的动作空间、奖励函数中的惩罚项、距离变化率的导引,解决了算法训... 飞行器的智能化升级对制导能力提出了新的需求,传统算法在有偏差条件下跟踪空间三维轨迹的表现不佳。基于TD3强化学习算法设计了飞行器轨迹跟踪制导方式。通过偏差形式的动作空间、奖励函数中的惩罚项、距离变化率的导引,解决了算法训练难收敛、控制量波动过大、中末交班点偏差累积大等问题。相比传统LQR算法,强化学习制导算法的制导精度、偏差适应性均有较大提升,且具备良好的泛用性,能够应用于小规模编队保持问题。 展开更多
关键词 td3算法 标准轨迹制导 强化学习制导 编队保持 蒙特卡罗仿真
在线阅读 下载PDF
基于深度强化学习陶瓷辊道窑温度自适应PID控制
20
作者 朱永红 姜涛 李蔓华 《中国陶瓷工业》 2025年第3期41-48,共8页
陶瓷辊道窑烧成温度是影响陶瓷成品质量的关键因素,因而陶瓷辊道窑温度控制至关重要。针对目前辊道窑使用传统PID控制效果不理想,而使用模糊控制器又需要大量专家经验造成调试困难的问题,本文提出一种基于深度强化学习陶瓷辊道窑温度自... 陶瓷辊道窑烧成温度是影响陶瓷成品质量的关键因素,因而陶瓷辊道窑温度控制至关重要。针对目前辊道窑使用传统PID控制效果不理想,而使用模糊控制器又需要大量专家经验造成调试困难的问题,本文提出一种基于深度强化学习陶瓷辊道窑温度自适应PID控制方法。该方法通过深度强化学习TD3算法来自适应调整PID控制器参数,并采用Smith预估器来消除辊道窑系统时滞的影响,从而较好地实现对陶瓷辊道窑温度的控制。仿真实验结果表明,针对陶瓷辊道窑温度控制,本文基于Smith预估补偿的TD3的自适应PID控制比传统PID控制、Smith-PID控制、Smith-模糊PID控制均方差减少了5.58~11.42。因此,本文提出的控制方法有效可行,为提高陶瓷辊道窑温度控制效果提供了一种新思路,具有较大的理论意义与应用前景。 展开更多
关键词 陶瓷辊道窑 温度控制 td3算法 PID控制 SMITH预估器
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部