期刊文献+
共找到408篇文章
< 1 2 21 >
每页显示 20 50 100
A Dynamic Deceptive Defense Framework for Zero-Day Attacks in IIoT:Integrating Stackelberg Game and Multi-Agent Distributed Deep Deterministic Policy Gradient
1
作者 Shigen Shen Xiaojun Ji Yimeng Liu 《Computers, Materials & Continua》 2025年第11期3997-4021,共25页
The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address th... The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address this critical challenge,this paper proposes a dynamic defense framework named Zero-day-aware Stackelberg Game-based Multi-Agent Distributed Deep Deterministic Policy Gradient(ZSG-MAD3PG).The framework integrates Stackelberg game modeling with the Multi-Agent Distributed Deep Deterministic Policy Gradient(MAD3PG)algorithm and incorporates defensive deception(DD)strategies to achieve adaptive and efficient protection.While conventional methods typically incur considerable resource overhead and exhibit higher latency due to static or rigid defensive mechanisms,the proposed ZSG-MAD3PG framework mitigates these limitations through multi-stage game modeling and adaptive learning,enabling more efficient resource utilization and faster response times.The Stackelberg-based architecture allows defenders to dynamically optimize packet sampling strategies,while attackers adjust their tactics to reach rapid equilibrium.Furthermore,dynamic deception techniques reduce the time required for the concealment of attacks and the overall system burden.A lightweight behavioral fingerprinting detection mechanism further enhances real-time zero-day attack identification within industrial device clusters.ZSG-MAD3PG demonstrates higher true positive rates(TPR)and lower false alarm rates(FAR)compared to existing methods,while also achieving improved latency,resource efficiency,and stealth adaptability in IIoT zero-day defense scenarios. 展开更多
关键词 Industrial internet of things zero-day attacks Stackelberg game distributed deep deterministic policy gradient defensive spoofing dynamic defense
在线阅读 下载PDF
Perception Enhanced Deep Deterministic Policy Gradient for Autonomous Driving in Complex Scenarios
2
作者 Lyuchao Liao Hankun Xiao +3 位作者 Pengqi Xing Zhenhua Gan Youpeng He Jiajun Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期557-576,共20页
Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonom... Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonomous driving due to the unpredictable entry and exit of vehicles,susceptibility to traffic flow bottlenecks,and imperfect data in perceiving environmental information,rendering them a vital issue in the practical application of autonomous driving.To address the traffic challenges,this work focused on complex roundabouts with multi-lane and proposed a Perception EnhancedDeepDeterministic Policy Gradient(PE-DDPG)for AutonomousDriving in the Roundabouts.Specifically,themodel incorporates an enhanced variational autoencoder featuring an integrated spatial attention mechanism alongside the Deep Deterministic Policy Gradient framework,enhancing the vehicle’s capability to comprehend complex roundabout environments and make decisions.Furthermore,the PE-DDPG model combines a dynamic path optimization strategy for roundabout scenarios,effectively mitigating traffic bottlenecks and augmenting throughput efficiency.Extensive experiments were conducted with the collaborative simulation platform of CARLA and SUMO,and the experimental results show that the proposed PE-DDPG outperforms the baseline methods in terms of the convergence capacity of the training process,the smoothness of driving and the traffic efficiency with diverse traffic flow patterns and penetration rates of autonomous vehicles(AVs).Generally,the proposed PE-DDPGmodel could be employed for autonomous driving in complex scenarios with imperfect data. 展开更多
关键词 Autonomous driving traffic roundabouts deep deterministic policy gradient spatial attention mechanisms
在线阅读 下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
3
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
在线阅读 下载PDF
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:1
4
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID ddpg 精度 控制系统
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
5
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
6
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于DDPG-LQR的高超声速飞行器时间协同再入制导 被引量:1
7
作者 宋志飞 吉月辉 +2 位作者 宋雨 刘俊杰 高强 《导弹与航天运载技术(中英文)》 北大核心 2025年第1期57-64,共8页
针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的... 针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的时间协同再入轨迹及其相应的稳态控制量,并且采用Radau伪谱法离散运动学方程,以提高轨迹优化离散精度。其次,采用线性二次型调节器(Linear Quadratic Regulator,LQR)跟踪时间协同再入轨迹。为了提高协同制导精度和制导效果,采用深度策略性梯度(Deep Deterministic Policy Gradient,DDPG)在线优化LQR的权重矩阵系数。在DDPG算法中,通过引入合适的奖励函数来提高算法的优化性能。仿真结果表明,在初始状态误差和不确定性的情况下,通过与传统的LQR控制器相比,本文所提出的协同制导方案具有更好的协同制导精度和制导效果。 展开更多
关键词 多高超声速飞行器 协同制导 序列凸优化 深度策略性梯度 线性二次型调节器
在线阅读 下载PDF
基于改进DDPG的机械臂6D抓取方法研究 被引量:1
8
作者 张盛 沈捷 +2 位作者 曹恺 戴辉帅 李涛 《计算机工程与应用》 北大核心 2025年第18期317-325,共9页
在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化... 在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化评估。依据评估分数为机械臂抓取的动作分配多级奖励值,以此判断抓取位姿的质量,引导DDPG朝着优化抓取位姿的方向进行学习。通过在仿真和实物环境下进行实验,结果表明该方法可以有效改进机械臂的抓取位姿,提升机械臂的抓取成功率。此外,该方法可以较好地迁移到现实场景中,增强机械臂的泛化性和鲁棒性。 展开更多
关键词 深度确定性策略梯度算法 机械臂 6D抓取 深度强化学习 抓取评估
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法 被引量:1
9
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(MAddpg) 无人机集群
在线阅读 下载PDF
DoS攻击下基于APF和DDPG算法的无人机安全集群控制
10
作者 林柄权 刘磊 +1 位作者 李华峰 刘晨 《计算机应用》 北大核心 2025年第4期1241-1248,共8页
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集... 针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。 展开更多
关键词 无人机集群 人工势场法 深度确定性策略梯度 切换策略 网络安全
在线阅读 下载PDF
基于融合课程思想MADDPG的无人机编队控制
11
作者 吴凯峰 刘磊 +1 位作者 刘晨 梁成庆 《计算机工程》 北大核心 2025年第5期73-82,共10页
多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变... 多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变的环境中的性能和稳定性。基于MADDPG算法框架,设计算法的网络结构、状态空间、动作空间和奖励函数,实现无人机编队控制。为解决多智能体算法收敛困难的问题,训练过程中使用课程强化学习将任务进行阶段分解,针对每次任务不同,设计层次递进的奖励函数,并使用人工势场思想设计稠密奖励,使得训练难度大大降低。在自主搭建的软件在环(SITL)仿真环境中,通过消融、对照实验,验证了MADDPG算法在多智能体环境中的有效性和稳定性。最后进行实机实验,在现实环境中进一步验证了所设计算法的实用性。 展开更多
关键词 无人机编队 深度强化学习 多智能体深度确定性策略梯度 课程学习 神经网络
在线阅读 下载PDF
基于DDPG的板带轧机振动主动控制技术 被引量:2
12
作者 汤建新 闫成琨 +3 位作者 胡阳虎 李明远 马超 孙建亮 《钢铁》 北大核心 2025年第8期146-157,共12页
轧机异常振动不仅会造成板带材表面质量下降、加速轧辊磨损、降低生产效率,甚至会引发堆钢、断带等问题威胁现场生产安全。但在目前轧机振动研究领域被广泛应用的集中质量振动模型中,轧机系统的刚度、阻尼无法得到准确值,只能做近似处理... 轧机异常振动不仅会造成板带材表面质量下降、加速轧辊磨损、降低生产效率,甚至会引发堆钢、断带等问题威胁现场生产安全。但在目前轧机振动研究领域被广泛应用的集中质量振动模型中,轧机系统的刚度、阻尼无法得到准确值,只能做近似处理,误差较大,导致依据此方法建立的模型难以准确描述实际轧制过程。为解决轧制过程中振动难以抑制的问题,针对轧机振动的强非线性和轧机系统模型难建立等特征,提出一种不基于模型的深度强化学习控制策略,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)为控制策略设计控制器,依托于算法本身特性进行交互式学习,通过信号处理的方式获取数据集,训练完成之后保存网络结构,获取主动控制器;基于轧机AGC(automatic gauge control)系统内部原有控制闭环,采用并联方式连入主动控制器,通过智能体与轧机状态环境交互得到控制信号,AGC系统输出外部主动力平衡振动产生的惯性力,依靠外部主动力和系统本身的阻尼做负功,从而实现轧机垂直振动的主动控制。通过仿真分析验证了此方法的可行性,结果显示,控制后振动信号的均方根RMS降低率达到80%,表明基于DDPG的轧机振动主动控制策略有优异的振动控制能力,且参数整定过程简单,收敛速度快,符合控制需求,为复杂工业场景的振动控制提供了新思路。 展开更多
关键词 轧机振动 主动控制 深度学习 强化学习 振动控制 轧机抑振 深度确定性策略梯度 智能体训练
原文传递
EP-DDPG引导的着舰控制系统
13
作者 雷元龙 谢鹏 +3 位作者 刘业华 陈翃正 朱静思 盛守照 《控制理论与应用》 北大核心 2025年第10期1904-1913,共10页
针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略... 针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略.首先,构建“魔毯”着舰控制系统作为基础架构;其次,为提升控制器的自适应能力和鲁棒性,基于行动者–评论家框架设计深度确定性策略梯度(DDPG)算法对控制器参数进行在线调整;最后,针对常规强化学习算法前期训练效率低,效果差的问题,基于反向传播(BP)神经网络构专家策略为智能体的训练提供引导,并设计指导探索协调模块进行策略决策,保证动作策略的合理性和算法的高效性.仿真结果表明,与常规控制器相比,该算法的控制精度和鲁棒性有了极大的提升. 展开更多
关键词 强化学习 深度确定性策略梯度算法 魔毯 行动者–评论家 BP神经网络
在线阅读 下载PDF
基于LSTM-DDPG算法的四翼变掠角飞行器主动变形决策
14
作者 彭余萧 何真 仇靖雯 《北京航空航天大学学报》 北大核心 2025年第10期3504-3514,共11页
针对变体飞行器主动变形控制问题,提出一种基于长短期记忆(LSTM)网络深度确定性策略梯度(DDPG)算法的智能变形控制方法;以一种串置翼构型的四翼变掠角飞行器为研究对象,利用OPENVSP软件计算其几何模型和气动参数,并建立了飞行器动力学模... 针对变体飞行器主动变形控制问题,提出一种基于长短期记忆(LSTM)网络深度确定性策略梯度(DDPG)算法的智能变形控制方法;以一种串置翼构型的四翼变掠角飞行器为研究对象,利用OPENVSP软件计算其几何模型和气动参数,并建立了飞行器动力学模型;针对四翼变掠角飞行器的加速爬升过程,设计了基于LSTM-DDPG算法学习框架,并在对称变形条件下,针对纵向轨迹跟踪进行主动变形决策训练。仿真结果表明:应用于主动变形控制过程中的LSTMDDPG算法可以快速收敛并达到更高的平均奖励,且训练获得的主动变形控制器在四翼变掠角飞行器的轨迹跟踪任务中具有良好的控制效果。 展开更多
关键词 变体飞行器 飞行控制 深度强化学习 深度确定性策略梯度 长短期记忆递归神经网络
原文传递
基于DDPG算法的桥式吊车自适应防摆控制
15
作者 辛增淼 万思成 +3 位作者 高永锹 王天雷 郝晓曦 邱光繁 《五邑大学学报(自然科学版)》 2025年第1期24-30,共7页
为解决桥式吊车控制中存在的台车定位速度慢和负载摆动大等问题,提出一种基于深度确定性策略梯度(DDPG)的控制策略.将桥式吊车设为强化学习的智能体;通过设定状态量及其误差作为智能体观测目标,设计合适的惩罚与奖励函数;智能体通过对... 为解决桥式吊车控制中存在的台车定位速度慢和负载摆动大等问题,提出一种基于深度确定性策略梯度(DDPG)的控制策略.将桥式吊车设为强化学习的智能体;通过设定状态量及其误差作为智能体观测目标,设计合适的惩罚与奖励函数;智能体通过对控制系统的实时运行情况进行响应来生成控制动作.仿真结果表明,与传统控制算法相比,基于DDPG强化学习的算法在定位速度和摆角抑制方面的表现都优于传统方法,展现出较传统控制算法更高的性能和应用潜力. 展开更多
关键词 桥式吊车 强化学习 深度确定性策略梯度 自适应控制 防摆控制
在线阅读 下载PDF
基于MADDPG的多无人战车协同突防决策方法研究 被引量:1
16
作者 殷宇维 王凡 +1 位作者 丁录顺 边金宁 《指挥控制与仿真》 2025年第3期40-49,共10页
针对多无人战车陆上突防作战时如何根据实时态势进行协同智能决策这一问题,结合多智能体无人战车突防作战过程建立马尔可夫(MDP)模型,并基于多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)提... 针对多无人战车陆上突防作战时如何根据实时态势进行协同智能决策这一问题,结合多智能体无人战车突防作战过程建立马尔可夫(MDP)模型,并基于多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)提出多无人战车协同突防决策方法。针对多智能体决策时智能体策略变化互相影响的问题,通过在算法的AC结构中引入自注意力机制,使每个智能体进行决策和策略评估时更加关注那些对其影响较大的智能体;并采用自注意力机制计算每个智能体的回报权值,按照每个智能体自身贡献进行回报分配,提升了战车间的协同性;最后通过在想定环境中进行实验,验证了多战车协同突防决策方法的有效性。 展开更多
关键词 深度强化学习 多无人战车协同突防 多智能体深度确定性策略梯度 自注意力机制
在线阅读 下载PDF
基于DDPG优化方法的插电式混合动力汽车等效燃油消耗最小控制策略
17
作者 徐晓东 韦文祥 甘紫东 《汽车实用技术》 2025年第5期8-13,共6页
为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混... 为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混合动力汽车的能量管理优化问题。在MATLAB/Simulink中搭建整车仿真模型进行试验,结果表明,采用新欧洲驾驶循环特定工况,在满足车辆正常行驶动力需求下,基于DDPG算法优化的等效油耗极小值算法燃油消耗明显低于双深度Q网络(DDQN)和传统的ECMS,同时维持电池SOC的平衡,保证了多目标平衡性。 展开更多
关键词 插电式混合动力汽车 确定性策略梯度算法 等效燃油消耗最小控制策略 等效因子 多目标平衡
在线阅读 下载PDF
导向钻井稳定平台的DDPG深度强化学习控制
18
作者 霍爱清 姜雪 张书涵 《西安石油大学学报(自然科学版)》 北大核心 2025年第5期49-56,共8页
针对导向钻井稳定平台工作时,系统存在干扰所带来的跟踪效果不理想、鲁棒性较差等问题,提出了一种基于DDPG的深度强化学习控制方法。以旋转导向钻井稳定平台为研究对象,建立了稳定平台被控对象模型和摩擦模型。从状态向量、奖励函数和... 针对导向钻井稳定平台工作时,系统存在干扰所带来的跟踪效果不理想、鲁棒性较差等问题,提出了一种基于DDPG的深度强化学习控制方法。以旋转导向钻井稳定平台为研究对象,建立了稳定平台被控对象模型和摩擦模型。从状态向量、奖励函数和网络结构3个方面设计了稳定平台DDPG深度强化学习控制器,构建了Actor-Critic双网络结构并进行参数更新,通过建立控制器输入与实际输出之间的非线性关系,提高稳定平台的控制精度、响应速度和抗干扰能力。分别将所提控制方法与PID、PIDDOB控制方法进行仿真实验对比,实验结果表明所提方法跟踪误差在±10%范围之内,能够有效抑制参数摄动和摩擦干扰,有较强的鲁棒性,满足钻井工程的需求。 展开更多
关键词 旋转导向钻井 稳定平台 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
改进DDPG的端边DNN协同推理策略
19
作者 和涛 栗娟 《计算机工程与应用》 北大核心 2025年第2期304-315,共12页
当前基于端边的深度神经网络(deep neural network,DNN)协同推理策略仅关注于优化时延敏感型任务的推理时延,而未考虑能耗敏感型任务的推理能耗成本,以及DNN划分后在异构边缘服务器之间的高效卸载问题。基于此,提出一种改进深度确定性... 当前基于端边的深度神经网络(deep neural network,DNN)协同推理策略仅关注于优化时延敏感型任务的推理时延,而未考虑能耗敏感型任务的推理能耗成本,以及DNN划分后在异构边缘服务器之间的高效卸载问题。基于此,提出一种改进深度确定性策略梯度(deep deterministic policy gradients,DDPG)的端边DNN协同推理策略,综合考虑任务对时延与能耗的敏感度,进而对推理成本进行综合优化。该策略将DNN划分与计算卸载问题分离,对不同协同设备建立预测模型,去预测出协同推理DNN的最优划分点与推理综合成本;根据预测的推理综合成本建立奖励函数,使用DDPG算法制定每个DNN推理任务的卸载策略,进而进行协同推理。实验结果证明,相比其他DNN协同推理策略,该策略在复杂的DNN协同推理环境下决策更高效,推理时延平均减少了46%,推理能耗平均减少了44%,推理综合成本平均降低了46%。 展开更多
关键词 边缘智能 深度神经网络(DNN) 协同推理 深度确定性策略梯度 任务卸载 能耗优化
在线阅读 下载PDF
Simultaneous Depth and Heading Control for Autonomous Underwater Vehicle Docking Maneuvers Using Deep Reinforcement Learning within a Digital Twin System
20
作者 Yu-Hsien Lin Po-Cheng Chuang Joyce Yi-Tzu Huang 《Computers, Materials & Continua》 2025年第9期4907-4948,共42页
This study proposes an automatic control system for Autonomous Underwater Vehicle(AUV)docking,utilizing a digital twin(DT)environment based on the HoloOcean platform,which integrates six-degree-of-freedom(6-DOF)motion... This study proposes an automatic control system for Autonomous Underwater Vehicle(AUV)docking,utilizing a digital twin(DT)environment based on the HoloOcean platform,which integrates six-degree-of-freedom(6-DOF)motion equations and hydrodynamic coefficients to create a realistic simulation.Although conventional model-based and visual servoing approaches often struggle in dynamic underwater environments due to limited adaptability and extensive parameter tuning requirements,deep reinforcement learning(DRL)offers a promising alternative.In the positioning stage,the Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm is employed for synchronized depth and heading control,which offers stable training,reduced overestimation bias,and superior handling of continuous control compared to other DRL methods.During the searching stage,zig-zag heading motion combined with a state-of-the-art object detection algorithm facilitates docking station localization.For the docking stage,this study proposes an innovative Image-based DDPG(I-DDPG),enhanced and trained in a Unity-MATLAB simulation environment,to achieve visual target tracking.Furthermore,integrating a DT environment enables efficient and safe policy training,reduces dependence on costly real-world tests,and improves sim-to-real transfer performance.Both simulation and real-world experiments were conducted,demonstrating the effectiveness of the system in improving AUV control strategies and supporting the transition from simulation to real-world operations in underwater environments.The results highlight the scalability and robustness of the proposed system,as evidenced by the TD3 controller achieving 25%less oscillation than the adaptive fuzzy controller when reaching the target depth,thereby demonstrating superior stability,accuracy,and potential for broader and more complex autonomous underwater tasks. 展开更多
关键词 Autonomous underwater vehicle docking maneuver digital twin deep reinforcement learning twin delayed deep deterministic policy gradient
在线阅读 下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部