期刊文献+
共找到406篇文章
< 1 2 21 >
每页显示 20 50 100
A Dynamic Deceptive Defense Framework for Zero-Day Attacks in IIoT:Integrating Stackelberg Game and Multi-Agent Distributed Deep Deterministic Policy Gradient
1
作者 Shigen Shen Xiaojun Ji Yimeng Liu 《Computers, Materials & Continua》 2025年第11期3997-4021,共25页
The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address th... The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address this critical challenge,this paper proposes a dynamic defense framework named Zero-day-aware Stackelberg Game-based Multi-Agent Distributed Deep Deterministic Policy Gradient(ZSG-MAD3PG).The framework integrates Stackelberg game modeling with the Multi-Agent Distributed Deep Deterministic Policy Gradient(MAD3PG)algorithm and incorporates defensive deception(DD)strategies to achieve adaptive and efficient protection.While conventional methods typically incur considerable resource overhead and exhibit higher latency due to static or rigid defensive mechanisms,the proposed ZSG-MAD3PG framework mitigates these limitations through multi-stage game modeling and adaptive learning,enabling more efficient resource utilization and faster response times.The Stackelberg-based architecture allows defenders to dynamically optimize packet sampling strategies,while attackers adjust their tactics to reach rapid equilibrium.Furthermore,dynamic deception techniques reduce the time required for the concealment of attacks and the overall system burden.A lightweight behavioral fingerprinting detection mechanism further enhances real-time zero-day attack identification within industrial device clusters.ZSG-MAD3PG demonstrates higher true positive rates(TPR)and lower false alarm rates(FAR)compared to existing methods,while also achieving improved latency,resource efficiency,and stealth adaptability in IIoT zero-day defense scenarios. 展开更多
关键词 Industrial internet of things zero-day attacks Stackelberg game distributed deep deterministic policy gradient defensive spoofing dynamic defense
在线阅读 下载PDF
Perception Enhanced Deep Deterministic Policy Gradient for Autonomous Driving in Complex Scenarios
2
作者 Lyuchao Liao Hankun Xiao +3 位作者 Pengqi Xing Zhenhua Gan Youpeng He Jiajun Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期557-576,共20页
Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonom... Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonomous driving due to the unpredictable entry and exit of vehicles,susceptibility to traffic flow bottlenecks,and imperfect data in perceiving environmental information,rendering them a vital issue in the practical application of autonomous driving.To address the traffic challenges,this work focused on complex roundabouts with multi-lane and proposed a Perception EnhancedDeepDeterministic Policy Gradient(PE-DDPG)for AutonomousDriving in the Roundabouts.Specifically,themodel incorporates an enhanced variational autoencoder featuring an integrated spatial attention mechanism alongside the Deep Deterministic Policy Gradient framework,enhancing the vehicle’s capability to comprehend complex roundabout environments and make decisions.Furthermore,the PE-DDPG model combines a dynamic path optimization strategy for roundabout scenarios,effectively mitigating traffic bottlenecks and augmenting throughput efficiency.Extensive experiments were conducted with the collaborative simulation platform of CARLA and SUMO,and the experimental results show that the proposed PE-DDPG outperforms the baseline methods in terms of the convergence capacity of the training process,the smoothness of driving and the traffic efficiency with diverse traffic flow patterns and penetration rates of autonomous vehicles(AVs).Generally,the proposed PE-DDPGmodel could be employed for autonomous driving in complex scenarios with imperfect data. 展开更多
关键词 Autonomous driving traffic roundabouts deep deterministic policy gradient spatial attention mechanisms
在线阅读 下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
3
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 Deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
在线阅读 下载PDF
Optimum scheduling of truck-based mobile energy couriers(MEC)using deep deterministic policy gradient
4
作者 Yaze Li Jingxian Wu Yanjun Pan 《Intelligent and Converged Networks》 2025年第3期195-208,共14页
We propose a new architecture of truck-based mobile energy couriers(MEC)for power distribution networks with high penetration of renewable energy sources(RES).Each MEC is a truck equipped with high-density inverters,c... We propose a new architecture of truck-based mobile energy couriers(MEC)for power distribution networks with high penetration of renewable energy sources(RES).Each MEC is a truck equipped with high-density inverters,converters,capacitor banks,and energy storage devices.The MEC platform can improve the flexibility,resilience,and RES hosting capability of a distribution grid through spatial-temporal energy reallocation based on the stochastic behaviors of RES and loads.The employment of MEC necessitates the development of complex scheduling and control schemes that can adaptively cope with the dynamic natures of both the power grid and the transportation network.The problem is formulated as a non-convex optimization problem to minimize the total generation cost,subject to the various constraints imposed by conventional and renewable energy sources,energy storage,and transportation networks,etc.The problem is solved by combining optimal power flow(OPF)with deep reinforcement learning(DRL)under the framework of deep deterministic policy gradient(DDPG).Simulation results demonstrate that the proposed MEC platform with DDPG can achieve significant cost reduction compared to conventional systems with static energy storage. 展开更多
关键词 transportation network renewable energy integration mobile energy couriers(MECs) markov decision process(MDP) deep deterministic policy gradient(DDPG)
原文传递
基于知识嵌入型深度强化学习的电力系统频率紧急控制方法
5
作者 李佳旭 吴俊勇 +2 位作者 史法顺 张振远 李栌苏 《电力系统自动化》 北大核心 2026年第1期97-107,共11页
随着新型电力系统建设的快速推进,电力系统频率安全面临的挑战愈发严峻,当系统发生故障导致频率失稳时,采取紧急控制恢复频率稳定至关重要。文中提出一种基于知识嵌入型深度强化学习(DRL)的电力系统频率紧急控制方法。首先,将频率紧急... 随着新型电力系统建设的快速推进,电力系统频率安全面临的挑战愈发严峻,当系统发生故障导致频率失稳时,采取紧急控制恢复频率稳定至关重要。文中提出一种基于知识嵌入型深度强化学习(DRL)的电力系统频率紧急控制方法。首先,将频率紧急控制问题转化为马尔可夫模型,以仿真系统为强化学习环境,并基于深度确定性策略梯度(DDPG)算法构建深度强化学习智能体。此外,通过理论知识引导动作空间优化,综合考虑高频切机与低频减载两类场景。最后,在IEEE 39节点系统中进行控制效果测试,结果表明:深度强化学习智能体能够给出有效的频率紧急控制策略,维护系统频率安全;知识嵌入的方法改善了模型的训练稳定性,能显著提高智能体的策略学习效率与决策质量。 展开更多
关键词 人工智能 新型电力系统 频率安全 频率紧急控制 深度强化学习 深度确定性策略梯度 高频切机 低频减载
在线阅读 下载PDF
基于深度强化学习的柑橘黄龙病智能动态防控策略
6
作者 张勇威 骆智聪 +1 位作者 邓小玲 兰玉彬 《华南农业大学学报》 北大核心 2026年第1期74-85,共12页
【目的】柑橘黄龙病(Citrus Huanglongbing,HLB)传播受多重动态因素耦合影响,传统最优控制方法因计算复杂度高且依赖精确模型,导致其在实际应用中存在局限性。为解决这一问题,本文提出了一种基于双延迟深度确定性策略梯度(Twin delayed ... 【目的】柑橘黄龙病(Citrus Huanglongbing,HLB)传播受多重动态因素耦合影响,传统最优控制方法因计算复杂度高且依赖精确模型,导致其在实际应用中存在局限性。为解决这一问题,本文提出了一种基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)的HLB智能动态防控方法。【方法】首先,构建融合宿主−媒介交互机制的HLB传播控制动力学模型,并通过离散化处理将其转化为马尔科夫决策过程环境;随后,引入TD3算法,设计生物约束兼容的多目标奖励函数;最后,提出HLB防控策略。【结果】仿真试验结果表明,与DDPG、PPO等传统算法相比,本文提出的基于TD3的HLB动态防控策略在多项关键指标上均呈现出明显优势,系统状态收敛至无病平衡点的速度分别提升了26.59%和20.99%;累计控制成本分别降低了23.79%和19.90%;杀虫剂峰值使用量减少了约35.57%。数值分析结果进一步表明,在HLB爆发初期,及时喷洒杀虫剂干预对阻断HLB传播链具有关键作用;动态防控策略相较于恒定控制策略,在抑制病害扩散效果和降低实施控制的成本方面更具优势。【结论】本研究提出的基于TD3的HLB防控方法为高效控制HLB传播提供了新的视角,展示了深度强化学习方法在农业病害防控中的潜力。 展开更多
关键词 柑橘黄龙病 深度强化学习 双延迟深度确定性策略梯度 最优控制 防控策略
在线阅读 下载PDF
Full-model-free Adaptive Graph Deep Deterministic Policy Gradient Model for Multi-terminal Soft Open Point Voltage Control in Distribution Systems 被引量:2
7
作者 Huayi Wu Zhao Xu +1 位作者 Minghao Wang Youwei Jia 《Journal of Modern Power Systems and Clean Energy》 CSCD 2024年第6期1893-1904,共12页
High penetration of renewable energy sources(RESs)induces sharply-fluctuating feeder power,leading to volt-age deviation in active distribution systems.To prevent voltage violations,multi-terminal soft open points(M-s... High penetration of renewable energy sources(RESs)induces sharply-fluctuating feeder power,leading to volt-age deviation in active distribution systems.To prevent voltage violations,multi-terminal soft open points(M-sOPs)have been integrated into the distribution systems to enhance voltage con-trol flexibility.However,the M-SOP voltage control recalculated in real time cannot adapt to the rapid fluctuations of photovol-taic(PV)power,fundamentally limiting the voltage controllabili-ty of M-SOPs.To address this issue,a full-model-free adaptive graph deep deterministic policy gradient(FAG-DDPG)model is proposed for M-SOP voltage control.Specifically,the attention-based adaptive graph convolutional network(AGCN)is lever-aged to extract the complex correlation features of nodal infor-mation to improve the policy learning ability.Then,the AGCN-based surrogate model is trained to replace the power flow cal-culation to achieve model-free control.Furthermore,the deep deterministic policy gradient(DDPG)algorithm allows FAG-DDPG model to learn an optimal control strategy of M-SOP by continuous interactions with the AGCN-based surrogate model.Numerical tests have been performed on modified IEEE 33-node,123-node,and a real 76-node distribution systems,which demonstrate the effectiveness and generalization ability of the proposed FAG-DDPGmodel. 展开更多
关键词 Soft open point graph attention graph convolutional network reinforcement learning voltage control distribution system deep deterministic policy gradient
原文传递
基于深度强化学习的停机位分配 被引量:1
8
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法 被引量:2
9
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度强化学习的车联网动态卸载成本优化
10
作者 赵珊 贾宗璞 +2 位作者 朱小丽 庞晓艳 谷坤源 《河南理工大学学报(自然科学版)》 北大核心 2025年第6期191-200,共10页
目的为解决不完美信道车联网中任务卸载与资源分配的关键问题,降低计算成本,方法结合不完美信道特征对基础的车联网任务卸载环境抽象化,联合优化任务卸载比、功率选择和服务器资源分配,建立所有用户的长期平均成本最小化问题模型。采用... 目的为解决不完美信道车联网中任务卸载与资源分配的关键问题,降低计算成本,方法结合不完美信道特征对基础的车联网任务卸载环境抽象化,联合优化任务卸载比、功率选择和服务器资源分配,建立所有用户的长期平均成本最小化问题模型。采用基于深度强化学习的动态卸载优化方案,同时考虑求解变量的连续性,提出优化的深度确定性策略梯度算法SP-DDPG(deep deterministic policy gradient with importance sampling and prioritized experience replay)求解问题模型。对比现有的一些深度强化学习方法,研究单一变量影响下SP-DDPG算法的运行表现,分别计算平均卸载成本和任务丢弃数2个重要指标。结果所提算法与所设置的完全任务卸载算法F-DDPG与DDQN算法相比,任务平均卸载成本分别降低了约36.13%和44.02%,任务丢弃数至少下降了4.38%和9.76%;与部分卸载算法DDPG相比,任务平均卸载成本和任务丢弃数分别下降13.34%和3.17%。实验结果取多次运行后的平均值(时延及能耗权衡因子ω=0.5,信道估计精度值ρ=0.95),具有较好可靠性。结论在复杂变化的不稳定车联网环境中,所提优化深度确定性策略梯度算法SP-DDPG,相较几种常规的深度强化学习算法任务计算成本更低,任务处理效果更好。 展开更多
关键词 车联网 部分卸载 资源分配 深度确定性策略梯度 不完美信道
在线阅读 下载PDF
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:1
11
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID DDPG 精度 控制系统
在线阅读 下载PDF
基于改进TD3的RIS-无人机通信系统能效优化
12
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于无人机辅助联邦边缘学习通信系统的安全隐私能效研究
13
作者 卢为党 冯凯 +2 位作者 丁雨 李博 赵楠 《电子与信息学报》 北大核心 2025年第5期1322-1331,共10页
无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机... 无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机辅助联邦边缘学习通信系统提出一种有效的安全聚合和资源优化方案。具体来说,终端设备利用其本地数据进行局部模型训练来更新参数,并将其发送给全局无人机,无人机据此聚合出新的全局模型参数。窃听者试图通过窃听终端设备发送的模型参数信号来恢复终端设备的原始数据。该文通过联合优化终端设备的传输带宽、CPU频率、发送功率以及无人机的CPU频率,最大化安全隐私能效。为了解决该优化问题,该文提出一种演进深度确定性策略梯度(DDPG)算法,通过和系统智能交互,在保证基本时延和能耗需求的情况下获得安全聚合和资源优化方案。最后,通过和基准方案对比,验证了所提方案的有效性。 展开更多
关键词 无人机 联邦边缘学习 能效 资源优化 深度确定性策略梯度
在线阅读 下载PDF
融合DDPG算法的参数动态协同储能变换器自抗扰稳压控制
14
作者 马幼捷 陈韵霏 +3 位作者 周雪松 耿盛意 马立聪 李双 《高电压技术》 北大核心 2025年第11期5607-5619,共13页
针对光储直流微电网易受光伏资源波动、负荷侧波动等不确定扰动影响,进而引发的直流母线电压波动问题,在传统自抗扰控制(linear active disturbance rejection control,LADRC)的基础上,提出一种参数动态协同自抗扰控制(dynamic coordina... 针对光储直流微电网易受光伏资源波动、负荷侧波动等不确定扰动影响,进而引发的直流母线电压波动问题,在传统自抗扰控制(linear active disturbance rejection control,LADRC)的基础上,提出一种参数动态协同自抗扰控制(dynamic coordination of parameters for active disturbance rejection control,DCLADRC),引入两个新的观测变量并增加一维带宽参数,旨在通过深度确定性策略梯度(deterministic policy gradient,DDPG)算法动态调整两级带宽间的协调因子k,提高观测器多频域扰动下的观测精度及收敛速度,优化控制器的抗扰性,增强母线电压稳定性,从而使得储能能够更好地发挥“削峰填谷”的调节作用。物理实验结果表明,受到扰动后,对比LADRC与双闭环比例积分(double closed loop proportion-integration,Double_PI)控制,所提的DCLADRC电压偏移量分别减少了75%和83%。 展开更多
关键词 光储直流微电网 储能 自抗扰控制 深度确定性策略梯度算法 抗扰性
原文传递
改进DDPG导航实现的双机器人编队在限制区域内的运输
15
作者 汤亮 牛一森 马荣庚 《重庆理工大学学报(自然科学)》 北大核心 2025年第11期130-137,共8页
针对机器人编队在协同运输中出现导航路径不佳,以及编队通过狭窄区域时出口被挡住无法驶离的问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的优化导航方法,实现领航者-跟随者双机器人编队在完成杆件... 针对机器人编队在协同运输中出现导航路径不佳,以及编队通过狭窄区域时出口被挡住无法驶离的问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的优化导航方法,实现领航者-跟随者双机器人编队在完成杆件物体搬运任务中生成优化的导航路径,同时设计DDPG的调换决策奖励函数,解决编队通过狭窄区域时出口被挡无法驶离的问题。首先,在DDPG网络中优化奖励函数模块,设计调换决策奖励机制,训练编队的导航能力;其次,采用无迹卡尔曼滤波(untraced Kalman filter,UKF)估计编队位置状态实现跟随者轨迹跟踪;最后,在随机环境中对比A*-DWA和RRT*算法轨迹,基于DDPG实现的轨迹平均角度分别降低了64.03%和38.65%。另外,在多任务环境的实物实验结果表明,训练后的DDPG导航算法在多任务环境下能够实现自主离开调头限制区域,并且对狭窄通道具有适应性,同时减小编队碰撞率。 展开更多
关键词 移动机器人导航 双机器人运输 深度确定性策略梯度 限制环境区域 避障
在线阅读 下载PDF
基于深度强化学习的机械臂视觉伺服智能控制
16
作者 袁庆霓 齐建友 虞宏建 《计算机集成制造系统》 北大核心 2025年第3期998-1013,共16页
针对视觉伺服控制系统存在伺服精度低、收敛速度慢和缺乏可见性约束等问题,提出一种基于深度强化学习的自适应调整多策略控制器伺服增益方法,用于机械臂智能控制。首先搭建眼在手配置(EIH)的机械臂视觉伺服系统。然后,融合比例控制与滑... 针对视觉伺服控制系统存在伺服精度低、收敛速度慢和缺乏可见性约束等问题,提出一种基于深度强化学习的自适应调整多策略控制器伺服增益方法,用于机械臂智能控制。首先搭建眼在手配置(EIH)的机械臂视觉伺服系统。然后,融合比例控制与滑模控制(SMC)设计基于图像的视觉伺服控制器(SMCC-IBVS);针对控制系统特征丢失的问题,将伺服选择增益的过程构建为马尔可夫决策过程(MDP)模型,在此基础上,设计基于深度确定性策略梯度(DDPG)的自适应伺服增益算法,通过深度强化学习来自适应调整控制器(SMCC-IBVS)伺服增益,减少伺服误差,提高效率和稳定性。最后,仿真和物理实验结果表明,使用DDPG学习调控增益的SMCC-IBVS控制器具有强鲁棒性和快速收敛性,且在很大程度上避免了特征丢失;机械臂轴孔装配实验结果也表明,所提出的视觉伺服系统实用性能较强,针对轴孔最小间隙为0.2mm间隙配合的装配实验成功率可达99%。 展开更多
关键词 视觉伺服 DDPG学习策略 自适应增益 机械臂 混合滑模控制 可见性约束
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
17
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
基于深度确定性策略梯度算法的交通协同智能控制技术分析
18
作者 高兴媛 和铁行 《国外电子测量技术》 2025年第1期54-61,共8页
为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,... 为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,并提出多智能体系统(Multi-Agent System,MAS)结合异步优势行动者评论家(Asynchronous Advantage Actor-Critic,A3C),简称MA3C。结果表明,DDPG算法训练初期奖励值迅速上升,1000步后约稳定于150,表现优异。MA3C在高峰时奖励值为−5.94,延迟仅0.39 s,速度最高,其队列长度和等待时间显著低于其他算法。在不同车流密度下,所研究系统的车道平均占用率和平均速度均优于对比算法,高密度流量中车道平均占用率为0.9%,平均速度达14.89 m/s。低密度流量中车道平均占用率为0.4%,平均速度为17.68 m/s。所提方法不仅能够提高了交通系统的效率,还能增强交通控制的灵活性和适应性,推动了交通控制技术向智能化、自动化的方向发展。 展开更多
关键词 交通系统 深度确定性策略梯度算法 路网 智能化
原文传递
基于MLP与改进GCN-TD3的交通信号控制建模与仿真
19
作者 黄德启 涂亚婷 +1 位作者 张振华 郭鑫 《系统仿真学报》 北大核心 2025年第10期2568-2577,共10页
针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特... 针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特征聚合为区域交通的潜在特征,由改进的双延迟深度确定性策略梯度算法进行多次迭代得到控制策略,将控制策略应用于城市路网的交通相位配时中,最大化的提升路网车辆的通行效率。仿真实验表明:该算法能够适应动态变化的复杂路网环境,且在高饱和流量下控制效果明显,能有效提高路网的通行效率,缓解交叉口高峰期拥堵问题。 展开更多
关键词 交通信号控制 图卷积神经网络 强化学习 双延迟深度确定性策略梯度 协同控制
原文传递
基于TD3算法的光伏电站参与电力系统频率控制策略
20
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部