期刊文献+
共找到392篇文章
< 1 2 20 >
每页显示 20 50 100
A Dynamic Deceptive Defense Framework for Zero-Day Attacks in IIoT:Integrating Stackelberg Game and Multi-Agent Distributed Deep Deterministic Policy Gradient
1
作者 Shigen Shen Xiaojun Ji Yimeng Liu 《Computers, Materials & Continua》 2025年第11期3997-4021,共25页
The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address th... The Industrial Internet of Things(IIoT)is increasingly vulnerable to sophisticated cyber threats,particularly zero-day attacks that exploit unknown vulnerabilities and evade traditional security measures.To address this critical challenge,this paper proposes a dynamic defense framework named Zero-day-aware Stackelberg Game-based Multi-Agent Distributed Deep Deterministic Policy Gradient(ZSG-MAD3PG).The framework integrates Stackelberg game modeling with the Multi-Agent Distributed Deep Deterministic Policy Gradient(MAD3PG)algorithm and incorporates defensive deception(DD)strategies to achieve adaptive and efficient protection.While conventional methods typically incur considerable resource overhead and exhibit higher latency due to static or rigid defensive mechanisms,the proposed ZSG-MAD3PG framework mitigates these limitations through multi-stage game modeling and adaptive learning,enabling more efficient resource utilization and faster response times.The Stackelberg-based architecture allows defenders to dynamically optimize packet sampling strategies,while attackers adjust their tactics to reach rapid equilibrium.Furthermore,dynamic deception techniques reduce the time required for the concealment of attacks and the overall system burden.A lightweight behavioral fingerprinting detection mechanism further enhances real-time zero-day attack identification within industrial device clusters.ZSG-MAD3PG demonstrates higher true positive rates(TPR)and lower false alarm rates(FAR)compared to existing methods,while also achieving improved latency,resource efficiency,and stealth adaptability in IIoT zero-day defense scenarios. 展开更多
关键词 Industrial internet of things zero-day attacks Stackelberg game distributed deep deterministic policy gradient defensive spoofing dynamic defense
在线阅读 下载PDF
Perception Enhanced Deep Deterministic Policy Gradient for Autonomous Driving in Complex Scenarios
2
作者 Lyuchao Liao Hankun Xiao +3 位作者 Pengqi Xing Zhenhua Gan Youpeng He Jiajun Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期557-576,共20页
Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonom... Autonomous driving has witnessed rapid advancement;however,ensuring safe and efficient driving in intricate scenarios remains a critical challenge.In particular,traffic roundabouts bring a set of challenges to autonomous driving due to the unpredictable entry and exit of vehicles,susceptibility to traffic flow bottlenecks,and imperfect data in perceiving environmental information,rendering them a vital issue in the practical application of autonomous driving.To address the traffic challenges,this work focused on complex roundabouts with multi-lane and proposed a Perception EnhancedDeepDeterministic Policy Gradient(PE-DDPG)for AutonomousDriving in the Roundabouts.Specifically,themodel incorporates an enhanced variational autoencoder featuring an integrated spatial attention mechanism alongside the Deep Deterministic Policy Gradient framework,enhancing the vehicle’s capability to comprehend complex roundabout environments and make decisions.Furthermore,the PE-DDPG model combines a dynamic path optimization strategy for roundabout scenarios,effectively mitigating traffic bottlenecks and augmenting throughput efficiency.Extensive experiments were conducted with the collaborative simulation platform of CARLA and SUMO,and the experimental results show that the proposed PE-DDPG outperforms the baseline methods in terms of the convergence capacity of the training process,the smoothness of driving and the traffic efficiency with diverse traffic flow patterns and penetration rates of autonomous vehicles(AVs).Generally,the proposed PE-DDPGmodel could be employed for autonomous driving in complex scenarios with imperfect data. 展开更多
关键词 Autonomous driving traffic roundabouts deep deterministic policy gradient spatial attention mechanisms
在线阅读 下载PDF
Optimizing the Multi-Objective Discrete Particle Swarm Optimization Algorithm by Deep Deterministic Policy Gradient Algorithm
3
作者 Sun Yang-Yang Yao Jun-Ping +2 位作者 Li Xiao-Jun Fan Shou-Xiang Wang Zi-Wei 《Journal on Artificial Intelligence》 2022年第1期27-35,共9页
Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains ... Deep deterministic policy gradient(DDPG)has been proved to be effective in optimizing particle swarm optimization(PSO),but whether DDPG can optimize multi-objective discrete particle swarm optimization(MODPSO)remains to be determined.The present work aims to probe into this topic.Experiments showed that the DDPG can not only quickly improve the convergence speed of MODPSO,but also overcome the problem of local optimal solution that MODPSO may suffer.The research findings are of great significance for the theoretical research and application of MODPSO. 展开更多
关键词 Deep deterministic policy gradient multi-objective discrete particle swarm optimization deep reinforcement learning machine learning
在线阅读 下载PDF
Full-model-free Adaptive Graph Deep Deterministic Policy Gradient Model for Multi-terminal Soft Open Point Voltage Control in Distribution Systems 被引量:1
4
作者 Huayi Wu Zhao Xu +1 位作者 Minghao Wang Youwei Jia 《Journal of Modern Power Systems and Clean Energy》 CSCD 2024年第6期1893-1904,共12页
High penetration of renewable energy sources(RESs)induces sharply-fluctuating feeder power,leading to volt-age deviation in active distribution systems.To prevent voltage violations,multi-terminal soft open points(M-s... High penetration of renewable energy sources(RESs)induces sharply-fluctuating feeder power,leading to volt-age deviation in active distribution systems.To prevent voltage violations,multi-terminal soft open points(M-sOPs)have been integrated into the distribution systems to enhance voltage con-trol flexibility.However,the M-SOP voltage control recalculated in real time cannot adapt to the rapid fluctuations of photovol-taic(PV)power,fundamentally limiting the voltage controllabili-ty of M-SOPs.To address this issue,a full-model-free adaptive graph deep deterministic policy gradient(FAG-DDPG)model is proposed for M-SOP voltage control.Specifically,the attention-based adaptive graph convolutional network(AGCN)is lever-aged to extract the complex correlation features of nodal infor-mation to improve the policy learning ability.Then,the AGCN-based surrogate model is trained to replace the power flow cal-culation to achieve model-free control.Furthermore,the deep deterministic policy gradient(DDPG)algorithm allows FAG-DDPG model to learn an optimal control strategy of M-SOP by continuous interactions with the AGCN-based surrogate model.Numerical tests have been performed on modified IEEE 33-node,123-node,and a real 76-node distribution systems,which demonstrate the effectiveness and generalization ability of the proposed FAG-DDPGmodel. 展开更多
关键词 Soft open point graph attention graph convolutional network reinforcement learning voltage control distribution system deep deterministic policy gradient
原文传递
基于深度强化学习的车联网动态卸载成本优化
5
作者 赵珊 贾宗璞 +2 位作者 朱小丽 庞晓艳 谷坤源 《河南理工大学学报(自然科学版)》 北大核心 2025年第6期191-200,共10页
目的为解决不完美信道车联网中任务卸载与资源分配的关键问题,降低计算成本,方法结合不完美信道特征对基础的车联网任务卸载环境抽象化,联合优化任务卸载比、功率选择和服务器资源分配,建立所有用户的长期平均成本最小化问题模型。采用... 目的为解决不完美信道车联网中任务卸载与资源分配的关键问题,降低计算成本,方法结合不完美信道特征对基础的车联网任务卸载环境抽象化,联合优化任务卸载比、功率选择和服务器资源分配,建立所有用户的长期平均成本最小化问题模型。采用基于深度强化学习的动态卸载优化方案,同时考虑求解变量的连续性,提出优化的深度确定性策略梯度算法SP-DDPG(deep deterministic policy gradient with importance sampling and prioritized experience replay)求解问题模型。对比现有的一些深度强化学习方法,研究单一变量影响下SP-DDPG算法的运行表现,分别计算平均卸载成本和任务丢弃数2个重要指标。结果所提算法与所设置的完全任务卸载算法F-DDPG与DDQN算法相比,任务平均卸载成本分别降低了约36.13%和44.02%,任务丢弃数至少下降了4.38%和9.76%;与部分卸载算法DDPG相比,任务平均卸载成本和任务丢弃数分别下降13.34%和3.17%。实验结果取多次运行后的平均值(时延及能耗权衡因子ω=0.5,信道估计精度值ρ=0.95),具有较好可靠性。结论在复杂变化的不稳定车联网环境中,所提优化深度确定性策略梯度算法SP-DDPG,相较几种常规的深度强化学习算法任务计算成本更低,任务处理效果更好。 展开更多
关键词 车联网 部分卸载 资源分配 深度确定性策略梯度 不完美信道
在线阅读 下载PDF
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:1
6
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID DDPG 精度 控制系统
在线阅读 下载PDF
基于改进TD3的RIS-无人机通信系统能效优化
7
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于无人机辅助联邦边缘学习通信系统的安全隐私能效研究
8
作者 卢为党 冯凯 +2 位作者 丁雨 李博 赵楠 《电子与信息学报》 北大核心 2025年第5期1322-1331,共10页
无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机... 无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机辅助联邦边缘学习通信系统提出一种有效的安全聚合和资源优化方案。具体来说,终端设备利用其本地数据进行局部模型训练来更新参数,并将其发送给全局无人机,无人机据此聚合出新的全局模型参数。窃听者试图通过窃听终端设备发送的模型参数信号来恢复终端设备的原始数据。该文通过联合优化终端设备的传输带宽、CPU频率、发送功率以及无人机的CPU频率,最大化安全隐私能效。为了解决该优化问题,该文提出一种演进深度确定性策略梯度(DDPG)算法,通过和系统智能交互,在保证基本时延和能耗需求的情况下获得安全聚合和资源优化方案。最后,通过和基准方案对比,验证了所提方案的有效性。 展开更多
关键词 无人机 联邦边缘学习 能效 资源优化 深度确定性策略梯度
在线阅读 下载PDF
基于深度强化学习的停机位分配
9
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于深度强化学习的机械臂视觉伺服智能控制
10
作者 袁庆霓 齐建友 虞宏建 《计算机集成制造系统》 北大核心 2025年第3期998-1013,共16页
针对视觉伺服控制系统存在伺服精度低、收敛速度慢和缺乏可见性约束等问题,提出一种基于深度强化学习的自适应调整多策略控制器伺服增益方法,用于机械臂智能控制。首先搭建眼在手配置(EIH)的机械臂视觉伺服系统。然后,融合比例控制与滑... 针对视觉伺服控制系统存在伺服精度低、收敛速度慢和缺乏可见性约束等问题,提出一种基于深度强化学习的自适应调整多策略控制器伺服增益方法,用于机械臂智能控制。首先搭建眼在手配置(EIH)的机械臂视觉伺服系统。然后,融合比例控制与滑模控制(SMC)设计基于图像的视觉伺服控制器(SMCC-IBVS);针对控制系统特征丢失的问题,将伺服选择增益的过程构建为马尔可夫决策过程(MDP)模型,在此基础上,设计基于深度确定性策略梯度(DDPG)的自适应伺服增益算法,通过深度强化学习来自适应调整控制器(SMCC-IBVS)伺服增益,减少伺服误差,提高效率和稳定性。最后,仿真和物理实验结果表明,使用DDPG学习调控增益的SMCC-IBVS控制器具有强鲁棒性和快速收敛性,且在很大程度上避免了特征丢失;机械臂轴孔装配实验结果也表明,所提出的视觉伺服系统实用性能较强,针对轴孔最小间隙为0.2mm间隙配合的装配实验成功率可达99%。 展开更多
关键词 视觉伺服 DDPG学习策略 自适应增益 机械臂 混合滑模控制 可见性约束
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
11
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
基于深度确定性策略梯度算法的交通协同智能控制技术分析
12
作者 高兴媛 和铁行 《国外电子测量技术》 2025年第1期54-61,共8页
为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,... 为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,并提出多智能体系统(Multi-Agent System,MAS)结合异步优势行动者评论家(Asynchronous Advantage Actor-Critic,A3C),简称MA3C。结果表明,DDPG算法训练初期奖励值迅速上升,1000步后约稳定于150,表现优异。MA3C在高峰时奖励值为−5.94,延迟仅0.39 s,速度最高,其队列长度和等待时间显著低于其他算法。在不同车流密度下,所研究系统的车道平均占用率和平均速度均优于对比算法,高密度流量中车道平均占用率为0.9%,平均速度达14.89 m/s。低密度流量中车道平均占用率为0.4%,平均速度为17.68 m/s。所提方法不仅能够提高了交通系统的效率,还能增强交通控制的灵活性和适应性,推动了交通控制技术向智能化、自动化的方向发展。 展开更多
关键词 交通系统 深度确定性策略梯度算法 路网 智能化
原文传递
基于MLP与改进GCN-TD3的交通信号控制建模与仿真
13
作者 黄德启 涂亚婷 +1 位作者 张振华 郭鑫 《系统仿真学报》 北大核心 2025年第10期2568-2577,共10页
针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特... 针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特征聚合为区域交通的潜在特征,由改进的双延迟深度确定性策略梯度算法进行多次迭代得到控制策略,将控制策略应用于城市路网的交通相位配时中,最大化的提升路网车辆的通行效率。仿真实验表明:该算法能够适应动态变化的复杂路网环境,且在高饱和流量下控制效果明显,能有效提高路网的通行效率,缓解交叉口高峰期拥堵问题。 展开更多
关键词 交通信号控制 图卷积神经网络 强化学习 双延迟深度确定性策略梯度 协同控制
原文传递
基于TD3算法的光伏电站参与电力系统频率控制策略
14
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
15
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:3
16
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
多智能体协同通信交通信号控制
17
作者 王永利 杨泽睿 +1 位作者 朱易 张永亮 《陆军工程大学学报》 2025年第3期41-48,共8页
针对城市交通拥堵及交通高协同需求,提出基于通信融合模块的多智能体深度确定性策略梯度(communication cooperation model-multi-agent deep deterministic policy gradient,CCM-MADDPG)算法。其核心在于设计通信融合模块(CCM),通过嵌... 针对城市交通拥堵及交通高协同需求,提出基于通信融合模块的多智能体深度确定性策略梯度(communication cooperation model-multi-agent deep deterministic policy gradient,CCM-MADDPG)算法。其核心在于设计通信融合模块(CCM),通过嵌入层与信息提取模块挖掘邻近智能体深层关系,并利用注意力机制动态加权融合邻居信息,避免冗余与信息平均化。将CCM嵌入Actor网络使智能体结合邻近信息决策,利用局部性原理缓解联合行动空间问题,提升系统稳定性与协作效率。实验表明,所提模型在合成与真实数据集上性能显著优于Qmix、FRAP等基线模型,在复杂路网中展现优异可扩展性与适应性。曼哈顿路网实验显示,其平均延迟较Qmix和FRAP分别缩短28.8%和26.3%。消融实验验证了CCM中信息提取与注意力机制的必要性。该算法为多智能体交通协同控制提供了高效解决方案,兼具城市交通优化与应用潜力,其核心贡献在于CCM设计与MADDPG框架的成功融合。 展开更多
关键词 城市交通拥堵 交通信号控制 多智能体协同控制 深度确定性策略梯度
在线阅读 下载PDF
基于强化学习的地下空间除湿机组系统优化控制研究
18
作者 赵安军 魏渊 +1 位作者 张洺瑞 任启航 《建筑节能(中英文)》 2025年第4期89-98,共10页
针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系... 针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系统的环境模型,并将室内湿度和系统能效设定为控制目标。针对地下空间建筑除湿机组系统,构建了基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法的强化学习智能体结构。通过智能体与环境模型的交互,不断尝试调整除湿机组中的蒸发温度和冷却塔风机频率,使室内湿度更接近设定的湿度值,并在一定程度上提高系统能效,从而降低能源消耗,实现一定的节能效果。 展开更多
关键词 地下空间建筑 除湿机组 系统能效 双延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
基于深度强化学习的综合能源系统优化调度
19
作者 梁海峰 闫峰 +1 位作者 尚隽 王楚通 《内蒙古电力技术》 2025年第4期21-29,共9页
为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的... 为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的改进深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。首先,借助多环境实例促使智能体和环境进行大量交互,从而获得有效的指导经验;其次,对不同类型数据进行特征量化处理,并依据特征分数进行经验采样,提高样本利用效率;最后,将改进DDPG算法与经典柔性动作-评价(Soft Actor⁃Critic,SAC)算法、双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法进行对比实验,实验结果验证了所提算法在提高收敛速度和样本利用效率方面的有效性,并通过算例仿真对模型增量学习后的性能提升进行了验证。 展开更多
关键词 综合能源系统 深度强化学习 改进深度确定性策略梯度算法 多环境实例 特征分数
在线阅读 下载PDF
计及氢能多元需求的工业园区综合能源系统经济低碳运行 被引量:2
20
作者 杨家辉 闫庆友 郭红珍 《广东电力》 北大核心 2025年第1期51-62,共12页
针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能... 针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能源系统双层优化模型,并利用深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)进行求解;最后,选取某地工业园区进行算例分析,比较3种场景下的运行结果。结果表明,在引入代理商调整新能源汽车充能负荷并配置储能系统后,工业园区的购电成本降低了15.8%,综合能源系统运营商的收益提高了6.85%,同时工业园区的碳排放量降低了3.99%。 展开更多
关键词 氢能多元需求 园区综合能源系统 双层优化模型 深度确定性策略梯度算法 新能源汽车
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部