期刊文献+
共找到325篇文章
< 1 2 17 >
每页显示 20 50 100
基于DDPG-PER的智慧楼宇云边任务调度策略
1
作者 杨萍 赵俊睿 《自动化与仪表》 2026年第2期138-143,共6页
随着智慧楼宇中物联网终端激增,大量计算任务须上传处理,但云端延迟高且边缘算力有限。该文提出一种跨层联合优化框架,基于楼宇拓扑与业务特征,建立包含计算时延、任务优先级、云边计算与通信资源的联合调度模型。提出将SumTree结构的... 随着智慧楼宇中物联网终端激增,大量计算任务须上传处理,但云端延迟高且边缘算力有限。该文提出一种跨层联合优化框架,基于楼宇拓扑与业务特征,建立包含计算时延、任务优先级、云边计算与通信资源的联合调度模型。提出将SumTree结构的优先经验回放引入DDPG的DDPG-PER算法,提高样本利用率与收敛性。仿真实验显示,DDPG-PER在全局寻优、收敛速度与稳定性上优于标准DDPG及其他基线,并在最小化总体时延的同时优先完成高优先级任务,为智慧楼宇场景下的云边任务调度提供了一种有效的新思路。 展开更多
关键词 智慧楼宇 任务调度 资源分配 ddpg-PER
在线阅读 下载PDF
改进DDPG的磁浮控制研究
2
作者 张振利 宋成林 +1 位作者 汪永壮 杨杰 《工程科学学报》 北大核心 2026年第2期422-435,共14页
针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针... 针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针对传统DDPG算法在电磁悬浮控制中的不足,设计一种分段式反比例奖励函数,以提升稳态精度和响应速度,并对DDPG控制流程进行分析及优化,以满足实际部署需求.最后,通过仿真与实验,对比分析电流环跟踪、奖励函数、训练步长以及模型变化对控制性能的影响.结果表明:采用分段式反比例奖励函数的IDDPG控制器在降低稳态误差和超调的同时,显著提升系统的响应速度,且优化后的控制流程适用于实际系统部署.此外,不同模型下使用相同参数稳态误差均低于5%,取得基本一致的控制效果,远优于滑模控制(Sliding mode control, SMC)的31%和比例–积分–微分控制(Proportional–Integral–Derivative control, PID)的12%,验证了IDDPG在不依赖精确模型情况下的良好适应性.同时,抗扰实验中,IDDPG相比PID超调减少51%,调节时间缩短49%,具有更强抗扰性. 展开更多
关键词 ddpg 奖励函数 控制指标 系统建模 磁浮系统 学习步长
在线阅读 下载PDF
DDPG改进人工势场法的无人机三维路径规划
3
作者 柴凯凯 徐海芹 范佳伟 《电光与控制》 北大核心 2026年第2期7-13,共7页
在紧急通信和救援任务中,无人机(UAV)在三维环境中的路径规划至关重要。针对传统的人工势场法在连续空间中的最优路径生成能力受限的问题,设计了一种将深度强化学习深度确定性策略梯度(DDPG)与人工势场(APF)相融合的算法。该算法利用DDP... 在紧急通信和救援任务中,无人机(UAV)在三维环境中的路径规划至关重要。针对传统的人工势场法在连续空间中的最优路径生成能力受限的问题,设计了一种将深度强化学习深度确定性策略梯度(DDPG)与人工势场(APF)相融合的算法。该算法利用DDPG算法的动态调整机制优化APF算法的斥力和引力参数,增强了路径规划的效率;当APF算法陷入局部最小值时,由DDPG算法辅助APF算法跳出局部最小值,确保路径的全局最优性。仿真实验结果表明,与单一使用DDPG算法和APF算法相比,融合算法能在保证成功率的前提下显著缩短路径长度、减小总转向角,提升了路径规划的效率。 展开更多
关键词 路径规划 人工势场法 ddpg 三维环境 深度强化学习
在线阅读 下载PDF
基于DDPG动态补偿的压机位置伺服控制
4
作者 朱婷婷 储昭碧 +1 位作者 武睿芃 李龙龙 《制造技术与机床》 北大核心 2026年第3期165-173,共9页
在芯片封装过程中,传统PID控制应用于伺服压机控制器时,虽能达成基础稳定控制,但存在参数整定依赖经验、动态适应性不足的问题,难以处理伺服压机封装过程中的非线性、参数变化等复杂状况。为使伺服压机适应实际应用环境,提高位置跟踪精... 在芯片封装过程中,传统PID控制应用于伺服压机控制器时,虽能达成基础稳定控制,但存在参数整定依赖经验、动态适应性不足的问题,难以处理伺服压机封装过程中的非线性、参数变化等复杂状况。为使伺服压机适应实际应用环境,提高位置跟踪精度,实现精确控制,创新性地将深度强化学习引入伺服压机控制模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法,并构建自适应动态补偿机制实现参数优化。仿真试验结果表明,与传统PID控制相比,所构建的基于DDPG的动态补偿控制策略在标称情况、大摩擦工况、宽齿隙工况与带有随机扰动的工况下的误差范围分别降低了91.70%、94.09%、85.38%以及87.57%,显著提高系统模型的跟踪性能与较强的抗干扰能力。仿真试验结果充分验证了所提方法的有效性。 展开更多
关键词 伺服压机 深度强化学习 ddpg算法 自适应控制 动态补偿 位置跟踪
在线阅读 下载PDF
地震模拟振动台DDPG强化学习控制策略研究
5
作者 张廷元 纪金豹 +1 位作者 李倩 李绅 《机床与液压》 北大核心 2026年第2期57-64,共8页
为提升地震模拟振动台系统在复杂负载工况下的加速度跟踪精度,基于深度确定性策略梯度(DDPG)算法构建振动台强化学习控制策略。建立空载和单自由度试件下的振动台系统模型;采用DDPG算法对控制网络进行迭代训练,通过Actor-Critic框架实... 为提升地震模拟振动台系统在复杂负载工况下的加速度跟踪精度,基于深度确定性策略梯度(DDPG)算法构建振动台强化学习控制策略。建立空载和单自由度试件下的振动台系统模型;采用DDPG算法对控制网络进行迭代训练,通过Actor-Critic框架实现控制模型的学习与优化;将训练好的网络引入振动台模型进行验证,对比分析DDPG算法与传统三变量控制的性能差异,对比测试多种地震波激励下的控制效果。仿真结果表明:在空载条件下,相比传统三参量控制算法,DDPG控制算法的相关系数显著提高,在El-Centro波激励下,DDPG控制的相关系数达到94.3%,相比三参量算法的91.9%提高了2.4%;在考虑单自由度试件的情况下,DDPG算法也可保持良好的控制精度,在El-Centro波激励下,相关系数达到92.9%,相比传统算法的83.7%提高了9.2%。强化学习在振动台控制中的有效性得到了验证,为振动台系统的智能控制提供了新的技术路径。 展开更多
关键词 振动台 ddpg算法 强化学习 智能控制
在线阅读 下载PDF
DDPG-LSTM算法在动态多峰场景下光伏MPPT研究
6
作者 李义博 袁金丽 +2 位作者 贠智 郑森潇 郭志涛 《电子测量技术》 北大核心 2026年第3期128-136,共9页
针对光伏系统在局部遮挡、光照突变等复杂动态环境下,出现多极值特性导致最大功率点难以准确追踪和功率波动问题,本文将深度确定性策略梯度连续动作空间优化能力与长短期记忆网络时序特征优势相融合,提出一种基于深度强化学习的DDPG-LST... 针对光伏系统在局部遮挡、光照突变等复杂动态环境下,出现多极值特性导致最大功率点难以准确追踪和功率波动问题,本文将深度确定性策略梯度连续动作空间优化能力与长短期记忆网络时序特征优势相融合,提出一种基于深度强化学习的DDPG-LSTM算法。通过设计分层次奖励函数实现功率追踪、动作平滑性和系统稳定性的多目标协同优化。在MATLAB/Simulink平台搭建光伏系统仿真模型。实验表明:在多极值和动态环境变化条件下,DDPGLSTM算法可稳定跳出局部极值且在最大功率点附近无显著振荡,平均追踪效率达98%以上,验证了DDPG-LSTM算法在动态环境中的高效性与鲁棒性,为光伏系统智能控制及可再生能源高效利用提供了理论支持。 展开更多
关键词 光伏系统 最大功率点追踪 深度强化学习 ddpg-LSTM 局部遮挡
原文传递
基于DDPG和电价感知的中长期双边竞价策略优化模型
7
作者 吴凡 杨永标 +1 位作者 徐青山 赵祎静 《电力需求侧管理》 2026年第1期113-119,共7页
随着电力市场改革的不断深化,用户侧参与中长期电力市场交易的活跃度持续提升,其对电价变化的感知与响应行为已成为影响市场资源配置效率的重要因素。针对传统中长期竞价模型在刻画用户动态行为和处理连续策略优化方面的不足,引入多周... 随着电力市场改革的不断深化,用户侧参与中长期电力市场交易的活跃度持续提升,其对电价变化的感知与响应行为已成为影响市场资源配置效率的重要因素。针对传统中长期竞价模型在刻画用户动态行为和处理连续策略优化方面的不足,引入多周期电价感知机制与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法,构建发电商中长期双边竞价策略优化方法。首先,建立基于Sigmoid结构的多周期非线性电价感知模型,引入周期调节与不确定扰动因素,刻画用户在不同电价周期下的响应阈值与行为差异;其次,基于DDPG算法设计发电商策略学习框架,并设置差异化奖励函数,兼顾利润、社会福利与市场公平性,实现连续动作空间下的策略自适应优化;最后,通过仿真实验验证所提模型在提升市场收益、促进负荷调节和实现多目标均衡方面的有效性。研究结果表明,该方法能够更精准地模拟电力用户行为,优化发电商竞价策略,增强电力市场的运行稳定性与社会福利水平。 展开更多
关键词 中长期双边交易 多周期电价感知 深度确定性策略梯度算法 强化学习 策略优化
在线阅读 下载PDF
Soft-DDPG算法驱动的综合能源系统优化调度方法 被引量:1
8
作者 韩光洁 邹昕莹 +1 位作者 张帆 徐政伟 《小型微型计算机系统》 北大核心 2025年第9期2258-2265,共8页
近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(So... 近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(Soft Deep Deterministic Policy Gradient,Soft-DDPG)算法驱动的综合能源系统优化调度方法,以最小化调度周期内系统总运行成本为目标,建立设备运行综合能效评估模型,再采用Soft-DDPG算法对每个能源设备的能效调度动作进行优化控制.Soft-DDPG算法将softmax算子引入到动作值函数的计算中,有效降低了Q值高估问题.与此同时,该算法在动作选择策略中加入了随机噪声,提高了算法的学习效率.实验结果显示,本文所提出的方法解决了综合能源系统能效调度实时性差、精准度低的瓶颈问题,实现了系统的高效灵活调度,降低了系统的总运行成本. 展开更多
关键词 深度强化学习 优化调度 综合能源系统 Soft ddpg
在线阅读 下载PDF
基于KP-DDPG的矿山运载机器人路径规划实验平台设计 被引量:1
9
作者 杨健健 程琪 +2 位作者 章腾 黄先诚 韩子毅 《实验技术与管理》 北大核心 2025年第1期143-151,共9页
针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改... 针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改变了随机采样经验池策略,建立积极经验重放缓冲区,优先采样时序差分误差大的样本进行训练。在仿真平台上比较了传统路径规划算法与所提算法的性能,结果表明KP-DDPG算法可以有效地克服DDPG方法训练周期长、路径规划技术差等缺点。同时设计了基于数字孪生的矿山无人运输仿真系统,在数字孪生仿真平台上验证了规划路径转角的合理性。 展开更多
关键词 路径规划 强化学习 KP-ddpg 数字孪生仿真平台
在线阅读 下载PDF
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:2
10
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID ddpg 精度 控制系统
在线阅读 下载PDF
基于改进DDPG的多AGV路径规划算法
11
作者 赵学健 叶昊 +1 位作者 李豪 孙知信 《计算机科学》 北大核心 2025年第6期306-315,共10页
在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯... 在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯度算法Improved-AC-DDPG(Improved-Adaptive Cooperative-Deep Deterministic Policy Gradient)。该算法通过环境数据采集构建状态向量,并实时规划路径,动态生成任务序列以减少AGV间的冲突,同时监测并预测调整避障策略,持续优化策略参数。实验结果表明,与常规DDPG和人工势场优化DDPG(Artificial Potential Field-Deep Deterministic Policy Gradient,APF-DDPG)算法相比,Improved-AC-DDPG在收敛速度、避障能力、路径规划效果和能耗方面均表现更佳,显著提升了多AGV系统的效率与安全性。本研究为多智能体系统在动态环境中的建模与协作提供了新思路,具有重要的理论价值和应用潜力。 展开更多
关键词 AGV 路径规划 深度强化学习 ddpg
在线阅读 下载PDF
基于监督式DDPG算法的小型ROV运动控制方法
12
作者 黄兆军 张彦佳 +1 位作者 左晓雯 陈泽汛 《自动化与信息工程》 2025年第3期23-29,共7页
针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经... 针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经网络收敛速度,缩短学习时间。仿真试验结果表明,监督式DDPG算法比DDPG算法的控制效果更好。 展开更多
关键词 监督式ddpg 小型ROV 运动控制 专家经验 强化学习
在线阅读 下载PDF
基于DDPG算法的球关节电机LuGre摩擦模型参数辨识
13
作者 张勇 张倩 +1 位作者 马倩倩 李国丽 《机床与液压》 北大核心 2025年第18期1-7,共7页
新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计... 新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计转速-摩擦力矩实验。针对LuGre模型参数辨识问题,设计DDPG算法的动作、环境和奖励,辨识球关节电机各自由度LuGre摩擦模型静态参数。对比DDPG参数辨识算法、传统神经网络法和遗传算法的辨识误差。实验结果表明:所提DDPG算法辨识参数更准确。最后,基于LuGre摩擦模型设计自抗扰控制摩擦力矩补偿环节。结果表明:摩擦补偿策略可有效抑制摩擦扰动,提高了系统的跟踪精度。 展开更多
关键词 三自由度球关节电机 ddpg算法 LUGRE模型 参数辨识 摩擦补偿
在线阅读 下载PDF
基于DDPG算法的3D打印喷头温度控制策略研究 被引量:1
14
作者 谭平 周招 +2 位作者 杨大胜 武永波 丁进 《浙江科技大学学报》 2025年第1期45-54,共10页
【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数... 【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数学建模;然后,在设计基于DDPG算法的马尔科夫决策过程(markov decision process,MDP)模型时,以目标温度、当前温度和时间作为状态观测变量,以比例积分微分(proportion integral differential,PID)控制器的3个参数作为输出动作值,设置多个全连接隐藏层来捕捉复杂非线性关系,并基于温度偏差设计了一组复合型奖励函数;最后,搭建仿真模型对算法进行了验证。【结果】与传统PID和模糊PID控制策略相比,基于DDPG的PID响应时间分别缩短了37.01%和18.36%,调节时间分别缩短了27.14%和8.91%,超调量分别降低了74.14%和58.89%。【结论】本方法显著提升了FDM型3D打印机喷头温度控制系统性能,可为3D打印喷头温度控制精度和稳定性研究提供参考。 展开更多
关键词 ddpg算法 温度控制 PID控制 3D打印喷头
在线阅读 下载PDF
基于GCN-DDPG的直流受端电网暂态电压稳定紧急控制
15
作者 李轻言 林涛 +2 位作者 杜蕙 付希越 李君 《武汉大学学报(工学版)》 北大核心 2025年第11期1748-1758,共11页
在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电... 在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电压稳定紧急控制。首先,为了高效快速获取紧急控制策略,并使其适应电网拓扑结构的变化,基于图卷积神经网络(graph convolutional network,GCN)对深度确定性决策梯度(deep deterministic policy gradient,DDPG)模型的网络结构进行改造,构建了GCN-DDPG融合模型。然后,基于GCNDDPG融合模型构建紧急控制模型并将其配置在安控主站。具体应用时,安控主站在线量化计算紧急控制策略,即直流电流控制方案,并将其发送至直流控保系统执行。利用改造的IEEE14节点算例验证了所提方法的有效性和优越性。 展开更多
关键词 高压直流输电 受端新型电力系统 暂态电压稳定 紧急控制 电流控制方案 ddpg GCN
原文传递
半主动悬架双延时DDPG强化学习控制策略研究 被引量:1
16
作者 魏文智 谢琪琦 +1 位作者 孙京哲 严天一 《制造业自动化》 2025年第6期85-92,共8页
针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四... 针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四自由度二分之一半主动悬架系统仿真模型,然后搭建了CDC减振器正、逆模型,通过创建基于双延时DDPG算法的强化学习训练环境,在MATLAB/Simulink环境下分别开展两种典型工况,即典型随机路面与减速带路面下的半主动悬架系统控制效果仿真实验,与被动悬架对比,基于双延时DDPG强化学习控制算法的半主动悬架的簧上质量垂向加速度均方根值分别降低17.69%、33.42%,车身俯仰角加速度均方根值分别降低8.67%、8.27%,基于双延时DDPG控制策略使半主动悬架系统获得了更佳平顺性。 展开更多
关键词 半主动悬架 双延时ddpg 强化学习 连续可调阻尼
在线阅读 下载PDF
基于改进DDPG算法的N-1潮流收敛智能调整方法
17
作者 陈东旭 陈胜硕 +3 位作者 许智光 李岩松 陈兴雷 刘君 《华北电力大学学报(自然科学版)》 北大核心 2025年第4期88-98,共11页
N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流... N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流不收敛网络进行智能调整。首先,根据N-1方案校验元件类型及潮流重载量等指标确定了方案的调整措施,通过广度优先算法确定调整元件组以保证动作的有效性,根据CRITIC权重法计算了多重奖励之和,据此,设计了N-1潮流收敛调整MDP模型。其次对MDP模型中所用DDPG算法进行改进,搭建了轻量BNN网络以降低计算复杂度、提高计算速度,设计了高奖励经验池以及存量判定机制以优化模型的收敛性。最后,在某分部2179节点网络和某分部12732节点网络上对改进算法进行测试验证,结果表明基于BNN-DS的DDPG改进算法比传统方法的成功率提高36.535%,平均用时减少95.01%。 展开更多
关键词 深度强化学习 N-1潮流收敛 神经网络 ddpg算法
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策 被引量:3
18
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度 被引量:3
19
作者 陈思畏 李建军 +2 位作者 邹信迅 罗旭 崔希 《现代电力》 北大核心 2025年第2期314-321,共8页
对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决... 对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决策过程(Markov decision process,MDP),以经济性和碳排放最小为目标,结合惩罚约束机制,设计多目标奖励函数,并基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的改进算法,采用孪生延迟DDPG算法对强化学习智能体进行交互学习训练。最后,算例分析结果表明,所提方法训练的智能体能够实时响应可再生能源和电/热负荷的不确定性,在线对含可再生能源的电–热耦合系统低碳经济调度优化。 展开更多
关键词 电–热耦合系统 低碳经济调度 强化学习 孪生延迟ddpg
原文传递
上一页 1 2 17 下一页 到第
使用帮助 返回顶部