期刊文献+
共找到36,962篇文章
< 1 2 250 >
每页显示 20 50 100
改进DDPG的磁浮控制研究
1
作者 张振利 宋成林 +1 位作者 汪永壮 杨杰 《工程科学学报》 北大核心 2026年第2期422-435,共14页
针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针... 针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针对传统DDPG算法在电磁悬浮控制中的不足,设计一种分段式反比例奖励函数,以提升稳态精度和响应速度,并对DDPG控制流程进行分析及优化,以满足实际部署需求.最后,通过仿真与实验,对比分析电流环跟踪、奖励函数、训练步长以及模型变化对控制性能的影响.结果表明:采用分段式反比例奖励函数的IDDPG控制器在降低稳态误差和超调的同时,显著提升系统的响应速度,且优化后的控制流程适用于实际系统部署.此外,不同模型下使用相同参数稳态误差均低于5%,取得基本一致的控制效果,远优于滑模控制(Sliding mode control, SMC)的31%和比例–积分–微分控制(Proportional–Integral–Derivative control, PID)的12%,验证了IDDPG在不依赖精确模型情况下的良好适应性.同时,抗扰实验中,IDDPG相比PID超调减少51%,调节时间缩短49%,具有更强抗扰性. 展开更多
关键词 ddpg 奖励函数 控制指标 系统建模 磁浮系统 学习步长
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法 被引量:2
2
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:1
3
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID ddpg 精度 控制系统
在线阅读 下载PDF
基于改进DDPG的多AGV路径规划算法
4
作者 赵学健 叶昊 +1 位作者 李豪 孙知信 《计算机科学》 北大核心 2025年第6期306-315,共10页
在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯... 在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯度算法Improved-AC-DDPG(Improved-Adaptive Cooperative-Deep Deterministic Policy Gradient)。该算法通过环境数据采集构建状态向量,并实时规划路径,动态生成任务序列以减少AGV间的冲突,同时监测并预测调整避障策略,持续优化策略参数。实验结果表明,与常规DDPG和人工势场优化DDPG(Artificial Potential Field-Deep Deterministic Policy Gradient,APF-DDPG)算法相比,Improved-AC-DDPG在收敛速度、避障能力、路径规划效果和能耗方面均表现更佳,显著提升了多AGV系统的效率与安全性。本研究为多智能体系统在动态环境中的建模与协作提供了新思路,具有重要的理论价值和应用潜力。 展开更多
关键词 AGV 路径规划 深度强化学习 ddpg
在线阅读 下载PDF
Soft-DDPG算法驱动的综合能源系统优化调度方法
5
作者 韩光洁 邹昕莹 +1 位作者 张帆 徐政伟 《小型微型计算机系统》 北大核心 2025年第9期2258-2265,共8页
近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(So... 近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(Soft Deep Deterministic Policy Gradient,Soft-DDPG)算法驱动的综合能源系统优化调度方法,以最小化调度周期内系统总运行成本为目标,建立设备运行综合能效评估模型,再采用Soft-DDPG算法对每个能源设备的能效调度动作进行优化控制.Soft-DDPG算法将softmax算子引入到动作值函数的计算中,有效降低了Q值高估问题.与此同时,该算法在动作选择策略中加入了随机噪声,提高了算法的学习效率.实验结果显示,本文所提出的方法解决了综合能源系统能效调度实时性差、精准度低的瓶颈问题,实现了系统的高效灵活调度,降低了系统的总运行成本. 展开更多
关键词 深度强化学习 优化调度 综合能源系统 Soft ddpg
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
6
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
基于KP-DDPG的矿山运载机器人路径规划实验平台设计 被引量:1
7
作者 杨健健 程琪 +2 位作者 章腾 黄先诚 韩子毅 《实验技术与管理》 北大核心 2025年第1期143-151,共9页
针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改... 针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改变了随机采样经验池策略,建立积极经验重放缓冲区,优先采样时序差分误差大的样本进行训练。在仿真平台上比较了传统路径规划算法与所提算法的性能,结果表明KP-DDPG算法可以有效地克服DDPG方法训练周期长、路径规划技术差等缺点。同时设计了基于数字孪生的矿山无人运输仿真系统,在数字孪生仿真平台上验证了规划路径转角的合理性。 展开更多
关键词 路径规划 强化学习 KP-ddpg 数字孪生仿真平台
在线阅读 下载PDF
基于监督式DDPG算法的小型ROV运动控制方法
8
作者 黄兆军 张彦佳 +1 位作者 左晓雯 陈泽汛 《自动化与信息工程》 2025年第3期23-29,共7页
针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经... 针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经网络收敛速度,缩短学习时间。仿真试验结果表明,监督式DDPG算法比DDPG算法的控制效果更好。 展开更多
关键词 监督式ddpg 小型ROV 运动控制 专家经验 强化学习
在线阅读 下载PDF
基于改进DDPG的机械臂6D抓取方法研究 被引量:1
9
作者 张盛 沈捷 +2 位作者 曹恺 戴辉帅 李涛 《计算机工程与应用》 北大核心 2025年第18期317-325,共9页
在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化... 在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化评估。依据评估分数为机械臂抓取的动作分配多级奖励值,以此判断抓取位姿的质量,引导DDPG朝着优化抓取位姿的方向进行学习。通过在仿真和实物环境下进行实验,结果表明该方法可以有效改进机械臂的抓取位姿,提升机械臂的抓取成功率。此外,该方法可以较好地迁移到现实场景中,增强机械臂的泛化性和鲁棒性。 展开更多
关键词 深度确定性策略梯度算法 机械臂 6D抓取 深度强化学习 抓取评估
在线阅读 下载PDF
基于ASDDPG算法的多无人机对抗策略 被引量:1
10
作者 符小卫 王辛夷 乔哲 《系统工程与电子技术》 北大核心 2025年第6期1867-1879,共13页
在多无人机对抗中,无人机通信范围内的友方数量不定,导致其获得的信息量存在变化。而深度强化学习中神经网络的输入维度是固定的,很多算法只考虑距离较近的固定数量友方无人机的交互信息,导致信息丢失且不符合实际战场环境。对此,基于... 在多无人机对抗中,无人机通信范围内的友方数量不定,导致其获得的信息量存在变化。而深度强化学习中神经网络的输入维度是固定的,很多算法只考虑距离较近的固定数量友方无人机的交互信息,导致信息丢失且不符合实际战场环境。对此,基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法,结合注意力机制,提出注意力状态深度确定性策略梯度(attention state-deep deterministic policy gradient,ASDDPG)算法,将变化的信息转化为固定长度的特征向量,解决信息量与输入维度不匹配的问题,并通过编解码结构进行状态特征提取,增强无人机的决策能力。通过仿真实验对算法的性能进行对比分析,验证该算法控制下的无人机具有更高胜率,且泛化性良好,在提升无人机对抗决策能力和泛化性方面具备优势。 展开更多
关键词 多无人机 强化学习 策略梯度 机动决策 注意力机制
在线阅读 下载PDF
DoS攻击下基于APF和DDPG算法的无人机安全集群控制
11
作者 林柄权 刘磊 +1 位作者 李华峰 刘晨 《计算机应用》 北大核心 2025年第4期1241-1248,共8页
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集... 针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。 展开更多
关键词 无人机集群 人工势场法 深度确定性策略梯度 切换策略 网络安全
在线阅读 下载PDF
基于DDPG算法的球关节电机LuGre摩擦模型参数辨识
12
作者 张勇 张倩 +1 位作者 马倩倩 李国丽 《机床与液压》 北大核心 2025年第18期1-7,共7页
新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计... 新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计转速-摩擦力矩实验。针对LuGre模型参数辨识问题,设计DDPG算法的动作、环境和奖励,辨识球关节电机各自由度LuGre摩擦模型静态参数。对比DDPG参数辨识算法、传统神经网络法和遗传算法的辨识误差。实验结果表明:所提DDPG算法辨识参数更准确。最后,基于LuGre摩擦模型设计自抗扰控制摩擦力矩补偿环节。结果表明:摩擦补偿策略可有效抑制摩擦扰动,提高了系统的跟踪精度。 展开更多
关键词 三自由度球关节电机 ddpg算法 LUGRE模型 参数辨识 摩擦补偿
在线阅读 下载PDF
改进DDPG导航实现的双机器人编队在限制区域内的运输
13
作者 汤亮 牛一森 马荣庚 《重庆理工大学学报(自然科学)》 北大核心 2025年第11期130-137,共8页
针对机器人编队在协同运输中出现导航路径不佳,以及编队通过狭窄区域时出口被挡住无法驶离的问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的优化导航方法,实现领航者-跟随者双机器人编队在完成杆件... 针对机器人编队在协同运输中出现导航路径不佳,以及编队通过狭窄区域时出口被挡住无法驶离的问题,提出一种基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的优化导航方法,实现领航者-跟随者双机器人编队在完成杆件物体搬运任务中生成优化的导航路径,同时设计DDPG的调换决策奖励函数,解决编队通过狭窄区域时出口被挡无法驶离的问题。首先,在DDPG网络中优化奖励函数模块,设计调换决策奖励机制,训练编队的导航能力;其次,采用无迹卡尔曼滤波(untraced Kalman filter,UKF)估计编队位置状态实现跟随者轨迹跟踪;最后,在随机环境中对比A*-DWA和RRT*算法轨迹,基于DDPG实现的轨迹平均角度分别降低了64.03%和38.65%。另外,在多任务环境的实物实验结果表明,训练后的DDPG导航算法在多任务环境下能够实现自主离开调头限制区域,并且对狭窄通道具有适应性,同时减小编队碰撞率。 展开更多
关键词 移动机器人导航 双机器人运输 深度确定性策略梯度 限制环境区域 避障
在线阅读 下载PDF
半主动悬架双延时DDPG强化学习控制策略研究
14
作者 魏文智 谢琪琦 +1 位作者 孙京哲 严天一 《制造业自动化》 2025年第6期85-92,共8页
针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四... 针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四自由度二分之一半主动悬架系统仿真模型,然后搭建了CDC减振器正、逆模型,通过创建基于双延时DDPG算法的强化学习训练环境,在MATLAB/Simulink环境下分别开展两种典型工况,即典型随机路面与减速带路面下的半主动悬架系统控制效果仿真实验,与被动悬架对比,基于双延时DDPG强化学习控制算法的半主动悬架的簧上质量垂向加速度均方根值分别降低17.69%、33.42%,车身俯仰角加速度均方根值分别降低8.67%、8.27%,基于双延时DDPG控制策略使半主动悬架系统获得了更佳平顺性。 展开更多
关键词 半主动悬架 双延时ddpg 强化学习 连续可调阻尼
在线阅读 下载PDF
基于改进DDPG算法的N-1潮流收敛智能调整方法
15
作者 陈东旭 陈胜硕 +3 位作者 许智光 李岩松 陈兴雷 刘君 《华北电力大学学报(自然科学版)》 北大核心 2025年第4期88-98,共11页
N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流... N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流不收敛网络进行智能调整。首先,根据N-1方案校验元件类型及潮流重载量等指标确定了方案的调整措施,通过广度优先算法确定调整元件组以保证动作的有效性,根据CRITIC权重法计算了多重奖励之和,据此,设计了N-1潮流收敛调整MDP模型。其次对MDP模型中所用DDPG算法进行改进,搭建了轻量BNN网络以降低计算复杂度、提高计算速度,设计了高奖励经验池以及存量判定机制以优化模型的收敛性。最后,在某分部2179节点网络和某分部12732节点网络上对改进算法进行测试验证,结果表明基于BNN-DS的DDPG改进算法比传统方法的成功率提高36.535%,平均用时减少95.01%。 展开更多
关键词 深度强化学习 N-1潮流收敛 神经网络 ddpg算法
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策 被引量:3
16
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
融合DDPG算法的参数动态协同储能变换器自抗扰稳压控制
17
作者 马幼捷 陈韵霏 +3 位作者 周雪松 耿盛意 马立聪 李双 《高电压技术》 北大核心 2025年第11期5607-5619,共13页
针对光储直流微电网易受光伏资源波动、负荷侧波动等不确定扰动影响,进而引发的直流母线电压波动问题,在传统自抗扰控制(linear active disturbance rejection control,LADRC)的基础上,提出一种参数动态协同自抗扰控制(dynamic coordina... 针对光储直流微电网易受光伏资源波动、负荷侧波动等不确定扰动影响,进而引发的直流母线电压波动问题,在传统自抗扰控制(linear active disturbance rejection control,LADRC)的基础上,提出一种参数动态协同自抗扰控制(dynamic coordination of parameters for active disturbance rejection control,DCLADRC),引入两个新的观测变量并增加一维带宽参数,旨在通过深度确定性策略梯度(deterministic policy gradient,DDPG)算法动态调整两级带宽间的协调因子k,提高观测器多频域扰动下的观测精度及收敛速度,优化控制器的抗扰性,增强母线电压稳定性,从而使得储能能够更好地发挥“削峰填谷”的调节作用。物理实验结果表明,受到扰动后,对比LADRC与双闭环比例积分(double closed loop proportion-integration,Double_PI)控制,所提的DCLADRC电压偏移量分别减少了75%和83%。 展开更多
关键词 光储直流微电网 储能 自抗扰控制 深度确定性策略梯度算法 抗扰性
原文传递
基于GCN-DDPG的直流受端电网暂态电压稳定紧急控制
18
作者 李轻言 林涛 +2 位作者 杜蕙 付希越 李君 《武汉大学学报(工学版)》 北大核心 2025年第11期1748-1758,共11页
在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电... 在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电压稳定紧急控制。首先,为了高效快速获取紧急控制策略,并使其适应电网拓扑结构的变化,基于图卷积神经网络(graph convolutional network,GCN)对深度确定性决策梯度(deep deterministic policy gradient,DDPG)模型的网络结构进行改造,构建了GCN-DDPG融合模型。然后,基于GCNDDPG融合模型构建紧急控制模型并将其配置在安控主站。具体应用时,安控主站在线量化计算紧急控制策略,即直流电流控制方案,并将其发送至直流控保系统执行。利用改造的IEEE14节点算例验证了所提方法的有效性和优越性。 展开更多
关键词 高压直流输电 受端新型电力系统 暂态电压稳定 紧急控制 电流控制方案 ddpg GCN
原文传递
基于DDPG的多无人机辅助视频传输资源分配算法研究 被引量:3
19
作者 刘含 王涛 +2 位作者 彭振春 朱耀辉 王永志 《工业控制计算机》 2025年第2期55-57,共3页
针对车联网中传输带宽和计算资源受限的问题,提出了基于深度强化学习的多无人机辅助边缘计算的车联网视频传输资源分配方案。以无人机集群头为中心资源决策体,联合路边单元和固定车辆作为边缘节点来优化视频传输过程,以减少向目标车辆... 针对车联网中传输带宽和计算资源受限的问题,提出了基于深度强化学习的多无人机辅助边缘计算的车联网视频传输资源分配方案。以无人机集群头为中心资源决策体,联合路边单元和固定车辆作为边缘节点来优化视频传输过程,以减少向目标车辆传输视频时的时延和能耗。该资源分配方案通过深度确定性策略梯度算法来寻求最优的无人机资源分配策略。仿真结果表明,在随机动态环境中的MUECRA-DRL算法性能优于Actor-Critic、深度Q网络和随机算法,将视频传输时延缩短了27%,同时将能量损失减少了24%。 展开更多
关键词 车联网 深度强化学习 无人机 边缘节点 深度确定性策略梯度
在线阅读 下载PDF
基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度 被引量:2
20
作者 陈思畏 李建军 +2 位作者 邹信迅 罗旭 崔希 《现代电力》 北大核心 2025年第2期314-321,共8页
对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决... 对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决策过程(Markov decision process,MDP),以经济性和碳排放最小为目标,结合惩罚约束机制,设计多目标奖励函数,并基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的改进算法,采用孪生延迟DDPG算法对强化学习智能体进行交互学习训练。最后,算例分析结果表明,所提方法训练的智能体能够实时响应可再生能源和电/热负荷的不确定性,在线对含可再生能源的电–热耦合系统低碳经济调度优化。 展开更多
关键词 电–热耦合系统 低碳经济调度 强化学习 孪生延迟ddpg
原文传递
上一页 1 2 250 下一页 到第
使用帮助 返回顶部