期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
改进DDPG的磁浮控制研究
1
作者 张振利 宋成林 +1 位作者 汪永壮 杨杰 《工程科学学报》 北大核心 2026年第2期422-435,共14页
针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针... 针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针对传统DDPG算法在电磁悬浮控制中的不足,设计一种分段式反比例奖励函数,以提升稳态精度和响应速度,并对DDPG控制流程进行分析及优化,以满足实际部署需求.最后,通过仿真与实验,对比分析电流环跟踪、奖励函数、训练步长以及模型变化对控制性能的影响.结果表明:采用分段式反比例奖励函数的IDDPG控制器在降低稳态误差和超调的同时,显著提升系统的响应速度,且优化后的控制流程适用于实际系统部署.此外,不同模型下使用相同参数稳态误差均低于5%,取得基本一致的控制效果,远优于滑模控制(Sliding mode control, SMC)的31%和比例–积分–微分控制(Proportional–Integral–Derivative control, PID)的12%,验证了IDDPG在不依赖精确模型情况下的良好适应性.同时,抗扰实验中,IDDPG相比PID超调减少51%,调节时间缩短49%,具有更强抗扰性. 展开更多
关键词 ddpg 奖励函数 控制指标 系统建模 磁浮系统 学习步长
在线阅读 下载PDF
基于DDPG动态补偿的压机位置伺服控制
2
作者 朱婷婷 储昭碧 +1 位作者 武睿芃 李龙龙 《制造技术与机床》 北大核心 2026年第3期165-173,共9页
在芯片封装过程中,传统PID控制应用于伺服压机控制器时,虽能达成基础稳定控制,但存在参数整定依赖经验、动态适应性不足的问题,难以处理伺服压机封装过程中的非线性、参数变化等复杂状况。为使伺服压机适应实际应用环境,提高位置跟踪精... 在芯片封装过程中,传统PID控制应用于伺服压机控制器时,虽能达成基础稳定控制,但存在参数整定依赖经验、动态适应性不足的问题,难以处理伺服压机封装过程中的非线性、参数变化等复杂状况。为使伺服压机适应实际应用环境,提高位置跟踪精度,实现精确控制,创新性地将深度强化学习引入伺服压机控制模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法,并构建自适应动态补偿机制实现参数优化。仿真试验结果表明,与传统PID控制相比,所构建的基于DDPG的动态补偿控制策略在标称情况、大摩擦工况、宽齿隙工况与带有随机扰动的工况下的误差范围分别降低了91.70%、94.09%、85.38%以及87.57%,显著提高系统模型的跟踪性能与较强的抗干扰能力。仿真试验结果充分验证了所提方法的有效性。 展开更多
关键词 伺服压机 深度强化学习 ddpg算法 自适应控制 动态补偿 位置跟踪
在线阅读 下载PDF
地震模拟振动台DDPG强化学习控制策略研究
3
作者 张廷元 纪金豹 +1 位作者 李倩 李绅 《机床与液压》 北大核心 2026年第2期57-64,共8页
为提升地震模拟振动台系统在复杂负载工况下的加速度跟踪精度,基于深度确定性策略梯度(DDPG)算法构建振动台强化学习控制策略。建立空载和单自由度试件下的振动台系统模型;采用DDPG算法对控制网络进行迭代训练,通过Actor-Critic框架实... 为提升地震模拟振动台系统在复杂负载工况下的加速度跟踪精度,基于深度确定性策略梯度(DDPG)算法构建振动台强化学习控制策略。建立空载和单自由度试件下的振动台系统模型;采用DDPG算法对控制网络进行迭代训练,通过Actor-Critic框架实现控制模型的学习与优化;将训练好的网络引入振动台模型进行验证,对比分析DDPG算法与传统三变量控制的性能差异,对比测试多种地震波激励下的控制效果。仿真结果表明:在空载条件下,相比传统三参量控制算法,DDPG控制算法的相关系数显著提高,在El-Centro波激励下,DDPG控制的相关系数达到94.3%,相比三参量算法的91.9%提高了2.4%;在考虑单自由度试件的情况下,DDPG算法也可保持良好的控制精度,在El-Centro波激励下,相关系数达到92.9%,相比传统算法的83.7%提高了9.2%。强化学习在振动台控制中的有效性得到了验证,为振动台系统的智能控制提供了新的技术路径。 展开更多
关键词 振动台 ddpg算法 强化学习 智能控制
在线阅读 下载PDF
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:2
4
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID ddpg 精度 控制系统
在线阅读 下载PDF
基于监督式DDPG算法的小型ROV运动控制方法
5
作者 黄兆军 张彦佳 +1 位作者 左晓雯 陈泽汛 《自动化与信息工程》 2025年第3期23-29,共7页
针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经... 针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经网络收敛速度,缩短学习时间。仿真试验结果表明,监督式DDPG算法比DDPG算法的控制效果更好。 展开更多
关键词 监督式ddpg 小型ROV 运动控制 专家经验 强化学习
在线阅读 下载PDF
基于DDPG算法的3D打印喷头温度控制策略研究 被引量:1
6
作者 谭平 周招 +2 位作者 杨大胜 武永波 丁进 《浙江科技大学学报》 2025年第1期45-54,共10页
【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数... 【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数学建模;然后,在设计基于DDPG算法的马尔科夫决策过程(markov decision process,MDP)模型时,以目标温度、当前温度和时间作为状态观测变量,以比例积分微分(proportion integral differential,PID)控制器的3个参数作为输出动作值,设置多个全连接隐藏层来捕捉复杂非线性关系,并基于温度偏差设计了一组复合型奖励函数;最后,搭建仿真模型对算法进行了验证。【结果】与传统PID和模糊PID控制策略相比,基于DDPG的PID响应时间分别缩短了37.01%和18.36%,调节时间分别缩短了27.14%和8.91%,超调量分别降低了74.14%和58.89%。【结论】本方法显著提升了FDM型3D打印机喷头温度控制系统性能,可为3D打印喷头温度控制精度和稳定性研究提供参考。 展开更多
关键词 ddpg算法 温度控制 PID控制 3D打印喷头
在线阅读 下载PDF
半主动悬架双延时DDPG强化学习控制策略研究 被引量:1
7
作者 魏文智 谢琪琦 +1 位作者 孙京哲 严天一 《制造业自动化》 2025年第6期85-92,共8页
针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四... 针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四自由度二分之一半主动悬架系统仿真模型,然后搭建了CDC减振器正、逆模型,通过创建基于双延时DDPG算法的强化学习训练环境,在MATLAB/Simulink环境下分别开展两种典型工况,即典型随机路面与减速带路面下的半主动悬架系统控制效果仿真实验,与被动悬架对比,基于双延时DDPG强化学习控制算法的半主动悬架的簧上质量垂向加速度均方根值分别降低17.69%、33.42%,车身俯仰角加速度均方根值分别降低8.67%、8.27%,基于双延时DDPG控制策略使半主动悬架系统获得了更佳平顺性。 展开更多
关键词 半主动悬架 双延时ddpg 强化学习 连续可调阻尼
在线阅读 下载PDF
基于GCN-DDPG的直流受端电网暂态电压稳定紧急控制
8
作者 李轻言 林涛 +2 位作者 杜蕙 付希越 李君 《武汉大学学报(工学版)》 北大核心 2025年第11期1748-1758,共11页
在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电... 在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电压稳定紧急控制。首先,为了高效快速获取紧急控制策略,并使其适应电网拓扑结构的变化,基于图卷积神经网络(graph convolutional network,GCN)对深度确定性决策梯度(deep deterministic policy gradient,DDPG)模型的网络结构进行改造,构建了GCN-DDPG融合模型。然后,基于GCNDDPG融合模型构建紧急控制模型并将其配置在安控主站。具体应用时,安控主站在线量化计算紧急控制策略,即直流电流控制方案,并将其发送至直流控保系统执行。利用改造的IEEE14节点算例验证了所提方法的有效性和优越性。 展开更多
关键词 高压直流输电 受端新型电力系统 暂态电压稳定 紧急控制 电流控制方案 ddpg GCN
原文传递
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:2
9
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 Actor网络 Critic网络 ddpg算法 深度强化学习 控制系统
原文传递
DDPG与PID融合的飞行器控制方法研究
10
作者 孙国兵 孙琪 郭剑豪 《航天控制》 2025年第5期49-55,共7页
针对飞行器在结构扰动、气动参数变化及外部环境干扰下控制性能易退化的问题,提出一种融合深度确定性策略梯度算法与传统PID控制器的混合控制方法。以PID控制器提供初始稳定控制能力,通过强化学习策略实现飞行控制器的在线自适应调节,... 针对飞行器在结构扰动、气动参数变化及外部环境干扰下控制性能易退化的问题,提出一种融合深度确定性策略梯度算法与传统PID控制器的混合控制方法。以PID控制器提供初始稳定控制能力,通过强化学习策略实现飞行控制器的在线自适应调节,构建以飞行器为对象的非线性动力学仿真。实验结果表明,在典型高度阶跃控制任务中,该方法将系统响应时间缩短了62.8%,超调量与稳态误差变化均控制在1%以内,即使在参数上下浮动20%的复杂条件下仍保持高精度控制。与传统PID控制器相比,本研究在响应速度、稳定性和适应能力等方面表现更优,具有较好的工程应用前景和价值。 展开更多
关键词 PID控制 深度确定性策略梯度 混合控制 强化学习
原文传递
摩托车转向自平衡的深度强化学习控制
11
作者 但远宏 邹松 刘琳峰 《重庆理工大学学报(自然科学)》 北大核心 2026年第1期203-211,共9页
针对前轮转向摩托车变工况下侧向自平衡控制中PD参数需反复整定的问题,提出一种基于深度强化学习(deep reinforcement learning, DRL)的PD参数在线自适应优化方法。该方法以牛顿-欧拉法建立的侧倾动力学模型为基础,构建DDPG-PD协同控制... 针对前轮转向摩托车变工况下侧向自平衡控制中PD参数需反复整定的问题,提出一种基于深度强化学习(deep reinforcement learning, DRL)的PD参数在线自适应优化方法。该方法以牛顿-欧拉法建立的侧倾动力学模型为基础,构建DDPG-PD协同控制架构:上层深度确定性策略梯度(DDPG)网络依据实时车身状态动态生成比例系数kp与微分系数kd,下层PD控制器输出前轮转向角速度。设计含参数调节惩罚项奖励函数,在Matlab/Simulink中搭建集成自适应PD模块的强化学习训练环境,实现参数的动态整定。实验表明:该方法在速度变化与外界干扰下具有更优的适应性和稳定性,相比固定参数PD控制,动态性能指标提升显著。解决了传统PD控制在工况变化时参数重复调整的工程难题,验证了DRL驱动参数自优化策略的有效性与工程实用性。 展开更多
关键词 摩托车 平衡控制 深度强化学习 PD控制 ddpg算法
在线阅读 下载PDF
基于DDPG算法的220 kV带电作业末端装置自动化控制系统 被引量:1
12
作者 李佳辉 吴佳龙 《电子设计工程》 2025年第12期52-55,61,共5页
鉴于带电作业末端受到220 kV电网环境的影响,导致作业末端装置出现偏差,为保证带电作业末端能够精准作用在目标装置上,通过DDPG算法优化设计220 kV带电作业末端装置自动化控制系统。改装传感器,考虑DDPG算法的运行要求优化末端工作数据... 鉴于带电作业末端受到220 kV电网环境的影响,导致作业末端装置出现偏差,为保证带电作业末端能够精准作用在目标装置上,通过DDPG算法优化设计220 kV带电作业末端装置自动化控制系统。改装传感器,考虑DDPG算法的运行要求优化末端工作数据处理器,对硬件系统执行电磁屏蔽处理,完成系统硬件部分的优化。利用DDPG算法识别带电作业末端目标装置,将其作为控制目标,将带电作业末端实际装置作为初始控制值,通过装置控制量的计算,实现系统的带电作业末端装置自动化控制功能。通过系统测试实验得出,与传统控制系统相比,在优化设计系统控制下,有、无漏电现象两种电网环境中带电作业末端装置的控制误差分别降低了8.85 m和10.3 m。 展开更多
关键词 ddpg算法 220 kV带电作业 作业末端装置 自动化控制系统
在线阅读 下载PDF
基于DDPG算法的列车节能控制策略研究 被引量:14
13
作者 武晓春 金则灵 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第2期483-493,共11页
随着城市范围的扩大和人口数量的增加,建设城市轨道交通成为解决交通拥堵的重要方式,其安全性、准点性和实时性也越来越受到重视。城市轨道交通运行能耗是列车运营成本的重要组成,而牵引能耗是城市轨道交通运行能耗的主要组成部分。合... 随着城市范围的扩大和人口数量的增加,建设城市轨道交通成为解决交通拥堵的重要方式,其安全性、准点性和实时性也越来越受到重视。城市轨道交通运行能耗是列车运营成本的重要组成,而牵引能耗是城市轨道交通运行能耗的主要组成部分。合理的列车自动控制(Automatic Train Operation,ATO)策略能够在保证列车安全、准点运行的情况下,根据列车不同的运行状况,输出最优的牵引/制动级位,在一定程度上节省牵引能耗。为有效降低列车牵引能耗,采用深度强化学习中的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)研究城市轨道交通列车节能控制策略。首先根据动力学方程建立列车运行模型,然后以列车的位置、速度和剩余运行时间作为状态空间,以牵引/制动级位作为动作空间,根据ATO系统功能,以安全性、准点性、停车精度和节能性加权组合为奖励函数,实现列车在与仿真环境交互中学习到最优控制策略。最后以长沙地铁2号线为例进行仿真验证,结果表明该算法相比于DQN算法和动态规划算法,在满足安全、准点运行的情况下牵引能耗减少8.25%和21.7%,证明该算法的优越性,同时在临时调整列车进站时间和列车牵引系统故障后,算法也能够根据列车反馈的运行状态实时调整控制策略,证明该算法的有效性。 展开更多
关键词 城市轨道交通 牵引能耗 深度强化学习 ddpg算法 节能控制策略
在线阅读 下载PDF
基于DDPG的冷源系统节能优化控制策略 被引量:7
14
作者 闫军威 黄琪 周璇 《控制与决策》 EI CSCD 北大核心 2021年第12期2955-2963,共9页
针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系统节能优化控制策略,设计冷源马尔可夫决策过程模型,并采用深度确定性策略梯度算法(DDPG)解决维数灾难与... 针对传统冷源系统节能优化方式机理建模复杂,缺乏自我学习能力,优化速度较慢等问题,提出一种基于数据驱动和自我学习机制的冷源系统节能优化控制策略,设计冷源马尔可夫决策过程模型,并采用深度确定性策略梯度算法(DDPG)解决维数灾难与避免控制动作离散化问题.以夏热冬暖地区某大型办公建筑中央空调冷源系统为研究对象,对冷源系统控制策略进行节能优化,实现在满足室内热舒适性要求的前提下,减少系统能耗的目标.在对比实验中,DDPG控制策略下的冷源系统总能耗相比PSO控制策略和规则控制策略减少了6.47%和14.42%,平均室内热舒适性提升了5.59%和18.71%,非舒适性时间占比减少了5.22%和76.70%.仿真结果表明,所提出的控制策略具备有效性与实用性,相比其他控制策略在节能优化方面具有较明显的优势. 展开更多
关键词 冷源系统 强化学习 ddpg算法 节能优化控制策略 马尔可夫决策过程 策略梯度
原文传递
考虑强化学习熵正则化的多元灵活性资源频率协同控制方法
15
作者 高远 李香帅 +1 位作者 余光正 杨彬 《浙江电力》 2026年第2期91-102,共12页
针对高比例可再生能源并网引发的电力系统频率失稳问题,提出一种融合统一建模与改进深度强化学习的频率控制方法。首先,通过提取电动汽车及储能的共性动态特性,构建表征调频能力的统一模型,解决异构资源参数差异导致的建模难题;其次,构... 针对高比例可再生能源并网引发的电力系统频率失稳问题,提出一种融合统一建模与改进深度强化学习的频率控制方法。首先,通过提取电动汽车及储能的共性动态特性,构建表征调频能力的统一模型,解决异构资源参数差异导致的建模难题;其次,构建AGC(自动发电控制)信号协同控制机制,实现多资源动态权重分配与状态自适应响应;然后,设计熵正则化双延迟DDPG(深度确定性策略梯度)算法,利用动态熵项增强探索能力,通过双延迟网络抑制价值函数高估;最后,通过仿真验证所提方法的有效性。仿真结果表明,所提方法在频率控制效果与收敛效率方面均显著优于传统方法,可为高比例新能源电力系统的安全稳定运行提供方案参考。 展开更多
关键词 熵正则化 深度确定性策略梯度算法 AGC信号协同控制 灵活性资源
在线阅读 下载PDF
无人天车运行过程的智能化轨迹控制方法研究
16
作者 陈怡良 《今日自动化》 2026年第1期1-3,共3页
针对无人天车在复杂运行环境下轨迹跟踪误差大、负载摆动显著及能耗高的问题,文章提出了一种基于强化学习的智能轨迹优化控制方案,旨在提高控制系统的自适应性及鲁棒性。
关键词 无人天车 轨迹控制 强化学习 ddpg算法 智能优化
在线阅读 下载PDF
永磁同步直线电机DDPG自适应控制 被引量:5
17
作者 张振宇 张昱 +1 位作者 陈丽 张东波 《微电机》 北大核心 2020年第4期89-92,102,共5页
为了在高速高精度应用场合实现对非线性、强耦合、负载扰动大的永磁同步直线电机的快速精准控制,提出一种基于深度确定性策略梯度(DDPG)算法的自适应控制策略,应用在PMSLM的速度环中,以速度作为控制变量,以交轴电流iq做被控变量,在Simul... 为了在高速高精度应用场合实现对非线性、强耦合、负载扰动大的永磁同步直线电机的快速精准控制,提出一种基于深度确定性策略梯度(DDPG)算法的自适应控制策略,应用在PMSLM的速度环中,以速度作为控制变量,以交轴电流iq做被控变量,在Simulink仿真平台上进行仿真,并与传统PID控制策略进行比较,结果显示,采用DDPG自适应控制策略以后,直线电机伺服系统的快速性、稳定性及抗干扰能力有了明显的提升。基于DDPG自适应控制的直线电机控制系统具有较强的自学习自整定性能,使直线电机伺服系统具有更好的动态响应性和更稳定的跟踪性能。 展开更多
关键词 永磁同步直线电机 ddpg自适应控制策略 速度环 SIMULINK仿真
在线阅读 下载PDF
基于DDPG算法的微网负载端接口变换器自抗扰控制 被引量:11
18
作者 周雪松 张心茹 +3 位作者 赵浛宇 王博 赵明 问虎龙 《电力系统保护与控制》 EI CSCD 北大核心 2023年第21期66-75,共10页
直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(dee... 直流微电网是新能源综合利用的重要形式,但其中的分布式接口往往存在着强随机性扰动,这给直流变换器的稳压控制带来了诸多问题。为了尽可能地抑制控制器参数固定时这种不确定性特征引起的不利影响,提出了一种利用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法整定线性自抗扰控制器参数的方法。依靠引入了智能算法的自抗扰微电网控制系统,实现了控制器参数的自适应调整,从而实现了微电网接口变换器的稳定运行。通过仿真对比了各类典型工况下,DDPG-LADRC与传统线性自抗扰控制器(linear active disturbance rejection control,LADRC)、双闭环比例-积分控制器的性能差异,验证了所提控制策略的有效性。而参数摄动下的鲁棒性分析结果结合多项指标下的系统整体性分析,充分体现了控制器参数的智能化调整所带来的多工况自适应性增益的优越性,具备较强的工程价值。 展开更多
关键词 微电网 DC-DC变换器 线性自抗扰控制 深度强化学习 ddpg算法 抗扰性
在线阅读 下载PDF
基于PER-DDPG算法的城市轨道交通越区切换研究
19
作者 张军平 王小鹏 王冶力 《山西电子技术》 2024年第3期100-102,共3页
针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型... 针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型。同时针对算法时间成本复杂度及稳定性,采用优先经验回放深度确定性策略梯度(Prioritized Experience Replay-Deep Deterministic Policy Gradient,PER-DDPG)算法,将列车状态空间信息传输至PER-DDPG网络中进行优化分析。结果表明基于PER-DDPG算法优化后的列车越区切换模型使用该算法时间计算成本降低,数据包传输延时约降低55%。 展开更多
关键词 基于通信列车控制 CBTC系统 IEEE802.11标准 优先经验回放机制深度确定策略梯度算法
在线阅读 下载PDF
基于自监督网络的DDPG算法的建筑能耗控制 被引量:1
20
作者 殷雨竹 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机系统应用》 2022年第2期161-167,共7页
针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,... 针对强化学习方法训练能耗控制系统时所存在奖赏稀疏的问题,将一种基于自监督网络的深度确定策略梯度(deep deterministic policy gradient,DDPG)方法应用到建筑能耗控制问题中.首先,处理状态和动作变量作为自监督网络前向模型的输入,预测下一个状态特征向量,同时将预测误差作为好奇心设计内部奖赏,以解决奖赏稀疏问题.然后,采用数据驱动的方法训练建筑能耗模型,构建天气数据作为输入、能耗数据作为输出.最后,利用基于自监督网络的DDPG方法求解最优控制策略,并以此设定空气处理装置(air handling unit,AHU)的最优排放温度,减少设备能耗.实验结果表明,该方法能够在保持建筑环境舒适的基础上,实现较好的节能效果. 展开更多
关键词 强化学习 自监督网络 ddpg算法 能耗控制
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部