期刊文献+
共找到313篇文章
< 1 2 16 >
每页显示 20 50 100
改进DDPG的磁浮控制研究
1
作者 张振利 宋成林 +1 位作者 汪永壮 杨杰 《工程科学学报》 北大核心 2026年第2期422-435,共14页
针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针... 针对部分传统磁浮控制算法依赖精确模型、适应性差的问题,提出一种基于强化学习的改进型深度确定性策略梯度(Improvement deep deterministic policy gradient, IDDPG)控制方法.首先,搭建电磁悬浮系统数学模型并分析其动态特性.其次,针对传统DDPG算法在电磁悬浮控制中的不足,设计一种分段式反比例奖励函数,以提升稳态精度和响应速度,并对DDPG控制流程进行分析及优化,以满足实际部署需求.最后,通过仿真与实验,对比分析电流环跟踪、奖励函数、训练步长以及模型变化对控制性能的影响.结果表明:采用分段式反比例奖励函数的IDDPG控制器在降低稳态误差和超调的同时,显著提升系统的响应速度,且优化后的控制流程适用于实际系统部署.此外,不同模型下使用相同参数稳态误差均低于5%,取得基本一致的控制效果,远优于滑模控制(Sliding mode control, SMC)的31%和比例–积分–微分控制(Proportional–Integral–Derivative control, PID)的12%,验证了IDDPG在不依赖精确模型情况下的良好适应性.同时,抗扰实验中,IDDPG相比PID超调减少51%,调节时间缩短49%,具有更强抗扰性. 展开更多
关键词 ddpg 奖励函数 控制指标 系统建模 磁浮系统 学习步长
在线阅读 下载PDF
DDPG改进人工势场法的无人机三维路径规划
2
作者 柴凯凯 徐海芹 范佳伟 《电光与控制》 北大核心 2026年第2期7-13,共7页
在紧急通信和救援任务中,无人机(UAV)在三维环境中的路径规划至关重要。针对传统的人工势场法在连续空间中的最优路径生成能力受限的问题,设计了一种将深度强化学习深度确定性策略梯度(DDPG)与人工势场(APF)相融合的算法。该算法利用DDP... 在紧急通信和救援任务中,无人机(UAV)在三维环境中的路径规划至关重要。针对传统的人工势场法在连续空间中的最优路径生成能力受限的问题,设计了一种将深度强化学习深度确定性策略梯度(DDPG)与人工势场(APF)相融合的算法。该算法利用DDPG算法的动态调整机制优化APF算法的斥力和引力参数,增强了路径规划的效率;当APF算法陷入局部最小值时,由DDPG算法辅助APF算法跳出局部最小值,确保路径的全局最优性。仿真实验结果表明,与单一使用DDPG算法和APF算法相比,融合算法能在保证成功率的前提下显著缩短路径长度、减小总转向角,提升了路径规划的效率。 展开更多
关键词 路径规划 人工势场法 ddpg 三维环境 深度强化学习
在线阅读 下载PDF
基于KP-DDPG的矿山运载机器人路径规划实验平台设计 被引量:1
3
作者 杨健健 程琪 +2 位作者 章腾 黄先诚 韩子毅 《实验技术与管理》 北大核心 2025年第1期143-151,共9页
针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改... 针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改变了随机采样经验池策略,建立积极经验重放缓冲区,优先采样时序差分误差大的样本进行训练。在仿真平台上比较了传统路径规划算法与所提算法的性能,结果表明KP-DDPG算法可以有效地克服DDPG方法训练周期长、路径规划技术差等缺点。同时设计了基于数字孪生的矿山无人运输仿真系统,在数字孪生仿真平台上验证了规划路径转角的合理性。 展开更多
关键词 路径规划 强化学习 KP-ddpg 数字孪生仿真平台
在线阅读 下载PDF
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:1
4
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID ddpg 精度 控制系统
在线阅读 下载PDF
基于改进DDPG的多AGV路径规划算法
5
作者 赵学健 叶昊 +1 位作者 李豪 孙知信 《计算机科学》 北大核心 2025年第6期306-315,共10页
在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯... 在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯度算法Improved-AC-DDPG(Improved-Adaptive Cooperative-Deep Deterministic Policy Gradient)。该算法通过环境数据采集构建状态向量,并实时规划路径,动态生成任务序列以减少AGV间的冲突,同时监测并预测调整避障策略,持续优化策略参数。实验结果表明,与常规DDPG和人工势场优化DDPG(Artificial Potential Field-Deep Deterministic Policy Gradient,APF-DDPG)算法相比,Improved-AC-DDPG在收敛速度、避障能力、路径规划效果和能耗方面均表现更佳,显著提升了多AGV系统的效率与安全性。本研究为多智能体系统在动态环境中的建模与协作提供了新思路,具有重要的理论价值和应用潜力。 展开更多
关键词 AGV 路径规划 深度强化学习 ddpg
在线阅读 下载PDF
Soft-DDPG算法驱动的综合能源系统优化调度方法
6
作者 韩光洁 邹昕莹 +1 位作者 张帆 徐政伟 《小型微型计算机系统》 北大核心 2025年第9期2258-2265,共8页
近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(So... 近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(Soft Deep Deterministic Policy Gradient,Soft-DDPG)算法驱动的综合能源系统优化调度方法,以最小化调度周期内系统总运行成本为目标,建立设备运行综合能效评估模型,再采用Soft-DDPG算法对每个能源设备的能效调度动作进行优化控制.Soft-DDPG算法将softmax算子引入到动作值函数的计算中,有效降低了Q值高估问题.与此同时,该算法在动作选择策略中加入了随机噪声,提高了算法的学习效率.实验结果显示,本文所提出的方法解决了综合能源系统能效调度实时性差、精准度低的瓶颈问题,实现了系统的高效灵活调度,降低了系统的总运行成本. 展开更多
关键词 深度强化学习 优化调度 综合能源系统 Soft ddpg
在线阅读 下载PDF
基于监督式DDPG算法的小型ROV运动控制方法
7
作者 黄兆军 张彦佳 +1 位作者 左晓雯 陈泽汛 《自动化与信息工程》 2025年第3期23-29,共7页
针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经... 针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经网络收敛速度,缩短学习时间。仿真试验结果表明,监督式DDPG算法比DDPG算法的控制效果更好。 展开更多
关键词 监督式ddpg 小型ROV 运动控制 专家经验 强化学习
在线阅读 下载PDF
基于DDPG算法的球关节电机LuGre摩擦模型参数辨识
8
作者 张勇 张倩 +1 位作者 马倩倩 李国丽 《机床与液压》 北大核心 2025年第18期1-7,共7页
新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计... 新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计转速-摩擦力矩实验。针对LuGre模型参数辨识问题,设计DDPG算法的动作、环境和奖励,辨识球关节电机各自由度LuGre摩擦模型静态参数。对比DDPG参数辨识算法、传统神经网络法和遗传算法的辨识误差。实验结果表明:所提DDPG算法辨识参数更准确。最后,基于LuGre摩擦模型设计自抗扰控制摩擦力矩补偿环节。结果表明:摩擦补偿策略可有效抑制摩擦扰动,提高了系统的跟踪精度。 展开更多
关键词 三自由度球关节电机 ddpg算法 LUGRE模型 参数辨识 摩擦补偿
在线阅读 下载PDF
基于DDPG算法的3D打印喷头温度控制策略研究 被引量:1
9
作者 谭平 周招 +2 位作者 杨大胜 武永波 丁进 《浙江科技大学学报》 2025年第1期45-54,共10页
【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数... 【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数学建模;然后,在设计基于DDPG算法的马尔科夫决策过程(markov decision process,MDP)模型时,以目标温度、当前温度和时间作为状态观测变量,以比例积分微分(proportion integral differential,PID)控制器的3个参数作为输出动作值,设置多个全连接隐藏层来捕捉复杂非线性关系,并基于温度偏差设计了一组复合型奖励函数;最后,搭建仿真模型对算法进行了验证。【结果】与传统PID和模糊PID控制策略相比,基于DDPG的PID响应时间分别缩短了37.01%和18.36%,调节时间分别缩短了27.14%和8.91%,超调量分别降低了74.14%和58.89%。【结论】本方法显著提升了FDM型3D打印机喷头温度控制系统性能,可为3D打印喷头温度控制精度和稳定性研究提供参考。 展开更多
关键词 ddpg算法 温度控制 PID控制 3D打印喷头
在线阅读 下载PDF
基于GCN-DDPG的直流受端电网暂态电压稳定紧急控制
10
作者 李轻言 林涛 +2 位作者 杜蕙 付希越 李君 《武汉大学学报(工学版)》 北大核心 2025年第11期1748-1758,共11页
在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电... 在高压直流输电受端新型电力系统中,直流及新能源电源的接入导致同步机开机减少,动态无功功率相对紧张,暂态电压失稳风险显著增大。基于直流逆变站可用作受端电网的紧急无功电源的思想,通过调节直流电流实现直流受端新型电力系统暂态电压稳定紧急控制。首先,为了高效快速获取紧急控制策略,并使其适应电网拓扑结构的变化,基于图卷积神经网络(graph convolutional network,GCN)对深度确定性决策梯度(deep deterministic policy gradient,DDPG)模型的网络结构进行改造,构建了GCN-DDPG融合模型。然后,基于GCNDDPG融合模型构建紧急控制模型并将其配置在安控主站。具体应用时,安控主站在线量化计算紧急控制策略,即直流电流控制方案,并将其发送至直流控保系统执行。利用改造的IEEE14节点算例验证了所提方法的有效性和优越性。 展开更多
关键词 高压直流输电 受端新型电力系统 暂态电压稳定 紧急控制 电流控制方案 ddpg GCN
原文传递
半主动悬架双延时DDPG强化学习控制策略研究
11
作者 魏文智 谢琪琦 +1 位作者 孙京哲 严天一 《制造业自动化》 2025年第6期85-92,共8页
针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四... 针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四自由度二分之一半主动悬架系统仿真模型,然后搭建了CDC减振器正、逆模型,通过创建基于双延时DDPG算法的强化学习训练环境,在MATLAB/Simulink环境下分别开展两种典型工况,即典型随机路面与减速带路面下的半主动悬架系统控制效果仿真实验,与被动悬架对比,基于双延时DDPG强化学习控制算法的半主动悬架的簧上质量垂向加速度均方根值分别降低17.69%、33.42%,车身俯仰角加速度均方根值分别降低8.67%、8.27%,基于双延时DDPG控制策略使半主动悬架系统获得了更佳平顺性。 展开更多
关键词 半主动悬架 双延时ddpg 强化学习 连续可调阻尼
在线阅读 下载PDF
基于改进DDPG算法的N-1潮流收敛智能调整方法
12
作者 陈东旭 陈胜硕 +3 位作者 许智光 李岩松 陈兴雷 刘君 《华北电力大学学报(自然科学版)》 北大核心 2025年第4期88-98,共11页
N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流... N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流不收敛网络进行智能调整。首先,根据N-1方案校验元件类型及潮流重载量等指标确定了方案的调整措施,通过广度优先算法确定调整元件组以保证动作的有效性,根据CRITIC权重法计算了多重奖励之和,据此,设计了N-1潮流收敛调整MDP模型。其次对MDP模型中所用DDPG算法进行改进,搭建了轻量BNN网络以降低计算复杂度、提高计算速度,设计了高奖励经验池以及存量判定机制以优化模型的收敛性。最后,在某分部2179节点网络和某分部12732节点网络上对改进算法进行测试验证,结果表明基于BNN-DS的DDPG改进算法比传统方法的成功率提高36.535%,平均用时减少95.01%。 展开更多
关键词 深度强化学习 N-1潮流收敛 神经网络 ddpg算法
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策 被引量:3
13
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度 被引量:2
14
作者 陈思畏 李建军 +2 位作者 邹信迅 罗旭 崔希 《现代电力》 北大核心 2025年第2期314-321,共8页
对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决... 对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决策过程(Markov decision process,MDP),以经济性和碳排放最小为目标,结合惩罚约束机制,设计多目标奖励函数,并基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的改进算法,采用孪生延迟DDPG算法对强化学习智能体进行交互学习训练。最后,算例分析结果表明,所提方法训练的智能体能够实时响应可再生能源和电/热负荷的不确定性,在线对含可再生能源的电–热耦合系统低碳经济调度优化。 展开更多
关键词 电–热耦合系统 低碳经济调度 强化学习 孪生延迟ddpg
原文传递
基于改进DDPG算法的无人船自主避碰决策方法 被引量:2
15
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:2
16
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 Actor网络 Critic网络 ddpg算法 深度强化学习 控制系统
原文传递
基于DDPG算法的主动横向稳定器控制策略研究
17
作者 谢琪琦 严天一 《制造业自动化》 2025年第7期91-99,共9页
为提升车辆横向稳定性,设计了一种基于深度强化学习的主动横向稳定器控制方法。首先构建了基于MATLAB/Simulink的整车9自由度动力学模型及基于电机驱动的主动横向稳定器模型,并采用深度确定性策略梯度(Deep Deterministic Policy Gradie... 为提升车辆横向稳定性,设计了一种基于深度强化学习的主动横向稳定器控制方法。首先构建了基于MATLAB/Simulink的整车9自由度动力学模型及基于电机驱动的主动横向稳定器模型,并采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行训练与仿真。为提高控制策略的泛化能力,对强化学习训练工况进行了数据增强处理。在离线仿真中,通过角阶跃工况和鱼钩工况对控制策略进行了测试,并评估了其在工况变化时的表现。实验结果表明,基于DDPG的控制策略在不同工况下均能有效提升车辆的抗侧倾性能,相较于被动横向稳定器,该策略显著减少了车身侧倾角度。此外,在面对不同前轮转角幅值和阶跃时间的测试中,该策略仍然保持了较高的稳定性和鲁棒性,证明了其良好的泛化能力。 展开更多
关键词 深度强化学习 主动横向稳定器 ddpg 数据增强 泛化能力
在线阅读 下载PDF
基于DDPG的燃料电池电动拖拉机能量管理策略 被引量:1
18
作者 王孙 张卫 +1 位作者 李进 程如宝 《兰州工业学院学报》 2025年第3期33-38,50,共7页
针对当前电动拖拉机燃料电池循环寿命短、功率密度低等问题,采用燃料电池和超级电容的复合能源拓扑结构,以实现总运行成本最低为目标,建立燃料电池、超级电容、燃料电池寿命衰退等模型,组成新型复合能源电动拖拉机模型。复合能源之间的... 针对当前电动拖拉机燃料电池循环寿命短、功率密度低等问题,采用燃料电池和超级电容的复合能源拓扑结构,以实现总运行成本最低为目标,建立燃料电池、超级电容、燃料电池寿命衰退等模型,组成新型复合能源电动拖拉机模型。复合能源之间的功率分配采用DDPG在线能量管理策略,并与离线全局最优DP算法作对比。结果表明:采用的DDPG算法在减少部件老化、降低总体使用成本以及SOC维持方面表现出卓越的性能,达到了基准DP的燃料经济性92.29%,接近最佳解决方案。 展开更多
关键词 燃料电池 超级电容 ddpg算法 DP算法
在线阅读 下载PDF
基于LSTM-DDPG的网络入侵检测方法研究
19
作者 王国栋 姜伟 《计算机科学与应用》 2025年第4期406-415,共10页
针对传统入侵检测系统在动态环境下时序特征捕捉不足、小样本攻击检测效果差的问题,本文提出基于LSTM-DDPG的入侵检测方法。通过将长短期记忆网络(LSTM)融入深度确定性策略梯度(DDPG)框架,构建具备时序建模与动态策略优化能力的检测模... 针对传统入侵检测系统在动态环境下时序特征捕捉不足、小样本攻击检测效果差的问题,本文提出基于LSTM-DDPG的入侵检测方法。通过将长短期记忆网络(LSTM)融入深度确定性策略梯度(DDPG)框架,构建具备时序建模与动态策略优化能力的检测模型。结合TON-IoT数据集进行实验验证。实验表明,融合模型较单一DDPG和LSTM在准确率(+13.07%/+21.58%)、精确率(+34.75%/+9.55%)、召回率(+29.43%/+99.13%)及F1值(+31.89%/+49.93%)上均显著提升,其中小样本攻击MITM的召回率提升3.29%。该方法验证了时序特征与强化学习融合的有效性,为动态网络安全防护提供新思路,未来将重点优化模型在小样本与大样本检测中的平衡性。Aiming at the problems that the traditional intrusion detection system lacks time series feature capture and the detection effect of small sample attack is poor in dynamic environment, this paper proposes an intrusion detection method based on LSTM-DDPG. By integrating Long Short-Term Memory (LSTM) network into the Deep Deterministic Policy Gradient (DDPG) framework, a detection model with the ability of time series modeling and dynamic policy optimization was constructed. The TON-IoT dataset was used for experimental verification. The experimental results show that the fusion model significantly improves the accuracy (+13.07%/+21.58%), precision (+34.75%/+9.55%), recall (+29.43%/+99.13%) and F1 value (+31.89%/+49.93%) compared with single DDPG and LSTM. The recall rate of small sample attack MITM is increased by 3.29%. This method verifies the effectiveness of the fusion of time series features and reinforcement learning, and provides new ideas for dynamic network security protection. In the future, the balance between small sample and large sample detection of the model will be optimized. 展开更多
关键词 网络入侵检测 LSTM ddpg 深度强化学习 时序数据处理 动态检测
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
20
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部