期刊文献+
共找到36,586篇文章
< 1 2 250 >
每页显示 20 50 100
基于DDPG-PID控制算法的机器人高精度运动控制研究 被引量:1
1
作者 赵坤灿 朱荣 《计算机测量与控制》 2025年第7期171-179,共9页
随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有... 随着工业自动化、物流搬运和医疗辅助等领域对机器人控制精度要求的提高,确保运动控制的精确性成为关键;对四轮机器人高精度运动控制进行了研究,采用立即回报优先机制和时间差误差优先机制优化深度确定性策略梯度算法;并设计了一种含有两个比例-积分-微分控制器的高精度系统;在搭建底盘运动学模型的基础上,分别为x、y方向设计了独立的PID控制器,并利用优化算法自适应地调整控制器的参数;经实验测试x向上优化算法控制的跟踪误差为0.0976 m,相较于优化前的算法误差降低了9.76%;y向上优化算法的跟踪误差为0.1088 m,优化算法误差较比例-积分-微分控制器减少约48.0%;经设计的控制系统实际应用满足了机器人运动控制工程上的应用,稳态误差和动态误差分别为0.02和0.05;系统误差较小,控制精度高,适合精细控制任务,为机器人高精度运动控制领域提供了新的技术思路。 展开更多
关键词 机器人 PID ddpg 精度 控制系统
在线阅读 下载PDF
基于改进DDPG的多AGV路径规划算法
2
作者 赵学健 叶昊 +1 位作者 李豪 孙知信 《计算机科学》 北大核心 2025年第6期306-315,共10页
在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯... 在自动化和智能物流领域,多自动引导车(Automated Guided Vehicle,AGV)系统的路径规划是关键技术难题。针对传统深度强化学习方法在多AGV系统应用中的效率、协作竞争和动态环境适应性问题,提出了一种改进的自适应协同深度确定性策略梯度算法Improved-AC-DDPG(Improved-Adaptive Cooperative-Deep Deterministic Policy Gradient)。该算法通过环境数据采集构建状态向量,并实时规划路径,动态生成任务序列以减少AGV间的冲突,同时监测并预测调整避障策略,持续优化策略参数。实验结果表明,与常规DDPG和人工势场优化DDPG(Artificial Potential Field-Deep Deterministic Policy Gradient,APF-DDPG)算法相比,Improved-AC-DDPG在收敛速度、避障能力、路径规划效果和能耗方面均表现更佳,显著提升了多AGV系统的效率与安全性。本研究为多智能体系统在动态环境中的建模与协作提供了新思路,具有重要的理论价值和应用潜力。 展开更多
关键词 AGV 路径规划 深度强化学习 ddpg
在线阅读 下载PDF
Soft-DDPG算法驱动的综合能源系统优化调度方法
3
作者 韩光洁 邹昕莹 +1 位作者 张帆 徐政伟 《小型微型计算机系统》 北大核心 2025年第9期2258-2265,共8页
近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(So... 近年来,综合能源系统作为一种以多种能源形态和设备相互交互的能源系统方案得到了广泛应用和研究.然而,在面对动态复杂的多能源系统时,传统的优化调度方法往往无法满足其实时性和精准度需求.因此,本文设计了一种软深度确定性策略梯度(Soft Deep Deterministic Policy Gradient,Soft-DDPG)算法驱动的综合能源系统优化调度方法,以最小化调度周期内系统总运行成本为目标,建立设备运行综合能效评估模型,再采用Soft-DDPG算法对每个能源设备的能效调度动作进行优化控制.Soft-DDPG算法将softmax算子引入到动作值函数的计算中,有效降低了Q值高估问题.与此同时,该算法在动作选择策略中加入了随机噪声,提高了算法的学习效率.实验结果显示,本文所提出的方法解决了综合能源系统能效调度实时性差、精准度低的瓶颈问题,实现了系统的高效灵活调度,降低了系统的总运行成本. 展开更多
关键词 深度强化学习 优化调度 综合能源系统 Soft ddpg
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
4
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
5
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于KP-DDPG的矿山运载机器人路径规划实验平台设计 被引量:1
6
作者 杨健健 程琪 +2 位作者 章腾 黄先诚 韩子毅 《实验技术与管理》 北大核心 2025年第1期143-151,共9页
针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改... 针对深度确定性策略梯度(DDPG)在路径规划中的不足,提出一种融合运动学分析和经验回放机制的深度确定性策略梯度(KP-DDPG)算法,在对移动的机器人运动学建模和分析的基础上,在DDPG奖励函数中增加了方位角奖励因子和转弯惩罚因子,同时改变了随机采样经验池策略,建立积极经验重放缓冲区,优先采样时序差分误差大的样本进行训练。在仿真平台上比较了传统路径规划算法与所提算法的性能,结果表明KP-DDPG算法可以有效地克服DDPG方法训练周期长、路径规划技术差等缺点。同时设计了基于数字孪生的矿山无人运输仿真系统,在数字孪生仿真平台上验证了规划路径转角的合理性。 展开更多
关键词 路径规划 强化学习 KP-ddpg 数字孪生仿真平台
在线阅读 下载PDF
基于监督式DDPG算法的小型ROV运动控制方法
7
作者 黄兆军 张彦佳 +1 位作者 左晓雯 陈泽汛 《自动化与信息工程》 2025年第3期23-29,共7页
针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经... 针对深度确定性策略梯度(DDPG)算法用于无人遥控有缆水下机器人(ROV)运动控制时,存在学习时间长且难以收敛等问题,提出基于监督式DDPG算法的小型ROV运动控制方法。在DDPG算法的初始学习阶段引入监督学习算法,通过专家经验引导,加快神经网络收敛速度,缩短学习时间。仿真试验结果表明,监督式DDPG算法比DDPG算法的控制效果更好。 展开更多
关键词 监督式ddpg 小型ROV 运动控制 专家经验 强化学习
在线阅读 下载PDF
基于改进DDPG的机械臂6D抓取方法研究 被引量:1
8
作者 张盛 沈捷 +2 位作者 曹恺 戴辉帅 李涛 《计算机工程与应用》 北大核心 2025年第18期317-325,共9页
在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化... 在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化评估。依据评估分数为机械臂抓取的动作分配多级奖励值,以此判断抓取位姿的质量,引导DDPG朝着优化抓取位姿的方向进行学习。通过在仿真和实物环境下进行实验,结果表明该方法可以有效改进机械臂的抓取位姿,提升机械臂的抓取成功率。此外,该方法可以较好地迁移到现实场景中,增强机械臂的泛化性和鲁棒性。 展开更多
关键词 深度确定性策略梯度算法 机械臂 6D抓取 深度强化学习 抓取评估
在线阅读 下载PDF
基于ASDDPG算法的多无人机对抗策略 被引量:1
9
作者 符小卫 王辛夷 乔哲 《系统工程与电子技术》 北大核心 2025年第6期1867-1879,共13页
在多无人机对抗中,无人机通信范围内的友方数量不定,导致其获得的信息量存在变化。而深度强化学习中神经网络的输入维度是固定的,很多算法只考虑距离较近的固定数量友方无人机的交互信息,导致信息丢失且不符合实际战场环境。对此,基于... 在多无人机对抗中,无人机通信范围内的友方数量不定,导致其获得的信息量存在变化。而深度强化学习中神经网络的输入维度是固定的,很多算法只考虑距离较近的固定数量友方无人机的交互信息,导致信息丢失且不符合实际战场环境。对此,基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法,结合注意力机制,提出注意力状态深度确定性策略梯度(attention state-deep deterministic policy gradient,ASDDPG)算法,将变化的信息转化为固定长度的特征向量,解决信息量与输入维度不匹配的问题,并通过编解码结构进行状态特征提取,增强无人机的决策能力。通过仿真实验对算法的性能进行对比分析,验证该算法控制下的无人机具有更高胜率,且泛化性良好,在提升无人机对抗决策能力和泛化性方面具备优势。 展开更多
关键词 多无人机 强化学习 策略梯度 机动决策 注意力机制
在线阅读 下载PDF
DoS攻击下基于APF和DDPG算法的无人机安全集群控制
10
作者 林柄权 刘磊 +1 位作者 李华峰 刘晨 《计算机应用》 北大核心 2025年第4期1241-1248,共8页
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集... 针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。 展开更多
关键词 无人机集群 人工势场法 深度确定性策略梯度 切换策略 网络安全
在线阅读 下载PDF
基于DDPG算法的球关节电机LuGre摩擦模型参数辨识
11
作者 张勇 张倩 +1 位作者 马倩倩 李国丽 《机床与液压》 北大核心 2025年第18期1-7,共7页
新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计... 新型三自由度球关节电机进行轨迹跟踪控制时因摩擦等非线性扰动可能出现爬坡、抖振等现象。针对此,提出一种基于深度确定性策略梯度(DDPG)算法的球关节电机摩擦模型参数辨识方法,并基于自抗扰控制策略设计补偿环节。针对球关节电机设计转速-摩擦力矩实验。针对LuGre模型参数辨识问题,设计DDPG算法的动作、环境和奖励,辨识球关节电机各自由度LuGre摩擦模型静态参数。对比DDPG参数辨识算法、传统神经网络法和遗传算法的辨识误差。实验结果表明:所提DDPG算法辨识参数更准确。最后,基于LuGre摩擦模型设计自抗扰控制摩擦力矩补偿环节。结果表明:摩擦补偿策略可有效抑制摩擦扰动,提高了系统的跟踪精度。 展开更多
关键词 三自由度球关节电机 ddpg算法 LUGRE模型 参数辨识 摩擦补偿
在线阅读 下载PDF
基于改进DDPG算法的N-1潮流收敛智能调整方法
12
作者 陈东旭 陈胜硕 +3 位作者 许智光 李岩松 陈兴雷 刘君 《华北电力大学学报(自然科学版)》 北大核心 2025年第4期88-98,共11页
N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流... N-1状态下潮流不收敛问题对N-1校验和电网的安全运行造成极大困扰,但当前的潮流收敛研究主要集中于静态潮流,且调整方法不仅动作有效性低,也难以兼顾快速性和成功率。因此提出一种基于BNN-DS的DDPG改进算法,通过深度强化学习对N-1潮流不收敛网络进行智能调整。首先,根据N-1方案校验元件类型及潮流重载量等指标确定了方案的调整措施,通过广度优先算法确定调整元件组以保证动作的有效性,根据CRITIC权重法计算了多重奖励之和,据此,设计了N-1潮流收敛调整MDP模型。其次对MDP模型中所用DDPG算法进行改进,搭建了轻量BNN网络以降低计算复杂度、提高计算速度,设计了高奖励经验池以及存量判定机制以优化模型的收敛性。最后,在某分部2179节点网络和某分部12732节点网络上对改进算法进行测试验证,结果表明基于BNN-DS的DDPG改进算法比传统方法的成功率提高36.535%,平均用时减少95.01%。 展开更多
关键词 深度强化学习 N-1潮流收敛 神经网络 ddpg算法
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策 被引量:3
13
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
基于DDPG的多无人机辅助视频传输资源分配算法研究 被引量:2
14
作者 刘含 王涛 +2 位作者 彭振春 朱耀辉 王永志 《工业控制计算机》 2025年第2期55-57,共3页
针对车联网中传输带宽和计算资源受限的问题,提出了基于深度强化学习的多无人机辅助边缘计算的车联网视频传输资源分配方案。以无人机集群头为中心资源决策体,联合路边单元和固定车辆作为边缘节点来优化视频传输过程,以减少向目标车辆... 针对车联网中传输带宽和计算资源受限的问题,提出了基于深度强化学习的多无人机辅助边缘计算的车联网视频传输资源分配方案。以无人机集群头为中心资源决策体,联合路边单元和固定车辆作为边缘节点来优化视频传输过程,以减少向目标车辆传输视频时的时延和能耗。该资源分配方案通过深度确定性策略梯度算法来寻求最优的无人机资源分配策略。仿真结果表明,在随机动态环境中的MUECRA-DRL算法性能优于Actor-Critic、深度Q网络和随机算法,将视频传输时延缩短了27%,同时将能量损失减少了24%。 展开更多
关键词 车联网 深度强化学习 无人机 边缘节点 深度确定性策略梯度
在线阅读 下载PDF
基于孪生延迟DDPG强化学习的电-热耦合系统低碳经济调度 被引量:1
15
作者 陈思畏 李建军 +2 位作者 邹信迅 罗旭 崔希 《现代电力》 北大核心 2025年第2期314-321,共8页
对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决... 对含可再生能源接入的电–热耦合系统,提出一种用于电–热耦合系统低碳经济调度的强化学习方法。首先,建立计及经济性和碳排放的电–热耦合系统低碳经济调度模型;然后,将含可再生能源的电–热耦合系统低碳经济调度过程转化为马尔可夫决策过程(Markov decision process,MDP),以经济性和碳排放最小为目标,结合惩罚约束机制,设计多目标奖励函数,并基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的改进算法,采用孪生延迟DDPG算法对强化学习智能体进行交互学习训练。最后,算例分析结果表明,所提方法训练的智能体能够实时响应可再生能源和电/热负荷的不确定性,在线对含可再生能源的电–热耦合系统低碳经济调度优化。 展开更多
关键词 电–热耦合系统 低碳经济调度 强化学习 孪生延迟ddpg
原文传递
Actor-Critic框架下基于DDPG算法的绘画机器人控制系统优化设计 被引量:1
16
作者 罗子彪 唐娇 《自动化与仪器仪表》 2025年第2期193-197,202,共6页
人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励... 人工智能与艺术创作的碰撞成为当前研究新焦点。然而,机器人在进行图画绘制工作中的控制效果却难以满足精度需求。因此,研究在深度确定性策略梯度算法基础上进行了绘画机器人控制系统设计。在Actor网络和Critic网络框架下,对算法的奖励函数以及经验池进行改进与优化,并提出了绘画机器人控制系统。验证显示,研究提出的控制系统比其他算法基础上的控制系统训练收敛速度平均提高了38.04%。机械臂肘关节仿真误差比其他算法平均减少了93.74%。结果表明,对算法的奖励函数与经验池进行改进能够提高算法收敛速度与性能。研究提出的绘画机器人控制系统对机器人绘制图像的过程控制能够满足控制精度需求,在机器人控制中具有积极的应用价值。 展开更多
关键词 Actor网络 Critic网络 ddpg算法 深度强化学习 控制系统
原文传递
基于DDPG算法的3D打印喷头温度控制策略研究
17
作者 谭平 周招 +2 位作者 杨大胜 武永波 丁进 《浙江科技大学学报》 2025年第1期45-54,共10页
【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数... 【目的】为提高熔融沉积(fused deposition modeling,FDM)型3D打印机喷头温度控制中的精度和稳定性,提出了基于深度确定策略梯度(deep deterministic policy gradient,DDPG)算法的温度控制策略。【方法】首先,对3D打印机打印喷头进行数学建模;然后,在设计基于DDPG算法的马尔科夫决策过程(markov decision process,MDP)模型时,以目标温度、当前温度和时间作为状态观测变量,以比例积分微分(proportion integral differential,PID)控制器的3个参数作为输出动作值,设置多个全连接隐藏层来捕捉复杂非线性关系,并基于温度偏差设计了一组复合型奖励函数;最后,搭建仿真模型对算法进行了验证。【结果】与传统PID和模糊PID控制策略相比,基于DDPG的PID响应时间分别缩短了37.01%和18.36%,调节时间分别缩短了27.14%和8.91%,超调量分别降低了74.14%和58.89%。【结论】本方法显著提升了FDM型3D打印机喷头温度控制系统性能,可为3D打印喷头温度控制精度和稳定性研究提供参考。 展开更多
关键词 ddpg算法 温度控制 PID控制 3D打印喷头
在线阅读 下载PDF
基于DDPG算法的主动横向稳定器控制策略研究
18
作者 谢琪琦 严天一 《制造业自动化》 2025年第7期91-99,共9页
为提升车辆横向稳定性,设计了一种基于深度强化学习的主动横向稳定器控制方法。首先构建了基于MATLAB/Simulink的整车9自由度动力学模型及基于电机驱动的主动横向稳定器模型,并采用深度确定性策略梯度(Deep Deterministic Policy Gradie... 为提升车辆横向稳定性,设计了一种基于深度强化学习的主动横向稳定器控制方法。首先构建了基于MATLAB/Simulink的整车9自由度动力学模型及基于电机驱动的主动横向稳定器模型,并采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行训练与仿真。为提高控制策略的泛化能力,对强化学习训练工况进行了数据增强处理。在离线仿真中,通过角阶跃工况和鱼钩工况对控制策略进行了测试,并评估了其在工况变化时的表现。实验结果表明,基于DDPG的控制策略在不同工况下均能有效提升车辆的抗侧倾性能,相较于被动横向稳定器,该策略显著减少了车身侧倾角度。此外,在面对不同前轮转角幅值和阶跃时间的测试中,该策略仍然保持了较高的稳定性和鲁棒性,证明了其良好的泛化能力。 展开更多
关键词 深度强化学习 主动横向稳定器 ddpg 数据增强 泛化能力
在线阅读 下载PDF
半主动悬架双延时DDPG强化学习控制策略研究
19
作者 魏文智 谢琪琦 +1 位作者 孙京哲 严天一 《制造业自动化》 2025年第6期85-92,共8页
针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四... 针对具有连续可调阻尼(Continuous Damping Control,CDC)减振器的半主动悬架智能控制问题,提出基于“双延时深度确定性策略梯度”(Twin Delayed Deep Deterministic Policy Gradient,简称双延时DDPG)的半主动悬架控制策略。首先构建四自由度二分之一半主动悬架系统仿真模型,然后搭建了CDC减振器正、逆模型,通过创建基于双延时DDPG算法的强化学习训练环境,在MATLAB/Simulink环境下分别开展两种典型工况,即典型随机路面与减速带路面下的半主动悬架系统控制效果仿真实验,与被动悬架对比,基于双延时DDPG强化学习控制算法的半主动悬架的簧上质量垂向加速度均方根值分别降低17.69%、33.42%,车身俯仰角加速度均方根值分别降低8.67%、8.27%,基于双延时DDPG控制策略使半主动悬架系统获得了更佳平顺性。 展开更多
关键词 半主动悬架 双延时ddpg 强化学习 连续可调阻尼
在线阅读 下载PDF
基于LSTM-DDPG的网络入侵检测方法研究
20
作者 王国栋 姜伟 《计算机科学与应用》 2025年第4期406-415,共10页
针对传统入侵检测系统在动态环境下时序特征捕捉不足、小样本攻击检测效果差的问题,本文提出基于LSTM-DDPG的入侵检测方法。通过将长短期记忆网络(LSTM)融入深度确定性策略梯度(DDPG)框架,构建具备时序建模与动态策略优化能力的检测模... 针对传统入侵检测系统在动态环境下时序特征捕捉不足、小样本攻击检测效果差的问题,本文提出基于LSTM-DDPG的入侵检测方法。通过将长短期记忆网络(LSTM)融入深度确定性策略梯度(DDPG)框架,构建具备时序建模与动态策略优化能力的检测模型。结合TON-IoT数据集进行实验验证。实验表明,融合模型较单一DDPG和LSTM在准确率(+13.07%/+21.58%)、精确率(+34.75%/+9.55%)、召回率(+29.43%/+99.13%)及F1值(+31.89%/+49.93%)上均显著提升,其中小样本攻击MITM的召回率提升3.29%。该方法验证了时序特征与强化学习融合的有效性,为动态网络安全防护提供新思路,未来将重点优化模型在小样本与大样本检测中的平衡性。Aiming at the problems that the traditional intrusion detection system lacks time series feature capture and the detection effect of small sample attack is poor in dynamic environment, this paper proposes an intrusion detection method based on LSTM-DDPG. By integrating Long Short-Term Memory (LSTM) network into the Deep Deterministic Policy Gradient (DDPG) framework, a detection model with the ability of time series modeling and dynamic policy optimization was constructed. The TON-IoT dataset was used for experimental verification. The experimental results show that the fusion model significantly improves the accuracy (+13.07%/+21.58%), precision (+34.75%/+9.55%), recall (+29.43%/+99.13%) and F1 value (+31.89%/+49.93%) compared with single DDPG and LSTM. The recall rate of small sample attack MITM is increased by 3.29%. This method verifies the effectiveness of the fusion of time series features and reinforcement learning, and provides new ideas for dynamic network security protection. In the future, the balance between small sample and large sample detection of the model will be optimized. 展开更多
关键词 网络入侵检测 LSTM ddpg 深度强化学习 时序数据处理 动态检测
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部