期刊文献+
共找到139篇文章
< 1 2 7 >
每页显示 20 50 100
Simultaneous Depth and Heading Control for Autonomous Underwater Vehicle Docking Maneuvers Using Deep Reinforcement Learning within a Digital Twin System
1
作者 Yu-Hsien Lin Po-Cheng Chuang Joyce Yi-Tzu Huang 《Computers, Materials & Continua》 2025年第9期4907-4948,共42页
This study proposes an automatic control system for Autonomous Underwater Vehicle(AUV)docking,utilizing a digital twin(DT)environment based on the HoloOcean platform,which integrates six-degree-of-freedom(6-DOF)motion... This study proposes an automatic control system for Autonomous Underwater Vehicle(AUV)docking,utilizing a digital twin(DT)environment based on the HoloOcean platform,which integrates six-degree-of-freedom(6-DOF)motion equations and hydrodynamic coefficients to create a realistic simulation.Although conventional model-based and visual servoing approaches often struggle in dynamic underwater environments due to limited adaptability and extensive parameter tuning requirements,deep reinforcement learning(DRL)offers a promising alternative.In the positioning stage,the Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm is employed for synchronized depth and heading control,which offers stable training,reduced overestimation bias,and superior handling of continuous control compared to other DRL methods.During the searching stage,zig-zag heading motion combined with a state-of-the-art object detection algorithm facilitates docking station localization.For the docking stage,this study proposes an innovative Image-based DDPG(I-DDPG),enhanced and trained in a Unity-MATLAB simulation environment,to achieve visual target tracking.Furthermore,integrating a DT environment enables efficient and safe policy training,reduces dependence on costly real-world tests,and improves sim-to-real transfer performance.Both simulation and real-world experiments were conducted,demonstrating the effectiveness of the system in improving AUV control strategies and supporting the transition from simulation to real-world operations in underwater environments.The results highlight the scalability and robustness of the proposed system,as evidenced by the TD3 controller achieving 25%less oscillation than the adaptive fuzzy controller when reaching the target depth,thereby demonstrating superior stability,accuracy,and potential for broader and more complex autonomous underwater tasks. 展开更多
关键词 Autonomous underwater vehicle docking maneuver digital twin deep reinforcement learning twin delayed deep deterministic policy gradient
在线阅读 下载PDF
Real-Time Implementation of Quadrotor UAV Control System Based on a Deep Reinforcement Learning Approach
2
作者 Taha Yacine Trad Kheireddine Choutri +4 位作者 Mohand Lagha Souham Meshoul Fouad Khenfri Raouf Fareh Hadil Shaiba 《Computers, Materials & Continua》 SCIE EI 2024年第12期4757-4786,共30页
The popularity of quadrotor Unmanned Aerial Vehicles(UAVs)stems from their simple propulsion systems and structural design.However,their complex and nonlinear dynamic behavior presents a significant challenge for cont... The popularity of quadrotor Unmanned Aerial Vehicles(UAVs)stems from their simple propulsion systems and structural design.However,their complex and nonlinear dynamic behavior presents a significant challenge for control,necessitating sophisticated algorithms to ensure stability and accuracy in flight.Various strategies have been explored by researchers and control engineers,with learning-based methods like reinforcement learning,deep learning,and neural networks showing promise in enhancing the robustness and adaptability of quadrotor control systems.This paper investigates a Reinforcement Learning(RL)approach for both high and low-level quadrotor control systems,focusing on attitude stabilization and position tracking tasks.A novel reward function and actor-critic network structures are designed to stimulate high-order observable states,improving the agent’s understanding of the quadrotor’s dynamics and environmental constraints.To address the challenge of RL hyper-parameter tuning,a new framework is introduced that combines Simulated Annealing(SA)with a reinforcement learning algorithm,specifically Simulated Annealing-Twin Delayed Deep Deterministic Policy Gradient(SA-TD3).This approach is evaluated for path-following and stabilization tasks through comparative assessments with two commonly used control methods:Backstepping and Sliding Mode Control(SMC).While the implementation of the well-trained agents exhibited unexpected behavior during real-world testing,a reduced neural network used for altitude control was successfully implemented on a Parrot Mambo mini drone.The results showcase the potential of the proposed SA-TD3 framework for real-world applications,demonstrating improved stability and precision across various test scenarios and highlighting its feasibility for practical deployment. 展开更多
关键词 deep reinforcement learning hyper-parameters optimization path following QUADROTOR twin delayed deep deterministic policy gradient and simulated annealing
在线阅读 下载PDF
基于改进TD3的RIS-无人机通信系统能效优化
3
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
4
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于深度强化学习的停机位分配
5
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于MLP与改进GCN-TD3的交通信号控制建模与仿真
6
作者 黄德启 涂亚婷 +1 位作者 张振华 郭鑫 《系统仿真学报》 北大核心 2025年第10期2568-2577,共10页
针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特... 针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特征聚合为区域交通的潜在特征,由改进的双延迟深度确定性策略梯度算法进行多次迭代得到控制策略,将控制策略应用于城市路网的交通相位配时中,最大化的提升路网车辆的通行效率。仿真实验表明:该算法能够适应动态变化的复杂路网环境,且在高饱和流量下控制效果明显,能有效提高路网的通行效率,缓解交叉口高峰期拥堵问题。 展开更多
关键词 交通信号控制 图卷积神经网络 强化学习 双延迟深度确定性策略梯度 协同控制
原文传递
基于深度确定性策略梯度算法的交通协同智能控制技术分析
7
作者 高兴媛 和铁行 《国外电子测量技术》 2025年第1期54-61,共8页
为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,... 为提高城市交通系统的效率和稳定性,减少车辆等待时间,提高道路通行能力,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法作为核心控制策略。将城市路网建模为集中式控制系统,通过Agent控制路网中的多个交叉口,并提出多智能体系统(Multi-Agent System,MAS)结合异步优势行动者评论家(Asynchronous Advantage Actor-Critic,A3C),简称MA3C。结果表明,DDPG算法训练初期奖励值迅速上升,1000步后约稳定于150,表现优异。MA3C在高峰时奖励值为−5.94,延迟仅0.39 s,速度最高,其队列长度和等待时间显著低于其他算法。在不同车流密度下,所研究系统的车道平均占用率和平均速度均优于对比算法,高密度流量中车道平均占用率为0.9%,平均速度达14.89 m/s。低密度流量中车道平均占用率为0.4%,平均速度为17.68 m/s。所提方法不仅能够提高了交通系统的效率,还能增强交通控制的灵活性和适应性,推动了交通控制技术向智能化、自动化的方向发展。 展开更多
关键词 交通系统 深度确定性策略梯度算法 路网 智能化
原文传递
基于改进DDPG算法的无人船自主避碰决策方法
8
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于强化学习的地下空间除湿机组系统优化控制研究
9
作者 赵安军 魏渊 +1 位作者 张洺瑞 任启航 《建筑节能(中英文)》 2025年第4期89-98,共10页
针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系... 针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系统的环境模型,并将室内湿度和系统能效设定为控制目标。针对地下空间建筑除湿机组系统,构建了基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法的强化学习智能体结构。通过智能体与环境模型的交互,不断尝试调整除湿机组中的蒸发温度和冷却塔风机频率,使室内湿度更接近设定的湿度值,并在一定程度上提高系统能效,从而降低能源消耗,实现一定的节能效果。 展开更多
关键词 地下空间建筑 除湿机组 系统能效 双延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
基于深度强化学习的综合能源系统优化调度
10
作者 梁海峰 闫峰 +1 位作者 尚隽 王楚通 《内蒙古电力技术》 2025年第4期21-29,共9页
为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的... 为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的改进深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。首先,借助多环境实例促使智能体和环境进行大量交互,从而获得有效的指导经验;其次,对不同类型数据进行特征量化处理,并依据特征分数进行经验采样,提高样本利用效率;最后,将改进DDPG算法与经典柔性动作-评价(Soft Actor⁃Critic,SAC)算法、双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法进行对比实验,实验结果验证了所提算法在提高收敛速度和样本利用效率方面的有效性,并通过算例仿真对模型增量学习后的性能提升进行了验证。 展开更多
关键词 综合能源系统 深度强化学习 改进深度确定性策略梯度算法 多环境实例 特征分数
在线阅读 下载PDF
基于深度强化学习算法的氢耦合电-热综合能源系统优化调度 被引量:3
11
作者 梁涛 柴露露 +2 位作者 谭建鑫 井延伟 吕梁年 《电力自动化设备》 北大核心 2025年第1期59-66,共8页
为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度... 为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度确定性策略梯度(TD3)算法的流程;将HCEH-IES的不确定性优化调度问题转化为马尔可夫决策过程,并采用TD3算法将优化目标以及约束条件转换为奖励函数进行连续状态空间和动作空间下的动态调度决策,形成合理的能源分配管理方案;采用历史数据对智能体进行训练,并对比深度Q学习网络和深度确定性策略梯度算法获得的调度策略。结果表明,相较于深度Q学习网络和深度确定性策略梯度算法,基于TD3算法的调度策略具有更好的经济性,其结果更接近于CPLEX日前优化调度方法的经济成本且更适用于解决综合能源系统动态优化调度问题,有效地实现了能源灵活利用,提高了综合能源系统的经济性和低碳性。 展开更多
关键词 氢耦合电-热综合能源系统 可再生能源 深度强化学习 双延迟深度确定性策略梯度 能量优化管理 马尔可夫决策过程
在线阅读 下载PDF
考虑可变旋转参数的机器人多轴孔装配强化学习策略 被引量:2
12
作者 鄢智超 周勇 +1 位作者 胡楷雄 李卫东 《计算机集成制造系统》 北大核心 2025年第3期815-827,共13页
针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态... 针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态调整动作的对应关系数据,以此作为装配技能的预训练学习数据。进而,提出一种改进深度确定性策略梯度(DDPG)强化学习算法,通过多因素稀疏奖励函数对装配动作进行合适的奖励评价以提高学习效率和成功率。最后,在仿真和实验平台上进行了多轴孔电子元器件装配的案例研究,结果表明,所提方法具有良好的场景适应性,相对经典强化学习方法能有效提高装配的学习效率和成功率,同时明显减小了装配接触力/力矩。 展开更多
关键词 协作机器人 多轴孔装配 姿态调整模型 改进深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
13
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
应对非预期情况的船舶混合能源系统能量管理
14
作者 司玉鹏 王荣杰 +2 位作者 王亦春 林安辉 刘亚杰 《哈尔滨工程大学学报》 北大核心 2025年第10期2021-2031,共11页
为应对船舶混合能源系统在设备故障或突发扰动等非预期工况下面临的能量管理挑战,本文提出一种基于优先级采样的深度确定性策略梯度算法的弹性增强控制策略。基于动作-评价网络框架,构建了适用于船舶混合能源系统协同运行的马尔可夫决... 为应对船舶混合能源系统在设备故障或突发扰动等非预期工况下面临的能量管理挑战,本文提出一种基于优先级采样的深度确定性策略梯度算法的弹性增强控制策略。基于动作-评价网络框架,构建了适用于船舶混合能源系统协同运行的马尔可夫决策模型,该模型具有连续的状态空间和动作空间。利用历史航行数据对该算法进行训练,从而生成高效的最优能量管理策略。该策略旨在实现船舶混合能源系统在正常运行条件下的经济性优化调度,以及非预期工况下的弹性安全控制。不同场景的模拟船舶航行试验结果表明:该策略能够充分利用各类型设备的运行特性,稳态工况下能以经济性为导向实现合理的能量分配,非预期工况下则以可靠性为导向最大限度地保证系统安全运行。 展开更多
关键词 新能源船舶 非预期工况 弹性增强控制 马尔可夫决策过程 优先级采样 深度确定性策略梯度算法 历史航行数据 能量管理
在线阅读 下载PDF
基于A-TD3的码垛机器人轨迹规划
15
作者 金桥 杨光锐 +2 位作者 王霄 徐凌桦 张芳 《现代制造工程》 北大核心 2025年第5期42-52,共11页
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Determini... 深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。 展开更多
关键词 机械臂 深度强化学习 改进方位奖励函数 双延迟深度确定性策略梯度 轨迹规划
在线阅读 下载PDF
基于自主探索的移动机器人路径规划研究 被引量:3
16
作者 陈浩 陈珺 刘飞 《计算机工程》 北大核心 2025年第1期60-70,共11页
移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径... 移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径规划性能。首先,引入长短期记忆(LSTM)神经网络并与TD3算法相结合,通过门结构筛选历史状态信息,并感知探测范围内障碍物的状态变化,帮助机器人更好地理解环境的动态变化和障碍物的移动模式,使移动机器人能够准确预测和响应动态障碍物的行为,从而降低与障碍物的碰撞率。其次,加入OU (Ornstein-Uhlenbeck)探索噪声,帮助移动机器人持续探索周围环境,增强移动机器人的探索能力和随机性。在此基础上,将单个经验池设置为成功、失败和临时3个经验池,以此提高有效经验样本的采样效率,进而减少训练时间。最后,在2个不同的动、静态障碍物混合场景中进行路径规划实验仿真。实验结果表明:场景1中该算法相较于深度确定性策略梯度(DDPG)算法以及TD3算法,模型收敛的回合数减少了100~200个,路径长度缩短了0.5~0.8,规划时间减少了1~4 s;场景2中该算法相较于TD3算法,模型收敛的回合数减少了100~300个,路径长度缩短了1~3,规划时间减少了4~8 s, DDPG算法失败,移动机器人无法成功抵达终点。由此可见,改进的算法具有更好的路径规划性能。 展开更多
关键词 移动机器人 路径规划 双延迟深度确定性策略梯度算法 长短期记忆神经网络 OU探索噪声
在线阅读 下载PDF
面向CAV与HDV混行场景的TD3多目标信号控制
17
作者 吴宗远 严亚丹 +2 位作者 汪德才 朱路遥 董是 《中国公路学报》 北大核心 2025年第8期83-102,共20页
为解决智能网联车辆(Connected and Autonomous Vehicles, CAV)与人工驾驶车辆(Human Driven Vehicles, HDV)混行场景中车辆轨迹数据获取困难、安全与效率协同优化不足的问题,提出基于孪生延迟深度确定性策略梯度(Twin Delayed Deep Det... 为解决智能网联车辆(Connected and Autonomous Vehicles, CAV)与人工驾驶车辆(Human Driven Vehicles, HDV)混行场景中车辆轨迹数据获取困难、安全与效率协同优化不足的问题,提出基于孪生延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法的多目标信号控制方法研究。首先,针对低CAV比例场景下状态信息缺失的情况,融合CAV及定点检测多源数据,结合改进的Newell跟驰模型,构建综合考虑前车驾驶与信号控制相位变换状态的HDV轨迹估计框架;随后,设计考虑车辆延误与冲突风险的多目标奖励函数,从跟车冲突和角度碰撞2个方面量化交叉口内部及周边不同驾驶行为的安全风险,采用LSTM网络构建高维状态特征的价值函数和策略函数;最后,引入双重Critic网络、目标策略平滑与延迟更新机制,提升TD3算法的稳定性和训练效果。基于SUMO仿真平台,以郑州市典型交叉口为案例进行了方法验证。研究结果表明:与传统方法(Webster、Actuated)相比,所提方法的车均延误降低22%~50%;与主流深度强化学习模型(DDPG、3DQN)相比,车均延误减少3%~13%,车均冲突次数降低6%~67%,且在CAV比例为30%~50%时,性能优势更为显著。参数敏感性分析表明,当检测器距停车线150 m、综合奖励权重系数为0.5时,所提方法的综合性能最优。该研究提出的智能信号控制方法,实现了混行场景下安全与效率的协同优化,可为城市交叉口管控提供有效解决方案。 展开更多
关键词 交通工程 信号控制 孪生延迟深度确定性策略梯度算法 轨迹估计 深度强化学习
原文传递
基于行为克隆的机械臂多智能体深度强化学习轨迹跟踪控制 被引量:1
18
作者 易佳豪 王福杰 +3 位作者 胡锦涛 秦毅 郭芳 罗俊轩 《计算机应用研究》 北大核心 2025年第4期1025-1033,共9页
针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性... 针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)为基底算法的比例积分微分智能体(proportional-integral-derivative agent,PID agent)和直接用深度强化学习策略输出扭矩的智能体(direct deep reinforcement learning agent,DDR agent),并采用两个奖励函数来优化两个agent的策略网络。PID agent用于输出PID控制器的参数,再由PID控制器输出力矩控制机械臂以增加控制器的跟踪泛性,DDR agent则直接输出扭矩增加控制器的抗干扰性。为了克服多智能体训练难度高的问题,在训练中引入行为克隆技术,利用PID控制器的专家经验对PID agent进行预训练,形成预策略在训练初期就可以输出较合适的PID参数,增加有效经验来加速训练过程的奖励收敛。为了验证方法的有效性,通过欧拉拉格朗日建模二自由度机械臂,并在具有干扰的多种环境下进行仿真实验对比。实验结果表明,所提算法在具有随机干扰环境以及与训练轨迹不同的跟踪轨迹中都具有最好的跟踪效果,验证了所提算法的有效性。 展开更多
关键词 多智能体 孪生延迟深度确定性策略梯度 深度强化学习 轨迹跟踪 行为克隆
在线阅读 下载PDF
动态窗口法引导的TD3无地图导航算法
19
作者 柳佳乐 薛雅丽 +1 位作者 崔闪 洪君 《浙江大学学报(工学版)》 北大核心 2025年第8期1671-1679,共9页
针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)... 针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)引导双延迟确定策略梯度(TD3),提高训练数据的质量.在策略网络中引入长短期记忆神经网络(LSTM),提升智能体对连续导航信息的处理能力.搭建仿真环境训练测试,与其他方法进行对比.实验结果表明,DWA-LSTM TD3在相同的训练步数下能够获得更高的奖励值,提高了导航任务的成功率;导航姿态角的波动范围变化更小,轨迹更平滑,改善机器人的运动安全性能.利用该算法,能够在不同场景下高效完成导航任务.该算法具有很强的泛化能力. 展开更多
关键词 无地图导航 动态窗口法 深度强化学习 双延迟确定策略梯度算法 长短期记忆
在线阅读 下载PDF
基于渐近式k-means聚类的多行动者确定性策略梯度算法
20
作者 刘全 刘晓松 +1 位作者 吴光军 刘禹含 《吉林大学学报(理学版)》 北大核心 2025年第3期885-894,共10页
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po... 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 展开更多
关键词 深度强化学习 确定性策略梯度算法 K-MEANS聚类 多行动者
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部