期刊文献+
共找到157篇文章
< 1 2 8 >
每页显示 20 50 100
Simultaneous Depth and Heading Control for Autonomous Underwater Vehicle Docking Maneuvers Using Deep Reinforcement Learning within a Digital Twin System
1
作者 Yu-Hsien Lin Po-Cheng Chuang Joyce Yi-Tzu Huang 《Computers, Materials & Continua》 2025年第9期4907-4948,共42页
This study proposes an automatic control system for Autonomous Underwater Vehicle(AUV)docking,utilizing a digital twin(DT)environment based on the HoloOcean platform,which integrates six-degree-of-freedom(6-DOF)motion... This study proposes an automatic control system for Autonomous Underwater Vehicle(AUV)docking,utilizing a digital twin(DT)environment based on the HoloOcean platform,which integrates six-degree-of-freedom(6-DOF)motion equations and hydrodynamic coefficients to create a realistic simulation.Although conventional model-based and visual servoing approaches often struggle in dynamic underwater environments due to limited adaptability and extensive parameter tuning requirements,deep reinforcement learning(DRL)offers a promising alternative.In the positioning stage,the Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm is employed for synchronized depth and heading control,which offers stable training,reduced overestimation bias,and superior handling of continuous control compared to other DRL methods.During the searching stage,zig-zag heading motion combined with a state-of-the-art object detection algorithm facilitates docking station localization.For the docking stage,this study proposes an innovative Image-based DDPG(I-DDPG),enhanced and trained in a Unity-MATLAB simulation environment,to achieve visual target tracking.Furthermore,integrating a DT environment enables efficient and safe policy training,reduces dependence on costly real-world tests,and improves sim-to-real transfer performance.Both simulation and real-world experiments were conducted,demonstrating the effectiveness of the system in improving AUV control strategies and supporting the transition from simulation to real-world operations in underwater environments.The results highlight the scalability and robustness of the proposed system,as evidenced by the TD3 controller achieving 25%less oscillation than the adaptive fuzzy controller when reaching the target depth,thereby demonstrating superior stability,accuracy,and potential for broader and more complex autonomous underwater tasks. 展开更多
关键词 Autonomous underwater vehicle docking maneuver digital twin deep reinforcement learning twin delayed deep deterministic policy gradient
在线阅读 下载PDF
Noise-driven enhancement for exploration:Deep reinforcement learning for UAV autonomous navigation in complex environments
2
作者 Haotian ZHANG Yiyang LI +1 位作者 Lingquan CHENG Jianliang AI 《Chinese Journal of Aeronautics》 2026年第1期454-471,共18页
Unmanned Aerial Vehicle(UAV)plays a prominent role in various fields,and autonomous navigation is a crucial component of UAV intelligence.Deep Reinforcement Learning(DRL)has expanded the research avenues for addressin... Unmanned Aerial Vehicle(UAV)plays a prominent role in various fields,and autonomous navigation is a crucial component of UAV intelligence.Deep Reinforcement Learning(DRL)has expanded the research avenues for addressing challenges in autonomous navigation.Nonetheless,challenges persist,including getting stuck in local optima,consuming excessive computations during action space exploration,and neglecting deterministic experience.This paper proposes a noise-driven enhancement strategy.In accordance with the overall learning phases,a global noise control method is designed,while a differentiated local noise control method is developed by analyzing the exploration demands of four typical situations encountered by UAV during navigation.Both methods are integrated into a dual-model for noise control to regulate action space exploration.Furthermore,noise dual experience replay buffers are designed to optimize the rational utilization of both deterministic and noisy experience.In uncertain environments,based on the Twin Delay Deep Deterministic Policy Gradient(TD3)algorithm with Long Short-Term Memory(LSTM)network and Priority Experience Replay(PER),a Noise-Driven Enhancement Priority Memory TD3(NDE-PMTD3)is developed.We established a simulation environment to compare different algorithms,and the performance of the algorithms is analyzed in various scenarios.The training results indicate that the proposed algorithm accelerates the convergence speed and enhances the convergence stability.In test experiments,the proposed algorithm successfully and efficiently performs autonomous navigation tasks in diverse environments,demonstrating superior generalization results. 展开更多
关键词 Action space exploration Autonomous navigation deep reinforcement learning twin delay deep deterministic policy gradient Unmanned aerial vehicle
原文传递
自适应与多目标优化的VSG低频振荡TD3 控制策略
3
作者 李永刚 周鹤然 +1 位作者 周一辰 魏凡超 《辽宁工程技术大学学报(自然科学版)》 北大核心 2026年第1期98-106,共9页
针对虚拟同步机(VSG)接入弱电网频发的低频振荡问题,提出一种融合动态惯量-阻尼协同调节与多模态双延迟深度确定性策略梯度算法的VSG智能控制方法。构建包含动态惯性-阻尼调节机制的增强型VSG模型,基于频率波动标准差与变化率的实时监测... 针对虚拟同步机(VSG)接入弱电网频发的低频振荡问题,提出一种融合动态惯量-阻尼协同调节与多模态双延迟深度确定性策略梯度算法的VSG智能控制方法。构建包含动态惯性-阻尼调节机制的增强型VSG模型,基于频率波动标准差与变化率的实时监测,设计参数连续自适应算法,实现惯量常数H和阻尼系数D的动态协同优化。设计深度前馈神经网络的振荡感知型定性策略梯度算法(TD3),采用双状态经验回放缓冲区结构,将低频振荡特征向量嵌入训练样本,并构建包含频率偏差惩罚、电压偏移抑制和振荡能量约束的多目标奖励函数。仿真和实际算例结果表明,该策略可实现VSG低频振荡的在线快速准确评估,增强系统阻尼与惯量,减少低频振荡风险,改善系统的稳定性。 展开更多
关键词 虚拟同步机 低频振荡抑制 阻尼系数 动态惯量调节 双延迟深度确定性策略梯度算法
原文传递
MEC网络中双延迟深度确定性策略梯度的能效优化算法
4
作者 吴名星 《空天预警研究学报》 2026年第1期52-56,共5页
为解决动态移动边缘计算(MEC)网络中任务卸载与资源分配的能效优化问题,针对传统算法适应性差、强化学习算法稳定性不足的缺陷,提出基于双延迟深度确定性策略梯度(twin delayed DDPG, TD3)的能效优化(TD3-EE)算法.首先,考虑任务异构性... 为解决动态移动边缘计算(MEC)网络中任务卸载与资源分配的能效优化问题,针对传统算法适应性差、强化学习算法稳定性不足的缺陷,提出基于双延迟深度确定性策略梯度(twin delayed DDPG, TD3)的能效优化(TD3-EE)算法.首先,考虑任务异构性与动态资源状态构建了系统模型,建立时延约束下的能效最大化目标函数;然后,将问题转化为马尔可夫决策过程(MDP)模型,并利用TD3算法双Critic网络与延迟更新机制提升决策稳定性.仿真结果表明,该算法在任务完成率、能耗控制及收敛稳定性上优于DDPG-EE、TPBA算法. 展开更多
关键词 移动边缘计算 双延迟深度确定性策略梯度 任务卸载 资源分配
在线阅读 下载PDF
基于马尔科夫转换场与深度确定性策略梯度算法的VSC-HVDC系统控制参数优化方法
5
作者 朱介北 黄闽杰 +3 位作者 俞露杰 欧开健 刘晓龙 贾宏杰 《中国电机工程学报》 北大核心 2026年第5期1821-1832,I0008,共13页
针对柔性直流输电系统(voltage source converter based high voltage direct current transmission,VSC-HVDC)控制参数设计过程中存在的鲁棒性差、依赖已知电路参数、工程设计经验化等问题,提出一种基于马尔科夫转换场(Markov transiti... 针对柔性直流输电系统(voltage source converter based high voltage direct current transmission,VSC-HVDC)控制参数设计过程中存在的鲁棒性差、依赖已知电路参数、工程设计经验化等问题,提出一种基于马尔科夫转换场(Markov transition field,MTF)与深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)结合的鲁棒性强、不依赖电路参数特性以及可视化的VSC-HVDC控制参数优化设计方法。首先,采用马尔科夫转换场将电路功率、电压等一维时序波形数据转换为二维马尔科夫转换场域图像并使用马尔科夫转换场损失函数(Markov transition field loss,MTFL)判断二维转换域图的数据波动性;其次,将MTFL损失函数与DDPG算法相结合,综合利用MTFL损失函数对系统输出时序数据动态特性评价能力更强的优点和DDPG算法泛化性能优秀的特点,实现VSC-HVDC系统控制参数优化;最后,通过MATLAB模拟和实验结果验证该方法的有效性。 展开更多
关键词 柔性直流输电 控制参数优化 马尔科夫转换场损失函数 马尔科夫转换场 深度确定性策略梯度算法
原文传递
基于深度强化学习的多无人车协同路径规划方法
6
作者 戴晟潭 王寅 尚晨晨 《北京航空航天大学学报》 北大核心 2026年第2期541-550,共10页
为解决多无人车系统中的协同路径规划问题,利用深度强化学习方法,设计了一种高效的路径规划框架。构建基于双轮差速无人车的运动学模型和协同避障场景的数学模型;在此基础上,进一步分析深度强化学习在处理高维度状态空间和连续动作空间... 为解决多无人车系统中的协同路径规划问题,利用深度强化学习方法,设计了一种高效的路径规划框架。构建基于双轮差速无人车的运动学模型和协同避障场景的数学模型;在此基础上,进一步分析深度强化学习在处理高维度状态空间和连续动作空间等复杂动态场景时训练速度慢、采样效率低和适应能力差的机理,为多无人车协同路径规划研究提供理论基础。针对全部可观测条件下多无人车协同路径规划避障围捕的策略生成问题,提出改进双延迟深度确定性策略梯度(AE-TD3)算法,在围捕无人车输出的动作上添加来自高斯分布的随机噪声,并权衡探索或利用输出动作,使围捕无人车在未知环境中能更有效地探索,实现多无人车高效稳定的协同避障围捕。仿真实验表明,改进算法相较于双延迟深度确定性策略梯度(TD3)算法,平均奖励的收敛速度更快,围捕时间缩短16.7%,验证了改进算法的可行性。 展开更多
关键词 路径规划 协同避障和围捕 深度强化学习 双延迟深度确定性策略梯度算法 动作增强探索策略
原文传递
并行异速机批量混合流水车间动态调度方法研究
7
作者 昝云磊 刘贵杰 +4 位作者 王川 张玮 刘新宇 钟正彬 张金营 《机电工程》 北大核心 2026年第1期102-116,共15页
针对电站锅炉屏式管屏制造中多动态事件耦合导致的调度响应滞后及多目标协同优化难题,提出了一种基于深度强化学习的动态调度方法。首先,构建了并行异速机批量混合流水车间调度模型(LSHFSP-Qm),以精确描述异构机器速度、批量转移和能耗... 针对电站锅炉屏式管屏制造中多动态事件耦合导致的调度响应滞后及多目标协同优化难题,提出了一种基于深度强化学习的动态调度方法。首先,构建了并行异速机批量混合流水车间调度模型(LSHFSP-Qm),以精确描述异构机器速度、批量转移和能耗等生产约束条件;然后,基于双延迟深层确定性策略梯度(TD3)算法框架,采用长短时记忆(LSTM)网络重构了策略网络以增强时序特征提取能力,同时,设计了多级奖励机制,集成处理了时差、能耗和订单延迟的惩罚,从而构建了灵活自适应的动态事件驱动多目标重调度机制;最后,通过多组基准算例和车间实验验证了该方法的有效性。研究结果表明:改进TD3算法较传统深度强化学习方法提供了更好的近优解;在某屏式管屏车间中,调度效率提升了309.09%,动态事件反应速度提升了300%,综合生产效率间接提升了14.29%,订单拖期时间缩短了66.7%,生产线设备平均能耗降低了5%。该方法可有效协调多目标冲突,显著增强算法复杂动态环境中的适应性,可为装备制造业车间调度智能化转型提供可行方案。 展开更多
关键词 并行异速机批量混合流水车间调度问题 柔性制造系统及单元 双延迟深层确定性策略梯度算法 深度强化学习 动态调度 多目标优化
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的发电商竞价策略研究
8
作者 冯景康 荆朝霞 《电气自动化》 2026年第1期69-71,共3页
为了有效反映电力市场主体充分考虑自身禀赋以及可行申报空间后可能形成的复杂策略,提出了一种发电商竞价策略优化求解方法。首先,构建了考虑发电商申报容量灵活配置的电力市场竞价模型,应用深度确定性策略梯度算法对所提模型进行求解;... 为了有效反映电力市场主体充分考虑自身禀赋以及可行申报空间后可能形成的复杂策略,提出了一种发电商竞价策略优化求解方法。首先,构建了考虑发电商申报容量灵活配置的电力市场竞价模型,应用深度确定性策略梯度算法对所提模型进行求解;其次,通过改进原算法的探索策略,提高了算法探索效率;最后,通过算例对比不同报价模型以及算法下竞价策略求解的效果。结果表明,所提模型提升了竞价策略的灵活性,所提算法改进提升了算法探索效率。 展开更多
关键词 电力市场 经济调度 竞价策略 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习的柑橘黄龙病智能动态防控策略
9
作者 张勇威 骆智聪 +1 位作者 邓小玲 兰玉彬 《华南农业大学学报》 北大核心 2026年第1期74-85,共12页
【目的】柑橘黄龙病(Citrus Huanglongbing,HLB)传播受多重动态因素耦合影响,传统最优控制方法因计算复杂度高且依赖精确模型,导致其在实际应用中存在局限性。为解决这一问题,本文提出了一种基于双延迟深度确定性策略梯度(Twin delayed ... 【目的】柑橘黄龙病(Citrus Huanglongbing,HLB)传播受多重动态因素耦合影响,传统最优控制方法因计算复杂度高且依赖精确模型,导致其在实际应用中存在局限性。为解决这一问题,本文提出了一种基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)的HLB智能动态防控方法。【方法】首先,构建融合宿主−媒介交互机制的HLB传播控制动力学模型,并通过离散化处理将其转化为马尔科夫决策过程环境;随后,引入TD3算法,设计生物约束兼容的多目标奖励函数;最后,提出HLB防控策略。【结果】仿真试验结果表明,与DDPG、PPO等传统算法相比,本文提出的基于TD3的HLB动态防控策略在多项关键指标上均呈现出明显优势,系统状态收敛至无病平衡点的速度分别提升了26.59%和20.99%;累计控制成本分别降低了23.79%和19.90%;杀虫剂峰值使用量减少了约35.57%。数值分析结果进一步表明,在HLB爆发初期,及时喷洒杀虫剂干预对阻断HLB传播链具有关键作用;动态防控策略相较于恒定控制策略,在抑制病害扩散效果和降低实施控制的成本方面更具优势。【结论】本研究提出的基于TD3的HLB防控方法为高效控制HLB传播提供了新的视角,展示了深度强化学习方法在农业病害防控中的潜力。 展开更多
关键词 柑橘黄龙病 深度强化学习 双延迟深度确定性策略梯度 最优控制 防控策略
在线阅读 下载PDF
无小区大规模MIMO的接入点选择与卸载优化
10
作者 陈丽琼 杨新元 孙怀英 《计算机工程与应用》 北大核心 2026年第4期324-334,共11页
在移动边缘计算(mobile edge computing,MEC)中,为了满足低延时服务的需求,基于无小区大规模多输入多输出(cell-free massive multiple-input multiple-output,CF-mMIMO)的MEC系统正在成为一种有效的解决方案。然而,由于接入点集分配的... 在移动边缘计算(mobile edge computing,MEC)中,为了满足低延时服务的需求,基于无小区大规模多输入多输出(cell-free massive multiple-input multiple-output,CF-mMIMO)的MEC系统正在成为一种有效的解决方案。然而,由于接入点集分配的复杂性和网络资源的动态性,MEC系统在接入点分配和延迟优化方面面临挑战,这也制约了系统的整体效率和用户体验。针对上述问题,构建了一种基于开放式无线接入网络(open radio access network,O-RAN)和CF-mMIMO技术的MEC系统架构,并通过联合优化用户接入点分配和任务卸载策略,以最小化系统时延和能耗。提出一种基于模糊逻辑(fuzzy logic,FL)与双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的优化算法(FL-TD3)。其中模糊逻辑模块依据系统状态和环境特征构建先验决策,以降低TD3算法中决策空间维度高导致的优化难度。基于构建的先验决策,TD3算法通过超网络自适应优化先验决策,提高策略对动态环境的适应性。仿真结果表明,与TD3算法、DDPG(deep deterministic policy gradient)算法、Random算法相比,FL-TD3算法在优化用户平均时延和能耗上的性能有显著提升。 展开更多
关键词 边缘计算卸载 深度强化学习 任务卸载 双延迟深度确定性策略梯度(TD3) 模糊逻辑
在线阅读 下载PDF
融合强化学习的无模型自适应控制末端执行器恒力控制
11
作者 凌泽懿 张树忠 +2 位作者 唐一文 周杰 赵卫 《液压与气动》 北大核心 2026年第1期51-60,共10页
针对气动打磨系统中存在的非线性强、扰动敏感与建模困难等问题,提出一种基于强化学习双延迟深度确定性策略梯度的无模型自适应控制策略:双延迟深度确定性策略梯度无模型自适应控制,在MATLAB/Simulink中构建了气动加载系统模型,设计所... 针对气动打磨系统中存在的非线性强、扰动敏感与建模困难等问题,提出一种基于强化学习双延迟深度确定性策略梯度的无模型自适应控制策略:双延迟深度确定性策略梯度无模型自适应控制,在MATLAB/Simulink中构建了气动加载系统模型,设计所提出的控制策略控制架构,并定义其状态-动作与复合奖励函数,开展四种工况的仿真研究。仿真结果表明,所提出的控制策略控制效果最优。在恒力加载下,该控制策略无明显超调、调整时间为0.94 s;在干扰加载中,两次扰动的最大偏差分别为3.0 N和3.2 N;在正弦力加载中,该控制策略输出更贴近目标曲线,误差为0.16 N;在变角度加载中,该控制策略误差减小0.4 N。综上,所提出的控制策略在复杂非线性气动系统中表现出更高的控制精度、响应速度与鲁棒性,具有良好的工程应用价值。 展开更多
关键词 气动打磨 无模型自适应控制 强化学习 双延迟深度确定性策略梯度 恒力控制
在线阅读 下载PDF
基于分布式MAS的医院管理信息系统编队控制研究
12
作者 吴冬宇 刘继钰 李辕 《微型电脑应用》 2026年第1期217-220,共4页
在面对日益增长的医疗管理需求时,传统的医院管理信息系统难以满足现代化需求。因此,以多智能体系统(MAS)为框架基础,通过引入深度确定性策略梯度算法,提出一种新型编队控制算法。测试结果表明,与现有较为先进的算法相比,所提出的算法... 在面对日益增长的医疗管理需求时,传统的医院管理信息系统难以满足现代化需求。因此,以多智能体系统(MAS)为框架基础,通过引入深度确定性策略梯度算法,提出一种新型编队控制算法。测试结果表明,与现有较为先进的算法相比,所提出的算法更具高效性和实用性,显著提高了医院管理信息系统的资源分配效率和管理效果。 展开更多
关键词 多智能体系统 深度确定性策略梯度算法 医院信息 编队 资源分配
在线阅读 下载PDF
A UAV collaborative defense scheme driven by DDPG algorithm 被引量:3
13
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(DDPG)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
在线阅读 下载PDF
Real-Time Implementation of Quadrotor UAV Control System Based on a Deep Reinforcement Learning Approach
14
作者 Taha Yacine Trad Kheireddine Choutri +4 位作者 Mohand Lagha Souham Meshoul Fouad Khenfri Raouf Fareh Hadil Shaiba 《Computers, Materials & Continua》 SCIE EI 2024年第12期4757-4786,共30页
The popularity of quadrotor Unmanned Aerial Vehicles(UAVs)stems from their simple propulsion systems and structural design.However,their complex and nonlinear dynamic behavior presents a significant challenge for cont... The popularity of quadrotor Unmanned Aerial Vehicles(UAVs)stems from their simple propulsion systems and structural design.However,their complex and nonlinear dynamic behavior presents a significant challenge for control,necessitating sophisticated algorithms to ensure stability and accuracy in flight.Various strategies have been explored by researchers and control engineers,with learning-based methods like reinforcement learning,deep learning,and neural networks showing promise in enhancing the robustness and adaptability of quadrotor control systems.This paper investigates a Reinforcement Learning(RL)approach for both high and low-level quadrotor control systems,focusing on attitude stabilization and position tracking tasks.A novel reward function and actor-critic network structures are designed to stimulate high-order observable states,improving the agent’s understanding of the quadrotor’s dynamics and environmental constraints.To address the challenge of RL hyper-parameter tuning,a new framework is introduced that combines Simulated Annealing(SA)with a reinforcement learning algorithm,specifically Simulated Annealing-Twin Delayed Deep Deterministic Policy Gradient(SA-TD3).This approach is evaluated for path-following and stabilization tasks through comparative assessments with two commonly used control methods:Backstepping and Sliding Mode Control(SMC).While the implementation of the well-trained agents exhibited unexpected behavior during real-world testing,a reduced neural network used for altitude control was successfully implemented on a Parrot Mambo mini drone.The results showcase the potential of the proposed SA-TD3 framework for real-world applications,demonstrating improved stability and precision across various test scenarios and highlighting its feasibility for practical deployment. 展开更多
关键词 deep reinforcement learning hyper-parameters optimization path following QUADROTOR twin delayed deep deterministic policy gradient and simulated annealing
在线阅读 下载PDF
基于改进TD3的RIS-无人机通信系统能效优化 被引量:2
15
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习的停机位分配 被引量:1
16
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法 被引量:2
17
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度强化学习的综合能源系统优化调度 被引量:1
18
作者 梁海峰 闫峰 +1 位作者 尚隽 王楚通 《内蒙古电力技术》 2025年第4期21-29,共9页
为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的... 为减少智能体达到收敛所需的训练轮数,提高经验样本利用效率,优化综合能源系统(Integrated Energy System,IES)能量调度,引入深度强化学习(Deep Reinforcement Learning,DRL)算法,提出一种基于多环境实例和数据特征分数经验采样机制的改进深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。首先,借助多环境实例促使智能体和环境进行大量交互,从而获得有效的指导经验;其次,对不同类型数据进行特征量化处理,并依据特征分数进行经验采样,提高样本利用效率;最后,将改进DDPG算法与经典柔性动作-评价(Soft Actor⁃Critic,SAC)算法、双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法进行对比实验,实验结果验证了所提算法在提高收敛速度和样本利用效率方面的有效性,并通过算例仿真对模型增量学习后的性能提升进行了验证。 展开更多
关键词 综合能源系统 深度强化学习 改进深度确定性策略梯度算法 多环境实例 特征分数
在线阅读 下载PDF
融合DDPG算法的参数动态协同储能变换器自抗扰稳压控制
19
作者 马幼捷 陈韵霏 +3 位作者 周雪松 耿盛意 马立聪 李双 《高电压技术》 北大核心 2025年第11期5607-5619,共13页
针对光储直流微电网易受光伏资源波动、负荷侧波动等不确定扰动影响,进而引发的直流母线电压波动问题,在传统自抗扰控制(linear active disturbance rejection control,LADRC)的基础上,提出一种参数动态协同自抗扰控制(dynamic coordina... 针对光储直流微电网易受光伏资源波动、负荷侧波动等不确定扰动影响,进而引发的直流母线电压波动问题,在传统自抗扰控制(linear active disturbance rejection control,LADRC)的基础上,提出一种参数动态协同自抗扰控制(dynamic coordination of parameters for active disturbance rejection control,DCLADRC),引入两个新的观测变量并增加一维带宽参数,旨在通过深度确定性策略梯度(deterministic policy gradient,DDPG)算法动态调整两级带宽间的协调因子k,提高观测器多频域扰动下的观测精度及收敛速度,优化控制器的抗扰性,增强母线电压稳定性,从而使得储能能够更好地发挥“削峰填谷”的调节作用。物理实验结果表明,受到扰动后,对比LADRC与双闭环比例积分(double closed loop proportion-integration,Double_PI)控制,所提的DCLADRC电压偏移量分别减少了75%和83%。 展开更多
关键词 光储直流微电网 储能 自抗扰控制 深度确定性策略梯度算法 抗扰性
原文传递
基于TD3算法的光伏电站参与电力系统频率控制策略
20
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部