期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
Enhanced Deep Reinforcement Learning Strategy for Energy Management in Plug-in Hybrid Electric Vehicles with Entropy Regularization and Prioritized Experience Replay
1
作者 Li Wang Xiaoyong Wang 《Energy Engineering》 EI 2024年第12期3953-3979,共27页
Plug-in Hybrid Electric Vehicles(PHEVs)represent an innovative breed of transportation,harnessing diverse power sources for enhanced performance.Energy management strategies(EMSs)that coordinate and control different ... Plug-in Hybrid Electric Vehicles(PHEVs)represent an innovative breed of transportation,harnessing diverse power sources for enhanced performance.Energy management strategies(EMSs)that coordinate and control different energy sources is a critical component of PHEV control technology,directly impacting overall vehicle performance.This study proposes an improved deep reinforcement learning(DRL)-based EMSthat optimizes realtime energy allocation and coordinates the operation of multiple power sources.Conventional DRL algorithms struggle to effectively explore all possible state-action combinations within high-dimensional state and action spaces.They often fail to strike an optimal balance between exploration and exploitation,and their assumption of a static environment limits their ability to adapt to changing conditions.Moreover,these algorithms suffer from low sample efficiency.Collectively,these factors contribute to convergence difficulties,low learning efficiency,and instability.To address these challenges,the Deep Deterministic Policy Gradient(DDPG)algorithm is enhanced using entropy regularization and a summation tree-based Prioritized Experience Replay(PER)method,aiming to improve exploration performance and learning efficiency from experience samples.Additionally,the correspondingMarkovDecision Process(MDP)is established.Finally,an EMSbased on the improvedDRLmodel is presented.Comparative simulation experiments are conducted against rule-based,optimization-based,andDRL-based EMSs.The proposed strategy exhibitsminimal deviation fromthe optimal solution obtained by the dynamic programming(DP)strategy that requires global information.In the typical driving scenarios based onWorld Light Vehicle Test Cycle(WLTC)and New European Driving Cycle(NEDC),the proposed method achieved a fuel consumption of 2698.65 g and an Equivalent Fuel Consumption(EFC)of 2696.77 g.Compared to the DP strategy baseline,the proposed method improved the fuel efficiency variances(FEV)by 18.13%,15.1%,and 8.37%over the Deep QNetwork(DQN),Double DRL(DDRL),and original DDPG methods,respectively.The observational outcomes demonstrate that the proposed EMS based on improved DRL framework possesses good real-time performance,stability,and reliability,effectively optimizing vehicle economy and fuel consumption. 展开更多
关键词 Plug-in hybrid electric vehicles deep reinforcement learning energy management strategy deep deterministic policy gradient entropy regularization prioritized experience replay
在线阅读 下载PDF
基于改进DQN的多深度四向穿梭车仓储系统货位分配研究
2
作者 武照云 赵彬彬 +3 位作者 张中伟 李丽 高增恩 金涛 《现代电子技术》 北大核心 2026年第2期178-186,共9页
为解决多深度四向穿梭车仓储系统中因货位分配不合理带来的出库作业效率低、穿梭车拥堵等问题,提出一种基于改进DQN的货位分配优化方法。首先,根据多深度四向穿梭车仓储系统货位分配问题的特点,构建以出入库效率、货架稳定性、巷道作业... 为解决多深度四向穿梭车仓储系统中因货位分配不合理带来的出库作业效率低、穿梭车拥堵等问题,提出一种基于改进DQN的货位分配优化方法。首先,根据多深度四向穿梭车仓储系统货位分配问题的特点,构建以出入库效率、货架稳定性、巷道作业均衡性为目标的优化模型;然后,定义改进DQN的状态-动作空间、奖励函数等,引入优先经验回放机制以增大优质样本的权重并降低数据的相关性,同时引入决斗网络机制区分各动作的相对优势,更好地估计Q值,进而提升复杂高维度状态空间中的训练效率和稳定性。仿真实验结果表明,改进DQN算法的优化结果和收敛速度均优于遗传算法(GA)和DQN,其性能比GA提高了3.91%~18.18%,比DQN提高了3.66%~15.09%,而且在大规模货架和批量订单场景中优势更加显著。 展开更多
关键词 四向穿梭车 货位分配 改进DQN 优先经验回放 决斗网络 状态空间
在线阅读 下载PDF
基于深度强化学习决策的雷达干扰抑制方法
3
作者 肖易寒 孟祥乾 陆钱融 《制导与引信》 2026年第1期22-31,共10页
针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取... 针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取;然后根据信号特征通过可变贪婪算法选择动作作用于干扰,并将动作前后的信号特征存储于双深度优先经验回放池后,经过学习决策出最优的干扰抑制策略;最后使用该策略抑制干扰后输出。实验结果表明,该方法有效改善了信号的脉压结果,显著提升了信号的信干噪比,相较于基于D3QN的传统干扰抑制方法,在策略准确率和收敛速度上分别提升了7.3%和8.7%。 展开更多
关键词 雷达干扰抑制 双重竞争深度Q网络 双深度优先经验回放 可变贪婪算法 脉冲压缩
在线阅读 下载PDF
改进双延迟深度确定性策略梯度的库存控制方法
4
作者 龚永奇 郭基联 +1 位作者 张亮 唐希浪 《信息工程大学学报》 2026年第1期35-41,共7页
针对不确定需求和供应延迟环境中库存控制难度大、成本偏高的问题,提出一种改进双延迟深度确定性策略梯度(TD3)的库存控制方法。首先,将库存控制抽象为满足率最高和成本最小双目标的马尔可夫决策过程,作为TD3算法的训练环境;其次,采用... 针对不确定需求和供应延迟环境中库存控制难度大、成本偏高的问题,提出一种改进双延迟深度确定性策略梯度(TD3)的库存控制方法。首先,将库存控制抽象为满足率最高和成本最小双目标的马尔可夫决策过程,作为TD3算法的训练环境;其次,采用优先经验回放机制,提高TD3算法的采样效率,将长短期记忆网络融入TD3算法的多层感知机,优化网络结构;最后,通过TD3算法与环境交互,实现库存控制中成本和满足率优化。实验结果表明,所提方法在达到满足率阈值条件下,其库存控制成本较原始TD3算法降低22.2%。 展开更多
关键词 库存控制 双延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
在线阅读 下载PDF
Deep reinforcement learning-based adaptive collision avoidance method for UAV in joint operational airspace
5
作者 Yan Shen Xuejun Zhang +1 位作者 Yan Li Weidong Zhang 《Defence Technology(防务技术)》 2026年第2期142-159,共18页
As joint operations have become a key trend in modern military development,unmanned aerial vehicles(UAVs)play an increasingly important role in enhancing the intelligence and responsiveness of combat systems.However,t... As joint operations have become a key trend in modern military development,unmanned aerial vehicles(UAVs)play an increasingly important role in enhancing the intelligence and responsiveness of combat systems.However,the heterogeneity of aircraft,partial observability,and dynamic uncertainty in operational airspace pose significant challenges to autonomous collision avoidance using traditional methods.To address these issues,this paper proposes an adaptive collision avoidance approach for UAVs based on deep reinforcement learning.First,a unified uncertainty model incorporating dynamic wind fields is constructed to capture the complexity of joint operational environments.Then,to effectively handle the heterogeneity between manned and unmanned aircraft and the limitations of dynamic observations,a sector-based partial observation mechanism is designed.A Dynamic Threat Prioritization Assessment algorithm is also proposed to evaluate potential collision threats from multiple dimensions,including time to closest approach,minimum separation distance,and aircraft type.Furthermore,a Hierarchical Prioritized Experience Replay(HPER)mechanism is introduced,which classifies experience samples into high,medium,and low priority levels to preferentially sample critical experiences,thereby improving learning efficiency and accelerating policy convergence.Simulation results show that the proposed HPER-D3QN algorithm outperforms existing methods in terms of learning speed,environmental adaptability,and robustness,significantly enhancing collision avoidance performance and convergence rate.Finally,transfer experiments on a high-fidelity battlefield airspace simulation platform validate the proposed method's deployment potential and practical applicability in complex,real-world joint operational scenarios. 展开更多
关键词 Unmanned aerial vehicle Collision avoidance Deep reinforcement learning Joint operational airspace Hierarchical prioritized experience replay
在线阅读 下载PDF
Energy Optimization for Autonomous Mobile Robot Path Planning Based on Deep Reinforcement Learning
6
作者 Longfei Gao Weidong Wang Dieyun Ke 《Computers, Materials & Continua》 2026年第1期984-998,共15页
At present,energy consumption is one of the main bottlenecks in autonomous mobile robot development.To address the challenge of high energy consumption in path planning for autonomous mobile robots navigating unknown ... At present,energy consumption is one of the main bottlenecks in autonomous mobile robot development.To address the challenge of high energy consumption in path planning for autonomous mobile robots navigating unknown and complex environments,this paper proposes an Attention-Enhanced Dueling Deep Q-Network(ADDueling DQN),which integrates a multi-head attention mechanism and a prioritized experience replay strategy into a Dueling-DQN reinforcement learning framework.A multi-objective reward function,centered on energy efficiency,is designed to comprehensively consider path length,terrain slope,motion smoothness,and obstacle avoidance,enabling optimal low-energy trajectory generation in 3D space from the source.The incorporation of a multihead attention mechanism allows the model to dynamically focus on energy-critical state features—such as slope gradients and obstacle density—thereby significantly improving its ability to recognize and avoid energy-intensive paths.Additionally,the prioritized experience replay mechanism accelerates learning from key decision-making experiences,suppressing inefficient exploration and guiding the policy toward low-energy solutions more rapidly.The effectiveness of the proposed path planning algorithm is validated through simulation experiments conducted in multiple off-road scenarios.Results demonstrate that AD-Dueling DQN consistently achieves the lowest average energy consumption across all tested environments.Moreover,the proposed method exhibits faster convergence and greater training stability compared to baseline algorithms,highlighting its global optimization capability under energy-aware objectives in complex terrains.This study offers an efficient and scalable intelligent control strategy for the development of energy-conscious autonomous navigation systems. 展开更多
关键词 Autonomous mobile robot deep reinforcement learning energy optimization multi-attention mechanism prioritized experience replay dueling deep Q-Network
在线阅读 下载PDF
A Deep Reinforcement Learning-Based Partitioning Method for Power System Parallel Restoration
7
作者 Changcheng Li Weimeng Chang +1 位作者 Dahai Zhang Jinghan He 《Energy Engineering》 2026年第1期243-264,共22页
Effective partitioning is crucial for enabling parallel restoration of power systems after blackouts.This paper proposes a novel partitioning method based on deep reinforcement learning.First,the partitioning decision... Effective partitioning is crucial for enabling parallel restoration of power systems after blackouts.This paper proposes a novel partitioning method based on deep reinforcement learning.First,the partitioning decision process is formulated as a Markov decision process(MDP)model to maximize the modularity.Corresponding key partitioning constraints on parallel restoration are considered.Second,based on the partitioning objective and constraints,the reward function of the partitioning MDP model is set by adopting a relative deviation normalization scheme to reduce mutual interference between the reward and penalty in the reward function.The soft bonus scaling mechanism is introduced to mitigate overestimation caused by abrupt jumps in the reward.Then,the deep Q network method is applied to solve the partitioning MDP model and generate partitioning schemes.Two experience replay buffers are employed to speed up the training process of the method.Finally,case studies on the IEEE 39-bus test system demonstrate that the proposed method can generate a high-modularity partitioning result that meets all key partitioning constraints,thereby improving the parallelism and reliability of the restoration process.Moreover,simulation results demonstrate that an appropriate discount factor is crucial for ensuring both the convergence speed and the stability of the partitioning training. 展开更多
关键词 Partitioning method parallel restoration deep reinforcement learning experience replay buffer partitioning modularity
在线阅读 下载PDF
面向分布式新能源场站的流量加密策略优化
8
作者 王元强 冯宝 +4 位作者 朱宏宇 马涛 黄际元 邓亚芝 吕超 《计算机与现代化》 2026年第2期114-119,共6页
在分布式新能源场站中,网络流量的安全性对于保障数据隐私和系统稳定运行至关重要。然而,传统加密策略在复杂动态网络环境中常因计算开销大和灵活性不足而难以适应。为此,本文提出一种基于深度强化学习的网络流量加密策略优化方法,并结... 在分布式新能源场站中,网络流量的安全性对于保障数据隐私和系统稳定运行至关重要。然而,传统加密策略在复杂动态网络环境中常因计算开销大和灵活性不足而难以适应。为此,本文提出一种基于深度强化学习的网络流量加密策略优化方法,并结合基于可减少损失的优先经验回放改进机制,加速训练收敛并提升策略稳健性。该方法通过实时监测网络流量特征,动态调整加密策略,有效避免传统经验池中过拟合风险。实验结果表明,该方法在复杂网络环境下表现优异,不仅显著降低了网络延迟和丢包率,还提升了带宽利用率和训练效率。相比传统方法,该策略更高效灵活,适用于分布式新能源场站的网络流量加密优化,不仅为复杂动态环境中的数据安全提供了可靠解决方案,而且提高了分布式新能源场站的网络运行效率。 展开更多
关键词 分布式新能源场站 网络流量加密 深度强化学习 可减少损失 优先经验回放
在线阅读 下载PDF
基于改进DQN算法的船舶全局路径规划研究 被引量:2
9
作者 关巍 曲胜 +1 位作者 张显库 胡彤博 《中国舰船研究》 北大核心 2025年第1期107-114,共8页
[目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网... [目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网络结构,使其对特定状态及其动作的价值评估更加准确,并同时具备一定的探索性和泛化性。[结果]实验结果表明,在马尼拉附近海域环境下,相比于A^(*)算法和DQN算法,改进算法在路径长度上分别缩短了1.9%和1.0%,拐点数量上分别减少了62.5%和25%。[结论]实验结果验证了改进DQN算法能够更经济、更合理地规划出有效路径。 展开更多
关键词 船舶 运动规划 DQN算法 优先经验回放(PER)
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法 被引量:2
10
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于优先经验回放的生成式SAC算法及其应用
11
作者 张伟 李玉俊 +2 位作者 谢雯雯 许耘嘉 孙庚 《吉林大学学报(理学版)》 北大核心 2025年第6期1713-1722,共10页
针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升... 针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升学习效率;其次,该算法将生成式Transformer架构集成到演员网络中以增强对状态特征的动态捕捉能力,从而显著提升其在复杂优化任务中的性能;最后,在高校后勤人员动态调度优化问题上进行应用实验.实验结果表明,与原始柔性演员-评论家算法及经典深度Q网络算法相比,改进的柔性演员-评论家算法在人力需求动态拟合方面误差更小,从而有效验证了其在实际应用中的优势和实用性. 展开更多
关键词 深度强化学习 柔性演员-评论家算法 优先经验回放 Transformer架构 后勤管理
在线阅读 下载PDF
动态场景下自动驾驶运行时安全保障的自适应方法
12
作者 徐丙凤 陈嘉玲 +1 位作者 杨帅领 何高峰 《通信学报》 北大核心 2025年第7期168-181,共14页
针对已有自动驾驶运行时安全控制方法难以根据车辆实际运行环境进行动态调整导致车辆通行效率降低的问题,提出了一种动态场景下自动驾驶运行时安全保障的自适应方法,给出了运行时安全自动控制模型(RTA-AutoSafe)。在该模型中,针对性能... 针对已有自动驾驶运行时安全控制方法难以根据车辆实际运行环境进行动态调整导致车辆通行效率降低的问题,提出了一种动态场景下自动驾驶运行时安全保障的自适应方法,给出了运行时安全自动控制模型(RTA-AutoSafe)。在该模型中,针对性能控制器提出了一种基于自适应双缓冲优先经验重放机制的深度Q网络算法,通过增强动态交通环境下决策策略的适应性以优化通行效率;针对实际驾驶动态特征设计了自适应责任敏感安全(ARSS)模型,以增强安全判定的动态适应性;同时基于ARSS模型构建了一种结合车辆实时反馈和交通自适应的动态双向切换逻辑和安全控制器,用以实现车辆的实时安全保障和双控制器间的动态调控。仿真实验结果表明,与其他安全控制方法相比,所提方法在动态交通环境中降低了安全冗余控制对通行效率的限制,实现了安全实时响应与高效运行策略的动态兼容。 展开更多
关键词 自动驾驶 深度强化学习 运行时保证 责任敏感安全模型 优先经验重放
在线阅读 下载PDF
基于ROS仿真系统的DQN算法改进
13
作者 逄焕利 刘增福 赵景辉 《长春工业大学学报》 2025年第2期163-170,共8页
针对DQN算法收敛速度慢的问题进行优化,提出了DP-DQN算法,并将其应用于移动无人车,以学习最佳的决策。首先在Dueling DQN的基础上改进其网络结构,将网络结构分解为价值函数和优势函数,从而实现了动作选择和动作评价的解耦,加快了收敛速... 针对DQN算法收敛速度慢的问题进行优化,提出了DP-DQN算法,并将其应用于移动无人车,以学习最佳的决策。首先在Dueling DQN的基础上改进其网络结构,将网络结构分解为价值函数和优势函数,从而实现了动作选择和动作评价的解耦,加快了收敛速度,使其具有更好的泛化性能,能够更快地学习最优决策。其次,加入优先经验回放机制,提高样本利用率。最后针对训练阶段的不稳定性和环境状态空间的稀疏性,在DQN的即时奖励基础上增加了缩放日志策略,使无人车进行更多的探索。仿真实验结果表明,该方法在静态无障碍环境下均比DQN、Dueling DQN具有更高的学习效率和更快的收敛,该无人车能够在未知动态环境下成功到达局部目标位置。 展开更多
关键词 DP-DQN DQN Dueling DQN 优先经验回放
在线阅读 下载PDF
边端协同场景下的深度强化学习任务卸载方法 被引量:1
14
作者 李英豪 刘盼盼 +3 位作者 王文猛 刘晓亮 韩志勇 刘成明 《小型微型计算机系统》 北大核心 2025年第2期280-288,共9页
针对现有部分任务卸载方法未考虑排队时延及训练过程采样效率低等问题,提出了一种基于多智能体深度强化学习的任务卸载方法.首先,综合考虑任务量、服务资源、队列的负载情况等因素建立面向时延和能耗联合优化的边端协同卸载模型,其次,... 针对现有部分任务卸载方法未考虑排队时延及训练过程采样效率低等问题,提出了一种基于多智能体深度强化学习的任务卸载方法.首先,综合考虑任务量、服务资源、队列的负载情况等因素建立面向时延和能耗联合优化的边端协同卸载模型,其次,将该模型表述为马尔可夫决策过程,目标为最小化系统的总成本.然后引入优先经验回放机制和重要性采样对多智能体深度确定性策略梯度算法进行改进,利用长期环境信息高效探索任务卸载的最优解决方案.最后,将本文算法与基于MADDPG、D3QN、DQN和随机卸载算法的性能进行了比较,仿真结果表明,所提出的算法在各项指标上表现更优. 展开更多
关键词 移动边缘计算 任务卸载 多智能体 优先经验回放
在线阅读 下载PDF
基于改进经验回放策略的路径规划算法 被引量:1
15
作者 李佩哲 张文彪 《控制与决策》 北大核心 2025年第8期2545-2552,共8页
移动机器人的路径规划和避障问题已成为近年来的研究热点.现有的基于深度Q网络算法在RPP问题上取得了一定的效果.然而,该算法在训练过程中存在动作选择随机性过大、收敛速度慢等问题.此外,现有的算法较少涉及动态环境的定量分析.鉴于此... 移动机器人的路径规划和避障问题已成为近年来的研究热点.现有的基于深度Q网络算法在RPP问题上取得了一定的效果.然而,该算法在训练过程中存在动作选择随机性过大、收敛速度慢等问题.此外,现有的算法较少涉及动态环境的定量分析.鉴于此,提出一种基于双深度Q网络的路径规划算法.首先,设计一种特别的时序输入结构,能够采集更加丰富的动态语义信息,可以更好地适应动态场景的路径规划;然后,设计一种独特的经验分配策略,这种策略可在不同的训练阶段分配不同经验池中的经验,以改善网络的训练效率;最后,在静态和动态环境中对所提出算法进行验证.与改进前的方法相比,所提出方法训练时间减少了50%,路径规划的成功率提高了9.6%. 展开更多
关键词 路径规划 移动机器人 深度强化学习 优先经验回放 随机环境 动态环境
原文传递
基于双层网络PER-MADDPG算法的综合能源系统协调优化调度 被引量:2
16
作者 陈亮 刘桂英 +3 位作者 粟时平 唐长久 王辰浩 郭思桐 《综合智慧能源》 2025年第7期44-54,共11页
为保证综合能源系统(IES)的经济运行,针对传统模型驱动调度方法存在的优化调度模型求解困难、收敛速度慢、效果不理想等问题,提出一种基于能量路由器的IES协调优化调度方法。采用电、热、冷3个能量路由器将IES分为3个区域,对能量设备进... 为保证综合能源系统(IES)的经济运行,针对传统模型驱动调度方法存在的优化调度模型求解困难、收敛速度慢、效果不理想等问题,提出一种基于能量路由器的IES协调优化调度方法。采用电、热、冷3个能量路由器将IES分为3个区域,对能量设备进行建模,构建IES优化调度的马尔可夫合作博弈模型,形成集中训练、分布执行的框架。采用基于改进双层Actor-Critic网络的多智能体深度确定性策略梯度算法,通过双层Critic网络评估动作价值,以避免动作价值过估计问题,同时引入优先经验回放机制,在数据多样性不变的情况下,提高经验回放池中数据的利用率。通过算例仿真验证了所提算法比未改进之前计算速度快10.13 s,日均调度成本少1638.13元,可在保证系统经济性的前提下,实现IES的协调优化调度。 展开更多
关键词 综合能源系统 协调优化调度 马尔可夫博弈 能量路由器 双层Actor-Critic网络 优先经验回放机制
在线阅读 下载PDF
面向空间自主装配验证评估的机械臂避障运动规划
17
作者 谢芳霖 汪凌昕 +2 位作者 张亚航 王耀兵 王捷 《航天器工程》 北大核心 2025年第2期82-89,共8页
面向空间机械臂自主装配的验证评估问题,针对人机、多机协同作业过程中彼此进入对方作业区域后可能出现的高风险碰撞工况,将机械臂避障抓取的运动规划定义为强化学习问题,并提出一种改进的双经验池组合采样经验回放方法。仿真结果表明:... 面向空间机械臂自主装配的验证评估问题,针对人机、多机协同作业过程中彼此进入对方作业区域后可能出现的高风险碰撞工况,将机械臂避障抓取的运动规划定义为强化学习问题,并提出一种改进的双经验池组合采样经验回放方法。仿真结果表明:采用该方法进行训练后,机械臂可有效避开动态障碍物,且末端到位精度从0.2717 m提高至0.0413 m。基于物理样机开展了试验验证,进一步证明了避障抓取策略能使机械臂自主避开任意障碍物并准确抓取目标,不需要对障碍物的运动状态进行预测。文章提出的避障运动规划,可用于各类固定基座空间机械臂的地面验证评估。 展开更多
关键词 空间机械臂 避障运动规划 深度强化学习 优先经验回放 迁移学习
在线阅读 下载PDF
结构化环境中UR3机械臂对于移动物体的抓取研究
18
作者 罗国庆 袁庆霓 +1 位作者 曲鹏举 吴兴杰 《计算机工程与应用》 北大核心 2025年第16期106-115,共10页
针对在结构化环境下机械臂移动抓取自主决策能力不足、环境适应性低、学习效率低以及机械臂协同作业中的协调性和路径规划等问题,将双重回放缓存机制(double replay buffer,DRB)与强化学习柔性动作-评价(soft actor-critic,SAC)算法融合... 针对在结构化环境下机械臂移动抓取自主决策能力不足、环境适应性低、学习效率低以及机械臂协同作业中的协调性和路径规划等问题,将双重回放缓存机制(double replay buffer,DRB)与强化学习柔性动作-评价(soft actor-critic,SAC)算法融合,提出基于DRB-SAC(soft actor-critic with double replay buffer)的深度强化学习移动物体机械臂抓取方法。首先搭建移动物体机械臂抓取系统。然后提出改进的深度强化学习控制策略DRB-SAC。该策略通过马尔可夫决策过程模型构建,定义动作空间和状态空间提供操作和观察环境的框架,确定机械臂控制任务的目标和约束条件,设计训练策略和奖励函数,利用深度神经网络来拟合动作价值函数和策略函数,实现机械臂移动自适应抓取智能决策,并引入双重回放缓存机制进一步增强了算法的稳定性和泛化能力。最后进行仿真和物理实验对比分析,结果表明该方法具有很好的收敛性,在探索环境奖励、抓取动作的完成程度方面具有优越性。 展开更多
关键词 强化学习 移动物体抓取 双重回放缓存机制 CoppeliaSim仿真
在线阅读 下载PDF
基于Munchausen-PER算法优化的混合动力履带车辆能量管理策略
19
作者 路潇然 邹渊 +3 位作者 张旭东 孙巍 孟逸豪 张彬 《兵工学报》 北大核心 2025年第6期125-136,共12页
为优化串联式混合动力履带车辆的燃油经济性及能量管理系统的离线训练用时,提出一种采用蒙乔森(Munchausen)优化算法及优先经验采样(Prioritized Experience Replay,PER)算法的双重深度Q网络(Double-Deep Q_learning Network,DDQN)的能... 为优化串联式混合动力履带车辆的燃油经济性及能量管理系统的离线训练用时,提出一种采用蒙乔森(Munchausen)优化算法及优先经验采样(Prioritized Experience Replay,PER)算法的双重深度Q网络(Double-Deep Q_learning Network,DDQN)的能量管理策略。通过包含发动机发电机组、动力电池组及驱动电机的模型对整车功率需求进行解算,根据功率需求,用能量管理控制策略对发动机节气门开度进行最优控制。采用蒙乔森优化算法、PER算法共同作用于离散型DDQN,同时提高网络对高影响数据的选取训练概率及对最优解的专注训练能力,在2种算法共同作用下DDQN能量管理策略的燃油经济性可实现对连续型复杂神经网络的超越,同时具有较大的离线训练用时优势。仿真实验结果表明:与基于PER的双延迟深度确定性策略梯度算法相比,新的能量管理控制策略可使得串联式混动履带车的燃油经济性平均提高4.6%,控制策略训练用时平均优化了35.3%。 展开更多
关键词 串联式混动履带车 Munchausen优化算法 优先经验采样算法 深度强化学习 能量管理策略
在线阅读 下载PDF
融合PER和TL的燃料电池客车能量管理策略更新方法研究
20
作者 黄汝臣 何洪文 《汽车工程》 北大核心 2025年第12期2336-2345,共10页
针对深度强化学习型能量管理策略(EMS)训练效率低、更新不及时的问题,本文以燃料电池客车为研究对象,提出了一种融合优先经验回放(PER)和迁移学习(TL)的智能EMS更新方法,设计了一种采样机理增强型柔性行动者-评论家(ESAC)算法,通过在SA... 针对深度强化学习型能量管理策略(EMS)训练效率低、更新不及时的问题,本文以燃料电池客车为研究对象,提出了一种融合优先经验回放(PER)和迁移学习(TL)的智能EMS更新方法,设计了一种采样机理增强型柔性行动者-评论家(ESAC)算法,通过在SAC架构中集成PER机制,提升EMS的训练效率;提出了一种基于TL的EMS更新方法,通过研究知识共享机制,对基于ESAC的EMS进行跨工况知识迁移和策略复用,提高EMS的策略更新效率和长期优化性能。将更新后的EMS部署至能量管理控制器,以在线优化功率分配。仿真实验结果表明,相较于SAC,所提ESAC算法将训练效率提升了58.33%;相较于基准方法,所提更新方法将EMS的更新效率和燃油经济性分别提高了63.01%和5.24%,同时展现出了实时应用潜力。 展开更多
关键词 迁移学习 优先经验回放 柔性行动者-评论家 能量管理策略更新 燃料电池客车
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部