期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
二人零和博弈情形下基于Dueling DQN的火力分配方法
1
作者 邱少明 黄昕晨 +1 位作者 刘良玉 俄必聪 《兵器装备工程学报》 北大核心 2025年第5期67-76,共10页
针对火力分配决策维度高,并且参战各方都有不同的战略目标,各方存在着相互耦合、复杂的作用关系,战场态势瞬息万变,传统DQN算法收敛速度慢的问题,提出一种基于Dueling DQN与博弈论相结合的火力分配优化方法。首先,构建二人零和博弈状态... 针对火力分配决策维度高,并且参战各方都有不同的战略目标,各方存在着相互耦合、复杂的作用关系,战场态势瞬息万变,传统DQN算法收敛速度慢的问题,提出一种基于Dueling DQN与博弈论相结合的火力分配优化方法。首先,构建二人零和博弈状态下的火力分配模型。其次,建立了同时为对抗双方进行火力分配决策的Dueling DQN算法框架,提出ε-Nash-Boltzmann策略选取动作,以敌我双方的期望收益差作为奖励函数。实验结果表明,该算法能根据战场状态以最快速度求解得到保卫我方目标的最佳策略,具备在博弈情形下求解高维度的火力分配问题的优势。 展开更多
关键词 火力分配 二人零和博弈 dueling DQN 纳什均衡
在线阅读 下载PDF
基于Dueling Double DQN的交通信号控制方法 被引量:3
2
作者 叶宝林 陈栋 +2 位作者 刘春元 陈滨 吴维敏 《计算机测量与控制》 2024年第7期154-161,共8页
为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作... 为了提高交叉口通行效率缓解交通拥堵,深入挖掘交通状态信息中所包含的深层次隐含特征信息,提出了一种基于Dueling Double DQN(D3QN)的单交叉口交通信号控制方法;构建了一个基于深度强化学习Double DQN(DDQN)的交通信号控制模型,对动作-价值函数的估计值和目标值迭代运算过程进行了优化,克服基于深度强化学习DQN的交通信号控制模型存在收敛速度慢的问题;设计了一个新的Dueling Network解耦交通状态和相位动作的价值,增强Double DQN(DDQN)提取深层次特征信息的能力;基于微观仿真平台SUMO搭建了一个单交叉口模拟仿真框架和环境,开展仿真测试;仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习DQN的交通信号控制方法相比,所提方法能够有效减少车辆平均等待时间、车辆平均排队长度和车辆平均停车次数,明显提升交叉口通行效率。 展开更多
关键词 交通信号控制 深度强化学习 dueling Double DQN dueling Network
在线阅读 下载PDF
基于Dueling DQN算法的列车运行图节能优化研究 被引量:3
3
作者 刘飞 唐方慧 +3 位作者 刘琳婷 胡文斌 哈进兵 钱程 《都市快轨交通》 北大核心 2024年第2期39-46,共8页
通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,... 通过优化地铁时刻表可有效降低地铁牵引能耗。为解决客流波动和车辆延误对实际节能率影响的问题,提出列车牵引和供电系统实时潮流计算分析模型和基于Dueling Deep Q Network(Dueling DQN)深度强化学习算法相结合的运行图节能优化方法,建立基于区间动态客流概率统计的时刻表迭代优化模型,降低动态客流变化对节能率的影响。对预测Q网络和目标Q网络分别选取自适应时刻估计和均方根反向传播方法,提高模型收敛快速性,同时以时刻表优化前、后总运行时间不变、乘客换乘时间和等待时间最小为优化目标,实现节能时刻表无感切换。以苏州轨道交通4号线为例验证方法的有效性,节能对比试验结果表明:在到达换乘站时刻偏差不超过2 s和列车全周转运行时间不变的前提下,列车牵引节能率达5.27%,车公里能耗下降4.99%。 展开更多
关键词 城市轨道交通 时刻表优化 牵引节能 dueling DQN 动态客流
在线阅读 下载PDF
未知环境下基于Dueling DQN的无人机路径规划研究 被引量:2
4
作者 赵恬恬 孔建国 +1 位作者 梁海军 刘晨宇 《现代计算机》 2024年第5期37-43,共7页
为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;... 为有效解决无人机在未知环境下的路径规划问题,提出一种基于Dueling DQN的路径规划方法。首先,在DQN的基础上,引入对抗网络架构,从而更好地提高成功率;其次,设计状态空间并定义离散化的动作和适当的奖励函数以引导无人机学习最优路径;最后在仿真环境中对DQN和Dueling DQN展开训练,结果表明:①Dueling DQN能规划出未知环境下从初始点到目标点的无碰撞路径,且能获得更高的奖励值;②经过50000次训练,Dueling DQN的成功率比DQN提高17.71%,碰撞率减少1.57%,超过最长步长率降低16.14%。 展开更多
关键词 无人机 路径规划 深度强化学习 dueling DQN算法
在线阅读 下载PDF
Transformer-Aided Deep Double Dueling Spatial-Temporal Q-Network for Spatial Crowdsourcing Analysis
5
作者 Yu Li Mingxiao Li +2 位作者 Dongyang Ou Junjie Guo Fangyuan Pan 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第4期893-909,共17页
With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms ... With the rapid development ofmobile Internet,spatial crowdsourcing has becomemore andmore popular.Spatial crowdsourcing consists of many different types of applications,such as spatial crowd-sensing services.In terms of spatial crowd-sensing,it collects and analyzes traffic sensing data from clients like vehicles and traffic lights to construct intelligent traffic prediction models.Besides collecting sensing data,spatial crowdsourcing also includes spatial delivery services like DiDi and Uber.Appropriate task assignment and worker selection dominate the service quality for spatial crowdsourcing applications.Previous research conducted task assignments via traditional matching approaches or using simple network models.However,advanced mining methods are lacking to explore the relationship between workers,task publishers,and the spatio-temporal attributes in tasks.Therefore,in this paper,we propose a Deep Double Dueling Spatial-temporal Q Network(D3SQN)to adaptively learn the spatialtemporal relationship between task,task publishers,and workers in a dynamic environment to achieve optimal allocation.Specifically,D3SQNis revised through reinforcement learning by adding a spatial-temporal transformer that can estimate the expected state values and action advantages so as to improve the accuracy of task assignments.Extensive experiments are conducted over real data collected fromDiDi and ELM,and the simulation results verify the effectiveness of our proposed models. 展开更多
关键词 Historical behavior analysis spatial crowdsourcing deep double dueling Q-networks
在线阅读 下载PDF
一种改进dueling网络的机器人避障方法 被引量:6
6
作者 周翼 陈渤 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第1期46-50,63,共6页
针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并... 针对传统增强学习方法在运动规划领域,尤其是机器人避障问题上存在容易过估计、难以适应复杂环境等不足,提出了一种基于深度增强学习的提升机器人避障性能的新算法模型。该模型将dueling神经网络架构与传统增强学习算法Q学习相结合,并利用两个独立训练的dueling网络处理环境数据来预测动作值,在输出层分别输出状态值和动作优势值,并将两者结合输出最终动作值。该模型能处理较高维度数据以适应复杂多变的环境,并输出优势动作供机器人选择以获得更高的累积奖励。实验结果表明,该新算法模型能有效地提升机器人避障性能。 展开更多
关键词 机器人避障 深度增强学习 dueling网络 独立训练
在线阅读 下载PDF
基于Dueling Network与RRT的机械臂抓放控制 被引量:3
7
作者 王永 李金泽 《机床与液压》 北大核心 2021年第17期59-64,共6页
针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Duelin... 针对当前机械臂抓取与放置方式固定、指令单一、难以应对复杂未知情况的不足,提出一种基于深度强化学习与RRT的机械臂抓放控制方法。该方法将物件抓取与放置问题视为马尔科夫过程,通过物件视场要素描述以及改进的深度强化学习算法Dueling Network实现对未知物件的自主抓取,经过关键点选取以及RRT算法依据任务需要将物件准确放置于目标位置。实验结果表明:该方法简便有效,机械臂抓取与放置自主灵活,可进一步提升机械臂应对未知物件的自主操控能力,满足对不同物件抓取与放置任务的需求。 展开更多
关键词 机械臂 深度强化学习 dueling Network RRT 抓放控制
在线阅读 下载PDF
基于KSP与Dueling DQN的电力通信光缆光路智能迂回方法 被引量:5
8
作者 陆怡菲 顾君佳 +3 位作者 沈昊骢 吴媖 潘俊姚 邢旭亮 《浙江电力》 2022年第12期114-122,共9页
目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及... 目前电力通信光缆光路迂回选路的传统方法是人工决策,效率低下,导致电力通信业务恢复较慢。为此,提出了一种基于KSP(K条最短路径)与Dueling DQN(竞争深度Q学习网络)的电力通信光缆光路智能迂回方法。使用电力通信光缆网络拓扑信息以及光缆类型、同沟道情况、光缆长度、光缆芯数等数据,通过KSP算法寻找K条最短迂回路径,然后采用Dueling DQN评估每条迂回路径的风险值并实现路由选择。将所提方法与传统KSP算法、Nature DQN算法的效果进行对比,该算法光缆光路智能迂回准确率达到99.5%,决策时间缩减至秒级。 展开更多
关键词 电力通信光缆 光路迂回 dueling DQN 最短路径
在线阅读 下载PDF
基于强化学习的人道主义应急物资分配优化研究 被引量:2
9
作者 张建军 杨云丹 周一卓 《上海管理科学》 2025年第2期109-117,共9页
当重大突发事件发生后,救援组织如何高效地分配有限的人道主义援助物资,在满足受灾区域物资需求的同时又能降低灾民的痛苦,是一项重要的研究课题。针对这一问题,本文建模了适配的混合非整数线性规划问题MINLP,涉及多期动态最优化分配策... 当重大突发事件发生后,救援组织如何高效地分配有限的人道主义援助物资,在满足受灾区域物资需求的同时又能降低灾民的痛苦,是一项重要的研究课题。针对这一问题,本文建模了适配的混合非整数线性规划问题MINLP,涉及多期动态最优化分配策略求解。作为当前策略探索问题的两种主流方法之一的强化学习算法,通过与环境的交互获取反馈信号以调整策略从而自适应外部动态变化,扩展性极强,比针对特定状态求解的启发式算法更适合动态物资分配场景,由此采取Dueling DQN算法求解最优策略,规避了以往强化学习用于人道主义物资分配领域中存在的Q值过高估计缺点,更精准地求出受灾区域的动作价值函数。与此同时,本文构建需求随机化假设,这一创新使得模型构造更符合受灾场景实际情况,模型的有效性、真实性得以提升。本文以雅安地震为背景,利用数值算例验证了算法的效能,是首篇代入真实数据源佐证强化学习优化应急物资分配方案的论文:相对于传统的DQN方法,Dueling DQN算法能够降低总成本约5%,这意味着在确保物资供给的同时更有效减少了受灾人群的痛苦,彰显了我国“以人为本”的救援原则,在基于人道主义的应急救援方面具备重要的理论和实践意义。 展开更多
关键词 深度强化学习 人道主义 应急物资分配 dueling DQN算法
在线阅读 下载PDF
基于ROS仿真系统的DQN算法改进
10
作者 逄焕利 刘增福 赵景辉 《长春工业大学学报》 2025年第2期163-170,共8页
针对DQN算法收敛速度慢的问题进行优化,提出了DP-DQN算法,并将其应用于移动无人车,以学习最佳的决策。首先在Dueling DQN的基础上改进其网络结构,将网络结构分解为价值函数和优势函数,从而实现了动作选择和动作评价的解耦,加快了收敛速... 针对DQN算法收敛速度慢的问题进行优化,提出了DP-DQN算法,并将其应用于移动无人车,以学习最佳的决策。首先在Dueling DQN的基础上改进其网络结构,将网络结构分解为价值函数和优势函数,从而实现了动作选择和动作评价的解耦,加快了收敛速度,使其具有更好的泛化性能,能够更快地学习最优决策。其次,加入优先经验回放机制,提高样本利用率。最后针对训练阶段的不稳定性和环境状态空间的稀疏性,在DQN的即时奖励基础上增加了缩放日志策略,使无人车进行更多的探索。仿真实验结果表明,该方法在静态无障碍环境下均比DQN、Dueling DQN具有更高的学习效率和更快的收敛,该无人车能够在未知动态环境下成功到达局部目标位置。 展开更多
关键词 DP-DQN DQN dueling DQN 优先经验回放
在线阅读 下载PDF
基于文件工作流和强化学习的工程项目文件管理优化方法
11
作者 司鹏搏 庞睿 +2 位作者 杨睿哲 孙艳华 李萌 《北京工业大学学报》 北大核心 2025年第10期1162-1170,共9页
为了解决大型工程项目中文件的传输时间与成本问题,提出一个基于文件工作流的工程项目文件管理优化方法。首先,构建了工程项目文件管理环境和具有逻辑顺序的文件工作流模型,分析了文件的传输和缓存。在此基础上,将文件管理优化问题建模... 为了解决大型工程项目中文件的传输时间与成本问题,提出一个基于文件工作流的工程项目文件管理优化方法。首先,构建了工程项目文件管理环境和具有逻辑顺序的文件工作流模型,分析了文件的传输和缓存。在此基础上,将文件管理优化问题建模为马尔可夫过程,通过设计状态空间、动作空间及奖励函数等实现文件工作流的任务完成时间与缓存成本的联合优化。其次,采用对抗式双重深度Q网络(dueling double deep Q network,D3QN)来降低训练时间,提高训练效率。仿真结果验证了提出方案在不同参数配置下文件传输的有效性,并且在任务体量增大时仍能保持较好的优化能力。 展开更多
关键词 文件工作流 传输时间 马尔可夫过程 对抗式双重深度Q网络(dueling double deep Q network D3QN) 文件管理 联合优化
在线阅读 下载PDF
火灾环境交互条件下应急疏散路径最优决策算法
12
作者 洪妍灵 江辉仙 张明锋 《福建师范大学学报(自然科学版)》 北大核心 2025年第2期65-73,共9页
大型公共建筑物结构和设计复杂,在火灾应急疏散中存在人群因火势扩散找不到有效疏散路径的难题。基于两种深度Q网络(DQN)算法,针对不同年龄段人员的紧急疏散速度,在烟雾扩散影响下的火灾仿真环境中寻找不同被困人员的有效疏散引导路径,... 大型公共建筑物结构和设计复杂,在火灾应急疏散中存在人群因火势扩散找不到有效疏散路径的难题。基于两种深度Q网络(DQN)算法,针对不同年龄段人员的紧急疏散速度,在烟雾扩散影响下的火灾仿真环境中寻找不同被困人员的有效疏散引导路径,从而得到不同被困人员在大型建筑物室内的有效疏散方案。实验结果表明:(1)DQN算法在火灾环境中的应用能更高效地获得低成本的室内火灾最优引导疏散路径;(2)Dueling DQN算法搜索最优疏散路径成功率和安全性高于DQN算法,更适合火灾最优引导疏散路径规划;(3)火灾最优疏散路径规划中,应该适当考虑不同年龄疏散人群的紧急疏散速度,为不同年龄群体提供合适的火灾最优疏散路径引导。 展开更多
关键词 DQN算法 不同年龄人群 未知环境模型 疏散速度 dueling DQN算法
在线阅读 下载PDF
基于深度强化学习的电极箔化成车间节能调度研究
13
作者 王炳帆 袁逸萍 +2 位作者 阿地兰木·斯塔洪 卢永鑫 刘鹏飞 《组合机床与自动化加工技术》 北大核心 2025年第10期195-200,共6页
针对电极箔化成车间节能调度问题,研究提出了一种基于深度强化学习的方法进行求解。首先,将调度问题抽象为马尔可夫决策过程;其次,构建了3个静态矩阵和4个动态矩阵,用以描绘车间的环境状态,并根据电极箔车间实际生产情况,设计了由节能... 针对电极箔化成车间节能调度问题,研究提出了一种基于深度强化学习的方法进行求解。首先,将调度问题抽象为马尔可夫决策过程;其次,构建了3个静态矩阵和4个动态矩阵,用以描绘车间的环境状态,并根据电极箔车间实际生产情况,设计了由节能策略的组合调度规则作为动作空间;同时,设计了用于描述最大完工时间和能耗的奖励函数。最终,利用Dueling Deep Q-Network算法进行模型训练,并与传统调度规则进行对比实验,结果表明所提方法能够有效缩短完工时间和降低化成车间总能耗。为了满足电极箔化成车间生产环境对系统的使用需求,开发电极箔化成车间调度系统进行应用。 展开更多
关键词 深度强化学习 能耗 dueling DQN 最大完工时间 流水车间调度
在线阅读 下载PDF
Routing cost-integrated intelligent handover strategy for multi-layer LEO mega-constellation networks
14
作者 Zhenglong YIN Quan CHEN +2 位作者 Lei YANG Yong ZHAO Xiaoqian CHEN 《Chinese Journal of Aeronautics》 2025年第6期487-500,共14页
Low Earth Orbit(LEO)mega-constellation networks,exemplified by Starlink,are poised to play a pivotal role in future mobile communication networks,due to their low latency and high capacity.With the massively deployed ... Low Earth Orbit(LEO)mega-constellation networks,exemplified by Starlink,are poised to play a pivotal role in future mobile communication networks,due to their low latency and high capacity.With the massively deployed satellites,ground users now can be covered by multiple visible satellites,but also face complex handover issues with such massive high-mobility satellites in multi-layer.The end-to-end routing is also affected by the handover behavior.In this paper,we propose an intelligent handover strategy dedicated to multi-layer LEO mega-constellation networks.Firstly,an analytic model is utilized to rapidly estimate the end-to-end propagation latency as a key handover factor to construct a multi-objective optimization model.Subsequently,an intelligent handover strategy is proposed by employing the Dueling Double Deep Q Network(D3QN)-based deep reinforcement learning algorithm for single-layer constellations.Moreover,an optimal crosslayer handover scheme is proposed by predicting the latency-jitter and minimizing the cross-layer overhead.Simulation results demonstrate the superior performance of the proposed method in the multi-layer LEO mega-constellation,showcasing reductions of up to 8.2%and 59.5%in end-to-end latency and jitter respectively,when compared to the existing handover strategies. 展开更多
关键词 MULTI-LAYER LEO mega-constellation networks HANDOVER Routing cost dueling Double Deep Q Network(D3QN)
原文传递
Energy Optimization for Autonomous Mobile Robot Path Planning Based on Deep Reinforcement Learning
15
作者 Longfei Gao Weidong Wang Dieyun Ke 《Computers, Materials & Continua》 2026年第1期984-998,共15页
At present,energy consumption is one of the main bottlenecks in autonomous mobile robot development.To address the challenge of high energy consumption in path planning for autonomous mobile robots navigating unknown ... At present,energy consumption is one of the main bottlenecks in autonomous mobile robot development.To address the challenge of high energy consumption in path planning for autonomous mobile robots navigating unknown and complex environments,this paper proposes an Attention-Enhanced Dueling Deep Q-Network(ADDueling DQN),which integrates a multi-head attention mechanism and a prioritized experience replay strategy into a Dueling-DQN reinforcement learning framework.A multi-objective reward function,centered on energy efficiency,is designed to comprehensively consider path length,terrain slope,motion smoothness,and obstacle avoidance,enabling optimal low-energy trajectory generation in 3D space from the source.The incorporation of a multihead attention mechanism allows the model to dynamically focus on energy-critical state features—such as slope gradients and obstacle density—thereby significantly improving its ability to recognize and avoid energy-intensive paths.Additionally,the prioritized experience replay mechanism accelerates learning from key decision-making experiences,suppressing inefficient exploration and guiding the policy toward low-energy solutions more rapidly.The effectiveness of the proposed path planning algorithm is validated through simulation experiments conducted in multiple off-road scenarios.Results demonstrate that AD-Dueling DQN consistently achieves the lowest average energy consumption across all tested environments.Moreover,the proposed method exhibits faster convergence and greater training stability compared to baseline algorithms,highlighting its global optimization capability under energy-aware objectives in complex terrains.This study offers an efficient and scalable intelligent control strategy for the development of energy-conscious autonomous navigation systems. 展开更多
关键词 Autonomous mobile robot deep reinforcement learning energy optimization multi-attention mechanism prioritized experience replay dueling deep Q-Network
在线阅读 下载PDF
A transferable energy management strategy for hybrid electric vehicles via dueling deep deterministic policy gradient 被引量:2
16
作者 Jingyi Xu Zirui Li +3 位作者 Guodong Du Qi Liu Li Gao Yanan Zhao 《Green Energy and Intelligent Transportation》 2022年第2期75-87,共13页
Due to the high mileage and heavy load capabilities of hybrid electric vehicles(HEVs),energy management becomes crucial in improving energy efficiency.To avoid the over-dependence on the hard-crafted models,deep reinf... Due to the high mileage and heavy load capabilities of hybrid electric vehicles(HEVs),energy management becomes crucial in improving energy efficiency.To avoid the over-dependence on the hard-crafted models,deep reinforcement learning(DRL)is utilized to learn more precise energy management strategies(EMSs),but cannot generalize well to different driving situations in most cases.When driving cycles are changed,the neural network needs to be retrained,which is a time-consuming and laborious task.A more efficient transferable way is to combine DRL algorithms with transfer learning,which can utilize the knowledge of the driving cycles in other new driving situations,leading to better initial performance and a faster training process to convergence.In this paper,we propose a novel transferable EMS by incorporating the DRL method and dueling network architecture for HEVs.Simulation results indicate that the proposed method can generalize well to new driving cycles,with comparably initial performance and faster convergence in the training process. 展开更多
关键词 Energy management strategies Deep reinforcement learning dueling network architecture Transfer learning
原文传递
基于深度强化学习的AUV路径规划研究 被引量:1
17
作者 房鹏程 周焕银 董玫君 《机床与液压》 北大核心 2024年第9期134-141,共8页
针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling ... 针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling DQN算法,更改了传统的网络结构以适应AUV路径规划场景。此外,针对路径规划在三维空间中搜寻目标点困难的问题,在原有的优先经验回放池基础上提出了经验蒸馏回放池,使智能体学习失败经验从而提高模型前期的收敛速度和稳定性。仿真实验结果表明:所提出的算法比传统路径规划算法具有更高的实时性,规划路径更短,在收敛速度和稳定性方面都优于标准的DQN算法。 展开更多
关键词 自主水下航行器(AUV) 三维路径规划 深度强化学习 dueling DQN算法
在线阅读 下载PDF
强化学习中动态ε的贪婪探索策略 被引量:1
18
作者 孔燕 曹俊豪 +1 位作者 杨智超 芮烨锋 《信息技术》 2024年第7期60-64,70,共6页
随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(A... 随着强化学习领域的成熟,ε-贪婪方法被广泛运用在强化学习中,例如深度Q网络。但是,对于ε-贪婪方法每次选择动作,它有一定概率选择非最优的动作,导致不断探索。在此背景下,提出了一种动态ε-贪婪方法(DEG)和Dueling Actor-Critic框架(ACDD),能够平衡强化学习中的探索和利用问题。DEG将状态输入到ACDD框架得到优势值来自动调整ε的值,从而保持探索和利用之间的更好平衡。该实验在多臂老虎机任务中对DEG进行测试,将累计平均奖励和最优动作选择率作为评估标准。与一些广泛使用的方法相比,DEG可以达到更高的平均累积奖励和最优动作选择率,并提高了性能。 展开更多
关键词 深度强化学习 探索和利用 动态化ε dueling Actor-Critic框架 多臂老虎机
在线阅读 下载PDF
基于改进奖励机制的深度强化学习目标检测
19
作者 陈盈君 武月 刘力铭 《计算机系统应用》 2024年第10期106-114,共9页
为提高深度强化学习目标检测模型的检测精度和检测速度,对传统模型进行改进.针对特征提取不充分的问题,使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入,来更全面地捕获图像中的关键信息;针对仅使用交并比作为奖励出... 为提高深度强化学习目标检测模型的检测精度和检测速度,对传统模型进行改进.针对特征提取不充分的问题,使用融入通道注意力机制的VGG16特征提取模块作为强化学习的状态输入,来更全面地捕获图像中的关键信息;针对仅使用交并比作为奖励出现的评价不精准问题,使用额外考虑了真实框与预测框中心点距离以及长宽比的改进奖励机制,使奖励更加合理;为加速训练过程的收敛并增强智能体对当前状态和动作评价的客观性,使用Dueling DQN算法进行训练.在PASCAL VOC2007和PASCAL VOC2012数据集上进行实验,实验结果表明,该检测模型仅需4–10个候选框即可检测到目标.与Caicedo-RL相比,准确率提高9.8%,最终预测框和真实框的平均交并比提高5.6%. 展开更多
关键词 目标检测 深度强化学习 VGG16 注意力机制 奖励机制 dueling DQN
在线阅读 下载PDF
特征降维的深度强化学习脑卒中分类预测研究 被引量:5
20
作者 袁甜甜 李凤莲 +2 位作者 张雪英 胡风云 贾文辉 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第3期194-203,共10页
针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数... 针对脑卒中筛查数据集冗余,特征较多,采用传统的分类算法效果较差的问题,为实现脑卒中筛查数据高效的诊断预测,建立了一种混合特征降维的深度强化学习分类预测优化模型。提出一种改进的CFS特征选择算法,并与PCA结合,对原始脑卒中筛查数据集进行特征降维;基于Double DQN和Dueling DQN算法构建深度强化学习分类预测模型,引入一种更具鲁棒性的损失函数,对模型进行了优化,提高了模型的分类效果;对比已有的Naive Bayes、J48、SVM、KNN和DQN模型在公共数据集及脑卒中筛查数据集的实验结果,结果表明:所提模型在特征降维和分类预测2个方面均表现优越,在脑卒中筛查数据集上分类准确率优于对比算法,可为临床上脑卒中疾病的辅助诊断提供建议。 展开更多
关键词 特征降维 改进的CFS Double dueling DQN 损失函数 脑卒中
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部