期刊文献+
共找到143篇文章
< 1 2 8 >
每页显示 20 50 100
Improved Double Deep Q Network Algorithm Based on Average Q-Value Estimation and Reward Redistribution for Robot Path Planning
1
作者 Yameng Yin Lieping Zhang +3 位作者 Xiaoxu Shi Yilin Wang Jiansheng Peng Jianchu Zou 《Computers, Materials & Continua》 SCIE EI 2024年第11期2769-2790,共22页
By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning... By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning of mobile robots.However,the traditional DDQN algorithm suffers from sparse rewards and inefficient utilization of high-quality data.Targeting those problems,an improved DDQN algorithm based on average Q-value estimation and reward redistribution was proposed.First,to enhance the precision of the target Q-value,the average of multiple previously learned Q-values from the target Q network is used to replace the single Q-value from the current target Q network.Next,a reward redistribution mechanism is designed to overcome the sparse reward problem by adjusting the final reward of each action using the round reward from trajectory information.Additionally,a reward-prioritized experience selection method is introduced,which ranks experience samples according to reward values to ensure frequent utilization of high-quality data.Finally,simulation experiments are conducted to verify the effectiveness of the proposed algorithm in fixed-position scenario and random environments.The experimental results show that compared to the traditional DDQN algorithm,the proposed algorithm achieves shorter average running time,higher average return and fewer average steps.The performance of the proposed algorithm is improved by 11.43%in the fixed scenario and 8.33%in random environments.It not only plans economic and safe paths but also significantly improves efficiency and generalization in path planning,making it suitable for widespread application in autonomous navigation and industrial automation. 展开更多
关键词 double deep q network path planning average q-value estimation reward redistribution mechanism reward-prioritized experience selection method
在线阅读 下载PDF
基于Double Deep Q Network的无人机隐蔽接敌策略 被引量:10
2
作者 何金 丁勇 高振龙 《电光与控制》 CSCD 北大核心 2020年第7期52-57,共6页
基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络... 基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络的训练速度;设定贪婪系数按照指数下降的方法,解决了传统强化学习的“探索利用窘境”;在势函数奖赏函数设计中引入角度因子,使其更加符合实际作战情况。仿真实验结果表明,DDQN具有较好的收敛性,能有效生成隐蔽接敌策略。 展开更多
关键词 隐蔽接敌策略 空战决策 马尔可夫决策过程 双神经网络结构 ddqn算法
在线阅读 下载PDF
基于LLM和IDDQN的柔性作业车间工件-机器-天车协同调度研究
3
作者 董元发 唐韬 +3 位作者 王昊琪 安友军 李浩平 彭巍 《计算机集成制造系统》 北大核心 2025年第12期4593-4607,共15页
针对风机齿圈制造车间存在的资源冲突频发、作业等待时间长和天车无效行驶距离长等问题,在考虑运输距离和零缓冲区容量等要素下开展了柔性作业车间工件-机-器天车协同调度研究。首先,构建了以最小化最大完工时间、总拖期时间和总空载行... 针对风机齿圈制造车间存在的资源冲突频发、作业等待时间长和天车无效行驶距离长等问题,在考虑运输距离和零缓冲区容量等要素下开展了柔性作业车间工件-机-器天车协同调度研究。首先,构建了以最小化最大完工时间、总拖期时间和总空载行驶时间为目标的多目标数学优化模型;然后,针对风机齿圈制造车间的生产特点提出了五种复合调度规则以适应无缓冲区容量配置下的调度需求;紧接着,设计了一种基于大语言模型(LLM)的调度规则重构方法;最后,提出了基于工序总数的自适应动作选择策略,并以此构建了一种改进的双深度Q网络算法(IDDQN)。实验结果表明:(1)所提复合调度规则、LLM重构方法和自适应动作选策略在IDDQN中发挥着重要作用,且平均贡献度不低于18.89%;(2)通过对比四种先进深度强化学习算法论证了IDDQN算法的优越性,且相对百分比偏差不低于-15.25%;(3)通过敏感性分析论证了贪婪策略参数设置的合理性,且衰减率对调度结果的影响更为显著;(4)将IDDQN算法应用于工程实践,进一步论证了该算法的实际应用价值。 展开更多
关键词 柔性作业车间 工件-机器-天车协同调度 双深度q网络 天车调度 大语言模型
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法 被引量:1
4
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于DDQN-D^(3)PG的无人机空战分层决策
5
作者 王昱 李远鹏 +2 位作者 郭中宇 李硕 任田君 《兵工学报》 北大核心 2025年第8期66-76,共11页
强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Dee... 强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Deep Q-Network,DDQN)与深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的自主决策框架。根据敌我双方在不同态势下的优势差异,设计一系列基于不同奖励函数权重组合的DDPG算法模型,并以此构建底层分布式深度确定性策略梯度(Distributed DDPG,D^(3)PG)决策网络。引入擅长处理离散动作空间的DDQN算法构建上层决策网络,根据实时态势变化自主地选择并切换至最合适的底层策略模型,实现决策的即时调整与优化。为进一步提升红蓝双方无人机近距离空战环境的真实性与挑战性,在DDPG算法的训练中引入自我博弈机制,构建具备高度智能化的敌方决策模型。实验结果表明,新算法在无人机与智能化对手的博弈对抗中胜率最高达96%,相较D^(3)PG等算法提升20%以上,且在多种初始态势下均能稳定战胜对手,充分验证了该方法的有效性和先进性。 展开更多
关键词 无人机空战 强化学习 分层决策 深度双q网络 分布式深度确定性策略梯度
在线阅读 下载PDF
基于改进DDQN的移动机器人路径规划算法
6
作者 王艺霖 张烈平 +1 位作者 尹亚梦 冷忠涛 《桂林航天工业学院学报》 2025年第5期770-783,共14页
针对传统双深度Q网络(Double Deep Q Network, DDQN)算法样本利用率低、奖励稀疏等问题,论文提出了一种基于注意力机制的双采样双深度Q网络算法(Attention Mechanism Double Sampling-Double Deep Q Network, ATDS-DDQN)路径规划算法。... 针对传统双深度Q网络(Double Deep Q Network, DDQN)算法样本利用率低、奖励稀疏等问题,论文提出了一种基于注意力机制的双采样双深度Q网络算法(Attention Mechanism Double Sampling-Double Deep Q Network, ATDS-DDQN)路径规划算法。首先,引入双重采样机制,根据序列累计回报优先级采样,再按照时序误差优先级进行二次采样,提升了样本利用率。其次,设计了含注意力机制的新型网络结构,能更有效地提取关键特征信息,提升训练速度。此外,结合人工势场法设计了新的奖励函数,使机器人每一步都能获得反馈,从而有效缓解奖励稀疏问题。最后,对DDQN、双采样DDQN、自适应探索DDQN和本文提出的ATDS-DDQN算法的路径规划进行了仿真对比实验。实验结果表明,ATDS-DDQN算法获得的奖励值更高,收敛速度更快。 展开更多
关键词 路径规划 ddqn 注意力机制 双重采样机制 人工势场法
在线阅读 下载PDF
基于新型APF-DDQN算法的AUV路径规划研究
7
作者 姚兆烨 黄创霞 《湖南文理学院学报(自然科学版)》 2025年第3期1-8,共8页
存在诸多未知的障碍物以及频繁洋流扰动的海洋环境使自主水下航行器(AUV)在航行过程中极易发生碰撞而导致任务的失败,提高路径规划算法的规划成功率是保证AUV安全航行的前提。本文通过将APF斥力场叠加原理嵌入双重深度Q网络(DDQN)算法框... 存在诸多未知的障碍物以及频繁洋流扰动的海洋环境使自主水下航行器(AUV)在航行过程中极易发生碰撞而导致任务的失败,提高路径规划算法的规划成功率是保证AUV安全航行的前提。本文通过将APF斥力场叠加原理嵌入双重深度Q网络(DDQN)算法框架,重构智能体状态空间表征方式,并创新性地设计基于相邻航迹点距离演变的动态奖励机制,提出一种改进型路径规划算法APF-DDQN。仿真实验表明,APF-DDQN算法有效避免了APF陷入局部最小值的问题,路径规划成功率达到了93.88%,相比于传统的APF算法提高了16.67%,并且所规划路径的长度更短。新型APF-DDQN算法为动态海洋环境下AUV路径规划与自主导航提供可靠解决方案。 展开更多
关键词 自主水下航行器(AUV) 路径规划 双重深度q网络(ddqn) 人工势场(APF)
在线阅读 下载PDF
基于多智能体优先级重放DDQN的UANET路由算法
8
作者 石超 杨竞舟 《无线通信技术》 2025年第2期1-8,共8页
针对多智能体深度Q网络的路由在选路时存在难以获取全局信息,优化目标单一,Q值过估计以及随机采样导致经验利用效率低的问题,提出了一种基于多智能体优先级重放DDQN的UANET路由算法。为了寻求数据包在源节点和目的节点之间的最优传输路... 针对多智能体深度Q网络的路由在选路时存在难以获取全局信息,优化目标单一,Q值过估计以及随机采样导致经验利用效率低的问题,提出了一种基于多智能体优先级重放DDQN的UANET路由算法。为了寻求数据包在源节点和目的节点之间的最优传输路径,将路由选择建模为多智能体部分马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP),对链路剩余容量、节点负载以及链路稳定性进行考量,并引入优先级经验重放技术提高学习效率,利用双深度Q网络DDQN输出路由决策。仿真实验结果表明该算法在复杂网络环境下能够有效提升UANET的服务质量和网络性能,满足未来无人机网络在复杂环境中的应用需求。 展开更多
关键词 无人机自组织网络 ddqn 多智能体 优先级经验重放 路由算法
原文传递
基于双深度Q网络的车联网安全位置路由 被引量:2
9
作者 米洪 郑莹 《无线电通信技术》 北大核心 2025年第1期96-105,共10页
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secur... 作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secure Location Routing,DSLR)。DSLR通过防御灰洞攻击提升消息传递率(Message Delivery Ratio,MDR),并降低消息的传输时延。构建以丢包率和链路连通时间为约束条件的优化问题,利用双深度Q网络算法求解。为了提升DSLR的收敛性,基于连通时间、丢包率和传输时延构建奖励函数,引导智能体选择满足要求的转发节点。采用动态的探索因子机制,平衡探索与利用间的关系,进而加速算法的收敛。仿真结果表明,相比于同类算法,提出的DSLR提升了MDR,减少了传输时延。 展开更多
关键词 车联网 位置路由 灰洞攻击 双深度q网络 动态的探索因子
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:2
10
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DqN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于DDQN的片上网络混合关键性消息调度方法 被引量:2
11
作者 李国梁 李峭 +1 位作者 徐亚军 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第7期1233-1241,共9页
对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将... 对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将虫孔交换机制下的消息调度问题建模为马尔可夫决策过程,建立包含环境、动作、状态、奖励的多层感知调度模型;随机生成多组分布不同的混合关键性消息作为训练样本,采用DDQN算法求解该调度模型;在此基础上,提出并实现了带孔隙DDQN算法,在保证时间触发(TT)消息可调度前提下为速率约束(RC)消息预留用于虫孔交换的时隙。算例研究表明:所提方法的求解时长及TT消息确定性端到端延迟的平均值均低于SMT法;带孔隙DDQN算法的RC消息延迟较不带孔隙DDQN算法和SMT法显著降低。 展开更多
关键词 片上网络(NoC) 时间触发(TT)机制 双深度q网络(ddqn) 混合关键性消息 消息调度
原文传递
基于深度Q网络算法的空天地边缘计算网络资源分配方法
12
作者 李新春 孙鹤源 许驰 《吉林大学学报(工学版)》 北大核心 2025年第7期2418-2424,共7页
由于卫星、无人机和地面站位置不断变化,导致空天地边缘计算网络链路不固定,且网络需要快速响应用户请求,对吞吐量与实时性的要求较高,增加了网络资源分配的难度。对此,本文提出基于深度Q网络算法的空天地边缘计算网络资源分配方法。首... 由于卫星、无人机和地面站位置不断变化,导致空天地边缘计算网络链路不固定,且网络需要快速响应用户请求,对吞吐量与实时性的要求较高,增加了网络资源分配的难度。对此,本文提出基于深度Q网络算法的空天地边缘计算网络资源分配方法。首先,考虑网络拓扑的动态性和资源异构性,建立资源间的通信模型,为资源分配提供基础框架;然后,基于最大吞吐量设计资源分配目标函数,并利用马尔科夫决策模型表述目标函数,将资源分配问题转化为序列决策问题,便于在动态变化的网络环境中作出决策;最后,基于深度Q网络算法求解目标函数,通过强化学习的方式,使算法能够通过与环境的交互学习到最优的资源分配策略,适应网络的实时性和动态性。实验结果表明:应用该方法后,网络累计回报较高,资源任务平均能耗降低,说明该方法实际可行。 展开更多
关键词 空天地一体化网络 深度q网络算法 边缘计算 资源分配 马尔科夫决策模型
原文传递
基于SDN-DDQN的数据中心网络负载均衡算法 被引量:11
13
作者 陈康 朱晓娟 《重庆科技学院学报(自然科学版)》 CAS 2023年第6期72-78,共7页
在数据中心网络(DCN)数据流量激增、大小流突发的情况下,采用传统负载均衡算法存在实时性不足,长期效果难以优化等问题,易造成网络链路拥塞。为此,提出一种基于SDN-DDQN的负载均衡(DDQNLB)算法。此算法利用SDN全局视图的优势,选择交换... 在数据中心网络(DCN)数据流量激增、大小流突发的情况下,采用传统负载均衡算法存在实时性不足,长期效果难以优化等问题,易造成网络链路拥塞。为此,提出一种基于SDN-DDQN的负载均衡(DDQNLB)算法。此算法利用SDN全局视图的优势,选择交换机负载和带宽利用率作为网络状态输入,为DCN中的大流和小流分别设置卷积神经网络(CNN)进行学习和训练,以满足DCN中大流高吞吐量和小流低延时的需求。实验结果表明,与ECMP和Hedera算法相比,DDQNLB算法可有效提高网络吞吐量并保证较低的丢包率。 展开更多
关键词 数据中心网络 软件定义网络 ddqn算法 链路拥塞 负载均衡
在线阅读 下载PDF
基于引导Minimax-DDQN的无人机空战机动决策 被引量:7
14
作者 王昱 任田君 范子琳 《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然... 针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 展开更多
关键词 无人机空战 自主决策 深度强化学习 双重深度q网络 多阶段训练
在线阅读 下载PDF
未知环境下改进DDQN的无人机探索航迹规划研究 被引量:6
15
作者 唐嘉宁 杨昕 +2 位作者 周思达 李罗宇 安城安 《电光与控制》 CSCD 北大核心 2023年第4期23-27,33,共6页
对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以... 对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以无人机视野内的环境信息作为输入,引入长短期记忆网络,输出动作方向的选择;设置探索经验样本优先级,提高训练效率;加入飞行动力学约束,设计合理的状态、动作空间及单步奖励函数。运用所提算法,无人机可以自主规划出一条无碰撞且对环境探索范围大的航迹。仿真实验结果表明:在未知环境下,所提算法得到的探索面积比、单步探索平均奖励值等指标均优于传统的DDQN算法。 展开更多
关键词 无人机 长短期记忆网络 深度双q网络 未知环境探索 航迹规划
在线阅读 下载PDF
基于DDQN的电力传感网资源分配算法 被引量:2
16
作者 朱雪琼 胡成博 +1 位作者 杨景刚 路永玲 《中国电力》 CSCD 北大核心 2023年第11期60-66,共7页
电力传感网可以用于对电力网络的设备工作状态和工作环境等信息实时采集和获取,对于电力网络设施的实时监控与快速响应具有重要作用。针对系统在数据排队时延和丢包率上的特殊要求,提出了一种基于强化学习的电力传感网资源分配方案。在... 电力传感网可以用于对电力网络的设备工作状态和工作环境等信息实时采集和获取,对于电力网络设施的实时监控与快速响应具有重要作用。针对系统在数据排队时延和丢包率上的特殊要求,提出了一种基于强化学习的电力传感网资源分配方案。在资源受限的情况下,通过资源分配算法来优化传感器节点的排队时延和丢包率,并将该优化问题建模为马尔可夫决策过程(Markov decision process,MDP),通过双深度Q网络(double deep Q-learning,DDQN)来对优化目标函数求解。仿真结果与数值分析表明,所提方案在收敛性、排队时延和丢包率等方面的性能均优于基准方案。 展开更多
关键词 电力传感网 资源分配 马尔可夫决策过程 双深度q网络
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划 被引量:1
17
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 DqN算法
原文传递
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
18
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度q网络算法 资源优化
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
19
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 双深度q网络
在线阅读 下载PDF
基于双深度Q网络的多目标遥感产品生产任务调度算法
20
作者 周黎鸣 余汐 +2 位作者 范明虎 左宪禹 乔保军 《电子与信息学报》 北大核心 2025年第8期2819-2829,共11页
遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产... 遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产任务调度算法(MORS),该方法可以有效降低遥感产品的生产时间,并实现节点资源的负载均衡。首先将多个产品输入处理单元生成相应的遥感算法,然后基于价值驱动的并行可执行筛选策略得到算法子集。在此基础上,设计一个能够感知遥感算法特征和节点特征的深度神经网络模型。通过综合遥感算法生产时间和节点资源状态设计奖励函数,采用DDQN算法训练模型,以确定待处理子集中每个遥感算法的最佳执行节点。在不同数量产品的仿真实验中,将MORS与先来先服务(FCFS)、轮询调度(RR)、遗传算法(GA)以及基于深度Q网络(DQN)的任务调度算法和基于双流深度Q网络(Dueling DQN)的任务调度算法进行全面对比。实验结果表明,MORS在遥感任务调度上相较于其它算法具有有效性和优越性。 展开更多
关键词 遥感任务调度 多目标优化 双深度q网络
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部