期刊文献+
共找到139篇文章
< 1 2 7 >
每页显示 20 50 100
Improved Double Deep Q Network Algorithm Based on Average Q-Value Estimation and Reward Redistribution for Robot Path Planning
1
作者 Yameng Yin Lieping Zhang +3 位作者 Xiaoxu Shi Yilin Wang Jiansheng Peng Jianchu Zou 《Computers, Materials & Continua》 SCIE EI 2024年第11期2769-2790,共22页
By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning... By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning of mobile robots.However,the traditional DDQN algorithm suffers from sparse rewards and inefficient utilization of high-quality data.Targeting those problems,an improved DDQN algorithm based on average Q-value estimation and reward redistribution was proposed.First,to enhance the precision of the target Q-value,the average of multiple previously learned Q-values from the target Q network is used to replace the single Q-value from the current target Q network.Next,a reward redistribution mechanism is designed to overcome the sparse reward problem by adjusting the final reward of each action using the round reward from trajectory information.Additionally,a reward-prioritized experience selection method is introduced,which ranks experience samples according to reward values to ensure frequent utilization of high-quality data.Finally,simulation experiments are conducted to verify the effectiveness of the proposed algorithm in fixed-position scenario and random environments.The experimental results show that compared to the traditional DDQN algorithm,the proposed algorithm achieves shorter average running time,higher average return and fewer average steps.The performance of the proposed algorithm is improved by 11.43%in the fixed scenario and 8.33%in random environments.It not only plans economic and safe paths but also significantly improves efficiency and generalization in path planning,making it suitable for widespread application in autonomous navigation and industrial automation. 展开更多
关键词 double deep q network path planning average q-value estimation reward redistribution mechanism reward-prioritized experience selection method
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法 被引量:1
2
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于DDQN-D^(3)PG的无人机空战分层决策
3
作者 王昱 李远鹏 +2 位作者 郭中宇 李硕 任田君 《兵工学报》 北大核心 2025年第8期66-76,共11页
强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Dee... 强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Deep Q-Network,DDQN)与深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的自主决策框架。根据敌我双方在不同态势下的优势差异,设计一系列基于不同奖励函数权重组合的DDPG算法模型,并以此构建底层分布式深度确定性策略梯度(Distributed DDPG,D^(3)PG)决策网络。引入擅长处理离散动作空间的DDQN算法构建上层决策网络,根据实时态势变化自主地选择并切换至最合适的底层策略模型,实现决策的即时调整与优化。为进一步提升红蓝双方无人机近距离空战环境的真实性与挑战性,在DDPG算法的训练中引入自我博弈机制,构建具备高度智能化的敌方决策模型。实验结果表明,新算法在无人机与智能化对手的博弈对抗中胜率最高达96%,相较D^(3)PG等算法提升20%以上,且在多种初始态势下均能稳定战胜对手,充分验证了该方法的有效性和先进性。 展开更多
关键词 无人机空战 强化学习 分层决策 深度双q网络 分布式深度确定性策略梯度
在线阅读 下载PDF
基于新型APF-DDQN算法的AUV路径规划研究
4
作者 姚兆烨 黄创霞 《湖南文理学院学报(自然科学版)》 2025年第3期1-8,共8页
存在诸多未知的障碍物以及频繁洋流扰动的海洋环境使自主水下航行器(AUV)在航行过程中极易发生碰撞而导致任务的失败,提高路径规划算法的规划成功率是保证AUV安全航行的前提。本文通过将APF斥力场叠加原理嵌入双重深度Q网络(DDQN)算法框... 存在诸多未知的障碍物以及频繁洋流扰动的海洋环境使自主水下航行器(AUV)在航行过程中极易发生碰撞而导致任务的失败,提高路径规划算法的规划成功率是保证AUV安全航行的前提。本文通过将APF斥力场叠加原理嵌入双重深度Q网络(DDQN)算法框架,重构智能体状态空间表征方式,并创新性地设计基于相邻航迹点距离演变的动态奖励机制,提出一种改进型路径规划算法APF-DDQN。仿真实验表明,APF-DDQN算法有效避免了APF陷入局部最小值的问题,路径规划成功率达到了93.88%,相比于传统的APF算法提高了16.67%,并且所规划路径的长度更短。新型APF-DDQN算法为动态海洋环境下AUV路径规划与自主导航提供可靠解决方案。 展开更多
关键词 自主水下航行器(AUV) 路径规划 双重深度q网络(ddqn) 人工势场(APF)
在线阅读 下载PDF
基于多智能体优先级重放DDQN的UANET路由算法
5
作者 石超 杨竞舟 《无线通信技术》 2025年第2期1-8,共8页
针对多智能体深度Q网络的路由在选路时存在难以获取全局信息,优化目标单一,Q值过估计以及随机采样导致经验利用效率低的问题,提出了一种基于多智能体优先级重放DDQN的UANET路由算法。为了寻求数据包在源节点和目的节点之间的最优传输路... 针对多智能体深度Q网络的路由在选路时存在难以获取全局信息,优化目标单一,Q值过估计以及随机采样导致经验利用效率低的问题,提出了一种基于多智能体优先级重放DDQN的UANET路由算法。为了寻求数据包在源节点和目的节点之间的最优传输路径,将路由选择建模为多智能体部分马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP),对链路剩余容量、节点负载以及链路稳定性进行考量,并引入优先级经验重放技术提高学习效率,利用双深度Q网络DDQN输出路由决策。仿真实验结果表明该算法在复杂网络环境下能够有效提升UANET的服务质量和网络性能,满足未来无人机网络在复杂环境中的应用需求。 展开更多
关键词 无人机自组织网络 ddqn 多智能体 优先级经验重放 路由算法
原文传递
基于Double Deep Q Network的无人机隐蔽接敌策略 被引量:10
6
作者 何金 丁勇 高振龙 《电光与控制》 CSCD 北大核心 2020年第7期52-57,共6页
基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络... 基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络的训练速度;设定贪婪系数按照指数下降的方法,解决了传统强化学习的“探索利用窘境”;在势函数奖赏函数设计中引入角度因子,使其更加符合实际作战情况。仿真实验结果表明,DDQN具有较好的收敛性,能有效生成隐蔽接敌策略。 展开更多
关键词 隐蔽接敌策略 空战决策 马尔可夫决策过程 双神经网络结构 ddqn算法
在线阅读 下载PDF
基于双深度Q网络的车联网安全位置路由 被引量:1
7
作者 米洪 郑莹 《无线电通信技术》 北大核心 2025年第1期96-105,共10页
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secur... 作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secure Location Routing,DSLR)。DSLR通过防御灰洞攻击提升消息传递率(Message Delivery Ratio,MDR),并降低消息的传输时延。构建以丢包率和链路连通时间为约束条件的优化问题,利用双深度Q网络算法求解。为了提升DSLR的收敛性,基于连通时间、丢包率和传输时延构建奖励函数,引导智能体选择满足要求的转发节点。采用动态的探索因子机制,平衡探索与利用间的关系,进而加速算法的收敛。仿真结果表明,相比于同类算法,提出的DSLR提升了MDR,减少了传输时延。 展开更多
关键词 车联网 位置路由 灰洞攻击 双深度q网络 动态的探索因子
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:1
8
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DqN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
9
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度q网络算法 资源优化
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
10
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 双深度q网络
在线阅读 下载PDF
基于双深度Q网络的多目标遥感产品生产任务调度算法
11
作者 周黎鸣 余汐 +2 位作者 范明虎 左宪禹 乔保军 《电子与信息学报》 北大核心 2025年第8期2819-2829,共11页
遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产... 遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产任务调度算法(MORS),该方法可以有效降低遥感产品的生产时间,并实现节点资源的负载均衡。首先将多个产品输入处理单元生成相应的遥感算法,然后基于价值驱动的并行可执行筛选策略得到算法子集。在此基础上,设计一个能够感知遥感算法特征和节点特征的深度神经网络模型。通过综合遥感算法生产时间和节点资源状态设计奖励函数,采用DDQN算法训练模型,以确定待处理子集中每个遥感算法的最佳执行节点。在不同数量产品的仿真实验中,将MORS与先来先服务(FCFS)、轮询调度(RR)、遗传算法(GA)以及基于深度Q网络(DQN)的任务调度算法和基于双流深度Q网络(Dueling DQN)的任务调度算法进行全面对比。实验结果表明,MORS在遥感任务调度上相较于其它算法具有有效性和优越性。 展开更多
关键词 遥感任务调度 多目标优化 双深度q网络
在线阅读 下载PDF
基于DDQN改进方法的“斗地主”策略 被引量:1
12
作者 孔燕 吴晓聪 +1 位作者 芮烨锋 史鸿远 《信息技术》 2024年第5期66-72,80,共8页
基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU... 基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。 展开更多
关键词 深度强化学习 double deep q-learning 计算机博弈 Gate Recurrent Unit神经网络 大规模离散动作空间
在线阅读 下载PDF
一种面向博弈场景的PPO-Dueling DQN策略优化方法
13
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度q网络 PPO算法 网络攻防博弈 效能评估
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划
14
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 DqN算法
原文传递
无人机自组织网络中双态自适应的随机双Q学习路由算法
15
作者 孙晨 万家梅 +1 位作者 余苏奇 舒坚 《计算机应用研究》 北大核心 2025年第9期2800-2809,共10页
无人机自组织网络(UANETs)的路由算法设计,需要考虑其应对动态网络变化的能力,以实现快速路径选择和确保数据传输的高效性和可靠性。针对现有的基于强化学习的路由算法应对高速动态网络变化的能力有限等问题,提出了一种双态自适应的随机... 无人机自组织网络(UANETs)的路由算法设计,需要考虑其应对动态网络变化的能力,以实现快速路径选择和确保数据传输的高效性和可靠性。针对现有的基于强化学习的路由算法应对高速动态网络变化的能力有限等问题,提出了一种双态自适应的随机双Q学习路由算法(2k-adaDQL)。该算法采用随机交替更新的双Q函数来降低传统Q学习中的高估偏差。为满足UANETs路由服务质量的多样化需求,结合多目标优化技术,设计了基于链路可靠性和时延相关的复合奖励函数,以提高算法的服务质量。针对高速动态变化的网络环境,创新性地提出了双态自适应参数调整机制,该机制依据网络状态的不同阶段,设计了灵活参数自适应调控策略,确保算法能够及时应对不同的网络环境变化,从而提升路由算法的适应性。仿真结果显示,与AODV、QMR、QGeo、LN-AODV等算法相比,2k-adaDQL算法在包到达率、平均端到端延时、最大端到端时延三个关键性能指标上均有提升;同时该算法的可扩展性和稳定性也得到了验证,其收敛速度明显快于基本算法QMR。这一结果表明,2k-adaDQL算法在UANETs环境中,特别是在节点分布稀疏且速度变化大的场景下,具有更优的性能表现。 展开更多
关键词 无人机自组织网络 路由算法 双态自适应策略 随机双q学习 多目标优化技术
在线阅读 下载PDF
基于改进双深度Q网络的微电网群能量管理策略
16
作者 何锦涛 王灿 +5 位作者 王明超 程本涛 刘于正 常文涵 王锐 余涵 《中国电力》 北大核心 2025年第10期14-26,共13页
针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并... 针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并裁剪高TD目标值,抑制价值函数的高估偏差,提高决策精度。然后,采用动态贪婪策略,基于当前状态计算所有可能动作的值函数,避免频繁选择最大Q值动作,使智能体充分探索动作以防止过早收敛。最后,以包含3个子微网的微电网群进行算例验证。仿真结果表明,相较于基于模型预测控制和传统双深度Q网络的能量管理策略,本文所提方法具有更好的寻优效果和收敛性,同时将系统运行成本分别降低了44.62%和26.39%。 展开更多
关键词 微电网群 能量管理 改进双深度q网络 裁剪双q 贪婪策略
在线阅读 下载PDF
Routing cost-integrated intelligent handover strategy for multi-layer LEO mega-constellation networks
17
作者 Zhenglong YIN Quan CHEN +2 位作者 Lei YANG Yong ZHAO Xiaoqian CHEN 《Chinese Journal of Aeronautics》 2025年第6期487-500,共14页
Low Earth Orbit(LEO)mega-constellation networks,exemplified by Starlink,are poised to play a pivotal role in future mobile communication networks,due to their low latency and high capacity.With the massively deployed ... Low Earth Orbit(LEO)mega-constellation networks,exemplified by Starlink,are poised to play a pivotal role in future mobile communication networks,due to their low latency and high capacity.With the massively deployed satellites,ground users now can be covered by multiple visible satellites,but also face complex handover issues with such massive high-mobility satellites in multi-layer.The end-to-end routing is also affected by the handover behavior.In this paper,we propose an intelligent handover strategy dedicated to multi-layer LEO mega-constellation networks.Firstly,an analytic model is utilized to rapidly estimate the end-to-end propagation latency as a key handover factor to construct a multi-objective optimization model.Subsequently,an intelligent handover strategy is proposed by employing the Dueling Double Deep Q Network(D3QN)-based deep reinforcement learning algorithm for single-layer constellations.Moreover,an optimal crosslayer handover scheme is proposed by predicting the latency-jitter and minimizing the cross-layer overhead.Simulation results demonstrate the superior performance of the proposed method in the multi-layer LEO mega-constellation,showcasing reductions of up to 8.2%and 59.5%in end-to-end latency and jitter respectively,when compared to the existing handover strategies. 展开更多
关键词 MULTI-LAYER LEO mega-constellation networks HANDOVER Routing cost Dueling double deep q network(D3qN)
原文传递
基于DQN的改进NSGA-Ⅱ求解多目标柔性作业车间调度问题
18
作者 郑国梁 张朝阳 +1 位作者 吉卫喜 于俊杰 《现代制造工程》 北大核心 2025年第9期1-11,共11页
提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexi... 提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexible Job shop Scheduling Problem,MO-FJSP)。通过在DQN算法中定义马尔可夫决策过程和奖励函数,考虑选定设备对完工时间和能源消耗的局部及全局影响,提高了NSGA-Ⅱ初始种群的质量。改进的NSGA-Ⅱ通过精英保留策略确保运行过程中的种群多样性,并保留了进化过程中优质的个体。将DQN算法生成的初始解与贪婪算法生成的初始解进行对比,验证了DQN算法在生成初始解方面的有效性。此外,将基于DQN算法的改进NSGA-Ⅱ与其他启发式算法在标准案例和仿真案例上进行对比,证明了其在解决MO-FJSP方面的有效性。 展开更多
关键词 深度q网络算法 多目标柔性作业车间调度问题 奖励函数 非支配排序遗传算法
在线阅读 下载PDF
蚁群优化算法驱动的DQN多任务协同调度方法研究
19
作者 李华峰 王富臣 +1 位作者 江广冀 宋悦 《电气自动化》 2025年第1期5-7,共3页
针对传统调度方法存在调度效率低下、资源利用率低等问题,提出了蚁群优化算法驱动的深度Q网络方法。通过结合蚁群优化算法的全局搜索能力和深度Q网络在学习调度决策方面的优势,能够在复杂环境下实现高效多任务调度。仿真试验结果表明,... 针对传统调度方法存在调度效率低下、资源利用率低等问题,提出了蚁群优化算法驱动的深度Q网络方法。通过结合蚁群优化算法的全局搜索能力和深度Q网络在学习调度决策方面的优势,能够在复杂环境下实现高效多任务调度。仿真试验结果表明,与普通的Q学习和深度Q网络相比,所提方法在收敛速度和效率方面更有优势。 展开更多
关键词 深度q网络 蚁群算法 q学习 任务调度
在线阅读 下载PDF
Improved Double Deep Q Network-Based Task Scheduling Algorithm in Edge Computing for Makespan Optimization 被引量:3
20
作者 Lei Zeng Qi Liu +1 位作者 Shigen Shen Xiaodong Liu 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2024年第3期806-817,共12页
Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical ... Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical challenge.This study proposes an edge task scheduling approach based on an improved Double Deep Q Network(DQN),which is adopted to separate the calculations of target Q values and the selection of the action in two networks.A new reward function is designed,and a control unit is added to the experience replay unit of the agent.The management of experience data are also modified to fully utilize its value and improve learning efficiency.Reinforcement learning agents usually learn from an ignorant state,which is inefficient.As such,this study proposes a novel particle swarm optimization algorithm with an improved fitness function,which can generate optimal solutions for task scheduling.These optimized solutions are provided for the agent to pre-train network parameters to obtain a better cognition level.The proposed algorithm is compared with six other methods in simulation experiments.Results show that the proposed algorithm outperforms other benchmark methods regarding makespan. 展开更多
关键词 edge computing task scheduling reinforcement learning MAKESPAN double deep q network(DqN)
原文传递
上一页 1 2 7 下一页 到第
使用帮助 返回顶部