期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于改进DDQN算法的复杂网络关键节点识别方法
1
作者 江宇楠 刘琳岚 舒坚 《计算机应用研究》 北大核心 2025年第4期1122-1127,共6页
为全面提取节点的全局特征,提高复杂网络关键节点识别结果的准确性,提出一种基于改进DDQN(double deep Q-network)算法的复杂网络关键节点识别方法。通过重构DDQN的初始奖励值、引入回退探索和优先访问方法,改进DDQN算法,提取节点全局特... 为全面提取节点的全局特征,提高复杂网络关键节点识别结果的准确性,提出一种基于改进DDQN(double deep Q-network)算法的复杂网络关键节点识别方法。通过重构DDQN的初始奖励值、引入回退探索和优先访问方法,改进DDQN算法,提取节点全局特征,从而提升全局特征提取的效率和提取结果的准确性。引入聚类系数获取节点的局部特征,通过网络性能均值实验得到全局特征和局部特征的融合参数,对全局特征和局部特征进行融合,得到节点的重要度排序,从而实现关键节点识别。在7个真实网络数据集上的实验结果表明,此方法在基于网络性能均值的评价指标以及SIR模型上均优于对比的基线方法。证明其可以更全面地提取节点全局特征,更准确地识别关键节点。 展开更多
关键词 复杂网络 关键节点 ddqn算法 回退探索 优先访问
在线阅读 下载PDF
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
2
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度Q网络算法 资源优化
在线阅读 下载PDF
云边协同框架下视频处理任务实时调度算法
3
作者 李佳坤 谢雨来 冯丹 《计算机工程与科学》 北大核心 2025年第10期1767-1778,共12页
在云边协同的视频任务处理中,由于存在大量的处理和传输任务,需要考虑任务处理的成功率、任务的处理时间,以保证服务质量。同时,还需要考虑各种资源开销以节省系统运营成本。为了解决上述难题,对云边协同框架下的视频任务调度问题进行... 在云边协同的视频任务处理中,由于存在大量的处理和传输任务,需要考虑任务处理的成功率、任务的处理时间,以保证服务质量。同时,还需要考虑各种资源开销以节省系统运营成本。为了解决上述难题,对云边协同框架下的视频任务调度问题进行了形式化建模,将问题转化为多目标优化问题。针对上述问题,提出了OCES算法,以权衡任务的时延与其在不同节点上产生的开销,并适应不同的动态场景。该算法对相同时间片内的任务进行排序以确定任务优先级,对于每个任务,结合任务信息与当前各边缘节点、云中心节点的状态信息,通过神经网络判断选取Q值最大策略的方法进行调度,用于指定任务的具体执行节点。OCES是基于DDQN的算法,对奖励函数和策略选择方法进行了改进,通过在深度神经网络中结合噪声网络,避免算法过早收敛于局部最优解。相比目前国际先进的CPSA算法,所提出的算法在成功率与完成时间相近的情况下,执行开销在不同平均到达速率与不同任务类型比例的2个场景中分别降低了10.56%与5.85%。 展开更多
关键词 云边协同 任务调度 深度强化学习 ddqn算法 噪声网络
在线阅读 下载PDF
基于强化学习的混合动力船舶能量管理
4
作者 丁金宏 商蕾 陈辉 《武汉理工大学学报》 2025年第3期46-52,共7页
针对内河船舶在复杂工况下能量回收和利用效率低的问题,提出了一种基于双重深度Q网络(DDQN)的强化学习能量管理策略。在MATLAB/Simulink平台上建立船舶动力系统模型,使用内河船舶历史航行数据作为测试工况,并与传统深度Q网络(DQN)算法... 针对内河船舶在复杂工况下能量回收和利用效率低的问题,提出了一种基于双重深度Q网络(DDQN)的强化学习能量管理策略。在MATLAB/Simulink平台上建立船舶动力系统模型,使用内河船舶历史航行数据作为测试工况,并与传统深度Q网络(DQN)算法进行对比。仿真结果表明,基于DDQN的能量管理策略使动力系统的节油率提升至4.39%。相较于DQN算法,DDQN能够更有效适应工况变化,提供更为精准的能量分配决策,展现出更优的燃油经济性、鲁棒性和泛用性。该方法在提高能量管理效率方面具有显著优势。 展开更多
关键词 混合动力船舶 能量管理 强化学习 ddqn算法 多目标优化
原文传递
基于NetLogo的多智能体空战模拟
5
作者 贾宏刚 王伟 承楠 《指挥控制与仿真》 2025年第2期132-140,共9页
计算机模拟是未来智能空战研究的关键途径,但现有的空战模拟系统往往存在不开源、开发难度大、可视化效果差以及难以融合先进人工智能技术等问题,限制了智能空战的深入研究。提出了一种基于NetLogo 3D平台和HubNet模块的3D空战模拟系统... 计算机模拟是未来智能空战研究的关键途径,但现有的空战模拟系统往往存在不开源、开发难度大、可视化效果差以及难以融合先进人工智能技术等问题,限制了智能空战的深入研究。提出了一种基于NetLogo 3D平台和HubNet模块的3D空战模拟系统。首先在NetLogo 3D环境中构建包含地形、飞机和导弹的静态模型,并通过封装函数实现飞机机动和导弹攻击等动态行为。系统不仅支持专家算法,还通过Python扩展引入了DDQN强化学习算法,实现智能体的机动及攻击决策。利用HubNet模块构建了具有C-S架构的空战环境,支持人人对抗、人机对抗和机机对抗多种形式的模拟。实验结果验证了系统的有效性和稳定性,同时实现了实时可视化功能并展现出快速集成智能算法的技术优势。 展开更多
关键词 空战模拟 HubNet C-S架构 ddqn算法
在线阅读 下载PDF
结合APF和改进DDQN的动态环境机器人路径规划方法 被引量:6
6
作者 孙传禹 张雷 +1 位作者 辛山 刘悦 《小型微型计算机系统》 CSCD 北大核心 2023年第9期1940-1946,共7页
针对动态环境的机器人路径规划,人工势场法(APF)易陷入局部最小陷阱;强化学习深度双重Q网络(DDQN)算法存在盲目探索过多、收敛较慢和规划路径不平滑的问题,本文提出一种基于人工势场法和改进DDQN的动态环境机器人路径规划算法(PF-IDDQN)... 针对动态环境的机器人路径规划,人工势场法(APF)易陷入局部最小陷阱;强化学习深度双重Q网络(DDQN)算法存在盲目探索过多、收敛较慢和规划路径不平滑的问题,本文提出一种基于人工势场法和改进DDQN的动态环境机器人路径规划算法(PF-IDDQN).首先,将人工势场法引入改进DDQN以获取初始全局环境信息,并对奖励模块进行优化;其次,在算法状态集中增加4个方向因素,以提高规划路径的平滑度;最后,进行了动态环境下的训练仿真.结果表明,机器人在动态环境中可以在有限探索次数内到达目标位置,验证了本文算法的有效性. 展开更多
关键词 人工势场法 改进ddqn算法 路径规划 动态环境
在线阅读 下载PDF
基于卡尔曼滤波和DDQN算法的无人机机动目标跟踪 被引量:9
7
作者 李琳 张修社 +1 位作者 韩春雷 马浩 《战术导弹技术》 北大核心 2022年第2期98-104,共7页
为使无人机能够自主、准确地预测目标状态,进而对敌方机动目标进行跟踪,基于卡尔曼滤波和深度强化学习DDQN算法提出了一种在线决策算法。通过构建无人机机动目标跟踪模型和马尔科夫决策过程框架,结合卡尔曼滤波对目标状态进行了准确预... 为使无人机能够自主、准确地预测目标状态,进而对敌方机动目标进行跟踪,基于卡尔曼滤波和深度强化学习DDQN算法提出了一种在线决策算法。通过构建无人机机动目标跟踪模型和马尔科夫决策过程框架,结合卡尔曼滤波对目标状态进行了准确预测和更新;然后整合无人机自身状态作为神经网络输入,利用DDQN算法进行针对性训练,实现了无人机对机动目标的自主跟踪控制。仿真实验证明,相较于经典DQN算法,基于DDQN算法训练后的无人机,在跟踪任务中能够对目标保持更长的有效跟踪时间、跟踪距离更近,并保持更稳定的飞行状态,最终实现对机动目标的高效跟踪。 展开更多
关键词 无人机 卡尔曼滤波 深度强化学习 ddqn 机动目标跟踪 自主跟踪控制 在线决策算法
原文传递
基于DDQN算法的混流车间作业动态自适应调度的研究
8
作者 陈晓航 王美林 +1 位作者 吴耿枫 梁凯晴 《现代信息科技》 2021年第24期133-137,141,共6页
大规模生产的混流车间制造系统存在资源规模大、约束多等问题,快速找到合适的调度策略是实现高效生产的关键。为解决传统数学规划算法和启发式算法存在的策略求解效率低、自适应性差等问题,文章提出一种基于DDQN的智能车间动态自适应调... 大规模生产的混流车间制造系统存在资源规模大、约束多等问题,快速找到合适的调度策略是实现高效生产的关键。为解决传统数学规划算法和启发式算法存在的策略求解效率低、自适应性差等问题,文章提出一种基于DDQN的智能车间动态自适应调度方法,对车间作业的自适应调度做了研究。通过“一步一推理”的自适用动态调度,可以高效地匹配合适的调度策略动作。 展开更多
关键词 深度强化学习 ddqn算法 动态自适应调度
在线阅读 下载PDF
基于Double Deep Q Network的无人机隐蔽接敌策略 被引量:10
9
作者 何金 丁勇 高振龙 《电光与控制》 CSCD 北大核心 2020年第7期52-57,共6页
基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络... 基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络的训练速度;设定贪婪系数按照指数下降的方法,解决了传统强化学习的“探索利用窘境”;在势函数奖赏函数设计中引入角度因子,使其更加符合实际作战情况。仿真实验结果表明,DDQN具有较好的收敛性,能有效生成隐蔽接敌策略。 展开更多
关键词 隐蔽接敌策略 空战决策 马尔可夫决策过程 双神经网络结构 ddqn算法
在线阅读 下载PDF
基于深度双Q网络的权值时变路网路径规划 被引量:1
10
作者 何鑫 马萍 《电子测量技术》 北大核心 2023年第17期23-29,共7页
针对传统路径规划方法无法根据城市路网权值时变特性规划最优路径的问题,提出了基于深度双Q网络的权值时变路网路径规划方法。首先,构建权值时变的城市路网模型,其中,路段各时间段权值由随机函数产生。然后,设计了状态特征、交互动作和... 针对传统路径规划方法无法根据城市路网权值时变特性规划最优路径的问题,提出了基于深度双Q网络的权值时变路网路径规划方法。首先,构建权值时变的城市路网模型,其中,路段各时间段权值由随机函数产生。然后,设计了状态特征、交互动作和奖励函数对权值时变路网路径规划问题进行建模,利用DDQN算法训练智能体来学习路网权值时变特性,最后根据建模后的状态特征实现权值时变路网的有效路径规划。实验结果表明,DDQN算法训练的智能体在权值时变路网中具有较好全局寻优能力。相比于滚动路径规划算法,所提方法在不同情况下规划的路径均最优,为权值时变路网的路径规划提供了一种新思路。 展开更多
关键词 路径规划 权值时变路网 ddqn算法 深度强化学习
原文传递
Deep reinforcement learning for UAV swarm rendezvous behavior 被引量:2
11
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep Q network(ddqn)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(DRL) sparse returns
在线阅读 下载PDF
B-Spline-Based Curve Fitting to Cam Pitch Curve Using Reinforcement Learning 被引量:1
12
作者 Zhiwei Lin Tianding Chen +3 位作者 Yingtao Jiang Hui Wang Shuqin Lin Ming Zhu 《Intelligent Automation & Soft Computing》 SCIE 2023年第5期2145-2164,共20页
Directly applying the B-spline interpolation function to process plate cams in a computer numerical control(CNC)system may produce verbose tool-path codes and unsmooth trajectories.This paper is devoted to addressing ... Directly applying the B-spline interpolation function to process plate cams in a computer numerical control(CNC)system may produce verbose tool-path codes and unsmooth trajectories.This paper is devoted to addressing the problem of B-splinefitting for cam pitch curves.Considering that the B-spline curve needs to meet the motion law of the follower to approximate the pitch curve,we use the radial error to quantify the effects of thefitting B-spline curve and the pitch curve.The problem thus boils down to solving a difficult global optimization problem tofind the numbers and positions of the control points or data points of the B-spline curve such that the cumulative radial error between thefitting curve and the original curve is minimized,and this problem is attempted in this paper with a double deep Q-network(DDQN)reinforcement learning(RL)algorithm with data points traceability.Specifically,the RL envir-onment,actions set and current states set are designed to facilitate the search of the data points,along with the design of the reward function and the initialization of the neural network.The experimental results show that when the angle division value of the actions set isfixed,the proposed algorithm can maximize the number of data points of the B-spline curve,and accurately place these data points to the right positions,with the minimum average of radial errors.Our work establishes the theoretical foundation for studying splinefitting using the RL method. 展开更多
关键词 B-splinefitting radial error ddqn RL algorithm global optimal policy
在线阅读 下载PDF
基于深度强化学习的Boost变换器控制策略 被引量:1
13
作者 戴宇轩 崔承刚 《系统仿真学报》 CAS CSCD 北大核心 2023年第5期1109-1119,共11页
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网... 针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 展开更多
关键词 BOOST变换器 深度强化学习 ddqn算法 DDPG算法 协同仿真
原文传递
基于深度强化学习的平滑车速控制系统
14
作者 徐延军 陈建雄 《上海船舶运输科学研究所学报》 2023年第3期35-41,共7页
为调整不同路段的限速值,平滑交通流,从而提升高速公路车辆通行的安全性和效率,针对交通瓶颈区设计一种基于深度强化学习的平滑车速管控系统。该系统主要包含动态限速启动、限速值确定与更新和情报板动态发布等3个模块。将深度强化学习... 为调整不同路段的限速值,平滑交通流,从而提升高速公路车辆通行的安全性和效率,针对交通瓶颈区设计一种基于深度强化学习的平滑车速管控系统。该系统主要包含动态限速启动、限速值确定与更新和情报板动态发布等3个模块。将深度强化学习算法DDQN(Double Deep Q-Network)引入系统中,提出一种基于DDQN的平滑车速控制策略,从目标网络和经验回顾2个维度提升该算法的性能。基于元胞传输模型(Cellular Transmission Model,CTM)对宁夏高速公路某路段的交通流运行场景进行仿真,以车辆总通行时间和车流量为评价指标验证该系统的有效性,结果表明该系统能提高瓶颈区内拥堵路段车辆的通行效率。 展开更多
关键词 平滑车速控制 交通瓶颈区 深度强化学习(ddqn)算法 元胞传输模型(CTM) 神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部