期刊文献+
共找到341篇文章
< 1 2 18 >
每页显示 20 50 100
基于改进DQN的多深度四向穿梭车仓储系统货位分配研究
1
作者 武照云 赵彬彬 +3 位作者 张中伟 李丽 高增恩 金涛 《现代电子技术》 北大核心 2026年第2期178-186,共9页
为解决多深度四向穿梭车仓储系统中因货位分配不合理带来的出库作业效率低、穿梭车拥堵等问题,提出一种基于改进DQN的货位分配优化方法。首先,根据多深度四向穿梭车仓储系统货位分配问题的特点,构建以出入库效率、货架稳定性、巷道作业... 为解决多深度四向穿梭车仓储系统中因货位分配不合理带来的出库作业效率低、穿梭车拥堵等问题,提出一种基于改进DQN的货位分配优化方法。首先,根据多深度四向穿梭车仓储系统货位分配问题的特点,构建以出入库效率、货架稳定性、巷道作业均衡性为目标的优化模型;然后,定义改进DQN的状态-动作空间、奖励函数等,引入优先经验回放机制以增大优质样本的权重并降低数据的相关性,同时引入决斗网络机制区分各动作的相对优势,更好地估计Q值,进而提升复杂高维度状态空间中的训练效率和稳定性。仿真实验结果表明,改进DQN算法的优化结果和收敛速度均优于遗传算法(GA)和DQN,其性能比GA提高了3.91%~18.18%,比DQN提高了3.66%~15.09%,而且在大规模货架和批量订单场景中优势更加显著。 展开更多
关键词 四向穿梭车 货位分配 改进dqn 优先经验回放 决斗网络 状态空间
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:2
2
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于改进DQN算法的船舶全局路径规划研究 被引量:1
3
作者 关巍 曲胜 +1 位作者 张显库 胡彤博 《中国舰船研究》 北大核心 2025年第1期107-114,共8页
[目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网... [目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网络结构,使其对特定状态及其动作的价值评估更加准确,并同时具备一定的探索性和泛化性。[结果]实验结果表明,在马尼拉附近海域环境下,相比于A^(*)算法和DQN算法,改进算法在路径长度上分别缩短了1.9%和1.0%,拐点数量上分别减少了62.5%和25%。[结论]实验结果验证了改进DQN算法能够更经济、更合理地规划出有效路径。 展开更多
关键词 船舶 运动规划 dqn算法 优先经验回放(PER)
在线阅读 下载PDF
基于DQN和圆拟合的机器人手眼标定方法
4
作者 储昭碧 何沣奕 +1 位作者 高金辉 彭乐峰 《仪器仪表学报》 北大核心 2025年第8期330-340,共11页
近年来,随着工业机器人技术的不断发展,机器人搭载激光测距仪实现多姿态测量的应用场景和对手眼标定的需求逐渐增多,对手眼标定技术的精度提出了更高要求,而传统标定方法往往依赖专用标定物或传感器,操作复杂且成本较高。故提出了一种... 近年来,随着工业机器人技术的不断发展,机器人搭载激光测距仪实现多姿态测量的应用场景和对手眼标定的需求逐渐增多,对手眼标定技术的精度提出了更高要求,而传统标定方法往往依赖专用标定物或传感器,操作复杂且成本较高。故提出了一种基于深度Q网络(DQN)算法和圆轮廓拟合的机器人手眼标定方法。利用DQN算法控制机器人末端两关节带动激光测距仪运动,使得激光测距仪返回值最小,在此基础上,建立机械臂运动学模型计算得到此时光点的理论坐标值。通过设定关节一的多个角度值,使光点在目标平面形成一个圆轨迹,对实际采集的光点坐标值进行圆拟合,建立等式约束下的优化模型,求解得到手眼标定的参数值。基于MATLAB平台模拟仿真,对该方法的可行性进行了验证,分析了角度参数和位移参数初始值对标定结果的影响和抗激光测距噪声干扰的性能。与其他标定方法进行对比,结果显示该方法具有更高的精度。搭建了实验系统,利用该方法求解标定参数,实验结果表明,标定后的系统扫描实验误差不大于0.5 mm,满足工业应用的精度要求。该方法无需额外昂贵的标定物,仅依靠激光测距仪的单测量量和几何约束,显著降低了标定成本与操作难度,同时具备良好的抗噪声性能,能实现工业现场高精度标定。 展开更多
关键词 手眼标定 强化学习 dqn算法 圆拟合
原文传递
基于分层自主决策和DQN的自适应牧羊控制方法 被引量:1
5
作者 赵江 杨智 +1 位作者 池沛 王英勋 《控制与决策》 北大核心 2025年第5期1523-1532,共10页
牧羊控制方法逐渐被应用于机场鸟群驱离、无人机放牧、空地协同监视和引导等大规模集群运动协调问题.以牧羊无人机为例,提出基于分层自主决策和深度Q网络(DQN)的自适应牧羊控制方法.首先,考虑离群个体活跃度衰减等因素,建立牧羊控制问... 牧羊控制方法逐渐被应用于机场鸟群驱离、无人机放牧、空地协同监视和引导等大规模集群运动协调问题.以牧羊无人机为例,提出基于分层自主决策和深度Q网络(DQN)的自适应牧羊控制方法.首先,考虑离群个体活跃度衰减等因素,建立牧羊控制问题的感知和运动模型;然后,针对个体滞留和离群问题,提出基于全局质心的弧形轨迹(GCM-Arc)控制方法和避障策略,提升羊群受控个体占比;最后,建立分层自主决策模型,结合GCM-Arc控制方法与深度Q网络,提出分层GCM-Arc控制方法,以实现控制模式自适应切换和参数自适应调整.数字仿真实验表明,所提出方法在牧羊任务时间、无人机总路程、羊群平均半径、单体离群率和牧羊任务成功率方面,明显优于经典的两种牧羊控制方法. 展开更多
关键词 牧羊控制 无人机 分层自主决策 深度Q网络 自适应 路径规划
原文传递
基于改进DQN的无人机三维路径规划研究
6
作者 孔建国 赵恬恬 +2 位作者 梁海军 刘晨宇 马珂昕 《舰船电子工程》 2025年第7期36-40,共5页
为了解决DQN在未知环境下无人机路径规划中存在收敛性差及成功率较低的问题,提出了一种基于NoisyNet-DuelingDQN的路径规划方法。该方法在传统的DQN算法基础上引入了竞争网络,以更好地评估每一动作的价值;其次,通过给神经网络的权重引... 为了解决DQN在未知环境下无人机路径规划中存在收敛性差及成功率较低的问题,提出了一种基于NoisyNet-DuelingDQN的路径规划方法。该方法在传统的DQN算法基础上引入了竞争网络,以更好地评估每一动作的价值;其次,通过给神经网络的权重引入噪声,从而可以更好地探索空间,寻找最优策略。最后通过仿真实验证明:1)该算法在不同环境下相比传统的DQN和NoisyNet-DQN算法具有更好的收敛性和更高的奖励值;2)经60000次后,该算法成功率较DQN提高12.16%,较NoisyNet-DQN提高3.6%。 展开更多
关键词 深度强化学习 路径规划 dqn算法 NoisyNet-Duelingdqn
在线阅读 下载PDF
基于ROS仿真系统的DQN算法改进
7
作者 逄焕利 刘增福 赵景辉 《长春工业大学学报》 2025年第2期163-170,共8页
针对DQN算法收敛速度慢的问题进行优化,提出了DP-DQN算法,并将其应用于移动无人车,以学习最佳的决策。首先在Dueling DQN的基础上改进其网络结构,将网络结构分解为价值函数和优势函数,从而实现了动作选择和动作评价的解耦,加快了收敛速... 针对DQN算法收敛速度慢的问题进行优化,提出了DP-DQN算法,并将其应用于移动无人车,以学习最佳的决策。首先在Dueling DQN的基础上改进其网络结构,将网络结构分解为价值函数和优势函数,从而实现了动作选择和动作评价的解耦,加快了收敛速度,使其具有更好的泛化性能,能够更快地学习最优决策。其次,加入优先经验回放机制,提高样本利用率。最后针对训练阶段的不稳定性和环境状态空间的稀疏性,在DQN的即时奖励基础上增加了缩放日志策略,使无人车进行更多的探索。仿真实验结果表明,该方法在静态无障碍环境下均比DQN、Dueling DQN具有更高的学习效率和更快的收敛,该无人车能够在未知动态环境下成功到达局部目标位置。 展开更多
关键词 DP-dqn dqn Dueling dqn 优先经验回放
在线阅读 下载PDF
基于DQN的智能农机路径跟踪控制研究 被引量:3
8
作者 杨琰 张瑞瑞 +4 位作者 张林焕 陈立平 伊铜川 吴明齐 岳晓龙 《农机化研究》 北大核心 2025年第3期28-34,共7页
针对复杂路面条件下无人化农业作业车辆路径跟踪控制精度低、控制器参数整定困难的问题,设计了一种基于深度强化学习的路径跟踪控制算法。基于五层BP神经网络构建了DQN(Deep Q-Network)路径跟踪控制器,实现了网络的轻量化和高度的可移... 针对复杂路面条件下无人化农业作业车辆路径跟踪控制精度低、控制器参数整定困难的问题,设计了一种基于深度强化学习的路径跟踪控制算法。基于五层BP神经网络构建了DQN(Deep Q-Network)路径跟踪控制器,实现了网络的轻量化和高度的可移植性。控制器网络的输入状态在采用车辆当前舵角、车辆与目标路径上控制点间横向距离偏差的基础上,引入车辆前方设定距离内的平均路径曲率,实现了车辆转向性能的提高。分别开展了仿真和田间试验,验证了所设计深度强化学习网络算法的收敛性,并对比了有路径曲率输入和无路径曲率输入两种网络的路径跟踪控制性能。仿真试验中,基于正弦曲线对两种路径跟踪控制方法进行训练,两种路径跟踪控制网络收敛后的平均跟踪距离误差为0.008 4、0.017 7 m。在间隔6 m的U型路径上进行田间测试试验,结果显示:有路径曲率输入的模型性能显著优于无路径曲率输入的模型,两种路径跟踪控制方法在路径上平均跟踪距离误差为0.038 9、0.068 4 m。验证了该路径跟踪控制方法有效性,可满足农业作业车辆路径跟踪控制需求。 展开更多
关键词 路径跟踪 深度强化学习 dqn 路径曲率 智能农机
在线阅读 下载PDF
基于改进DQN的Kinova三指机械臂抓取策略优化
9
作者 韩玉兰 李聪 +1 位作者 柳子涵 田旭航 《物联网技术》 2025年第23期52-58,共7页
针对深度Q网络(DQN)在复杂控制任务实施过程中面临的Q值估计过高、计算复杂、记忆功能缺失和探索不足等问题,提出一种改进的DQN模型,旨在提升Kinova三指机械臂的抓取性能。在PyBullet仿真环境中获取动态图像输入,并引入门控循环单元(GRU... 针对深度Q网络(DQN)在复杂控制任务实施过程中面临的Q值估计过高、计算复杂、记忆功能缺失和探索不足等问题,提出一种改进的DQN模型,旨在提升Kinova三指机械臂的抓取性能。在PyBullet仿真环境中获取动态图像输入,并引入门控循环单元(GRU)以捕捉和处理时间序列信息,从而增强模型对历史状态的记忆能力。同时,采用NoisyLinear层替代传统epsilon-greedy策略中的随机噪声,显著提升了策略的探索效率与多样性。在模型训练过程中,结合噪声线性探索机制和经验回放机制,实验结果表明,改进后的模型可显著提高机械臂的抓取成功率。 展开更多
关键词 dqn GRU Q值 NoisyLinear 机械臂抓取 经验回放
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划 被引量:1
10
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 dqn算法
原文传递
基于DQN的快速路合流区CAV换道决策方法 被引量:1
11
作者 程国柱 王文志 +1 位作者 陈永胜 徐亮 《哈尔滨工业大学学报》 北大核心 2025年第3期98-109,共12页
为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒... 为解决快速路合流区的交通拥堵和安全问题,保障智能网联车辆(connected and automated vehicle,CAV)在快速路合流区高效、安全、舒适、稳定地行驶,采用深度强化学习方法之DQN(deep q-network)算法,综合考虑车辆行驶安全性、高效性与舒适性等因素,建立了用于神经网络训练的奖励函数模型,提出了快速路合流区CAV换道决策方法。应用开源自动驾驶仿真场景highway-env,搭建快速路合流区仿真环境,对其主线路段及匝道进行仿真试验。仿真试验结果表明:相比于智能驾驶人模型(intelligent driver model,IDM)和highway-env中换道决策方法,采用所提出的快速路合流区CAV换道决策方法时,CAV能够快速达到22.22 m/s行驶的稳定状态,同时避免频繁换道及加减速行为,并优化了车头时距,很大程度上提高了交通流运行效率和乘车舒适性。研究成果在智能交通领域中,可为智能网联环境下城市快速路合流区的车辆通行提供了一种新方法,为未来智能网联车辆的换道提供了决策方法。 展开更多
关键词 智能交通 CAV换道决策方法 dqn 智能网联车辆 深度强化学习 快速路合流区
在线阅读 下载PDF
基于DQN的无人机主动捕捉拦阻回收方法
12
作者 王一峰 彭一明 +2 位作者 李龙 魏小辉 聂宏 《航空学报》 北大核心 2025年第12期226-239,共14页
使用拦阻索回收无人机时,钩索成功率是评估其回收安全性与可靠性的关键指标之一。针对无人机回收区域受限的情况下如何提高钩索成功率这一问题,提出了一种无人机主动捕捉拦阻回收方法,通过在车载移动平台的拦阻系统在人工智能计算结果... 使用拦阻索回收无人机时,钩索成功率是评估其回收安全性与可靠性的关键指标之一。针对无人机回收区域受限的情况下如何提高钩索成功率这一问题,提出了一种无人机主动捕捉拦阻回收方法,通过在车载移动平台的拦阻系统在人工智能计算结果的引导下主动移动至最佳钩索位置来提高无人机的钩索成功率。首先,建立无人机着陆回收拦阻动力学模型来计算钩索失效边界,使用支持向量机(SVM)方法对动力学仿真结果进行识别,并生成无人机钩索分析代理模型。然后,将移索过程简化成马尔可夫决策过程,使用移索装置模型作为训练环境,六自由度无人机着陆下滑模型生成数据集,钩索分析代理模型构成奖励函数,采用深度Q网络(DQN)训练得到能够实时计算并引导拦阻装置向最佳钩索位置主动调整的移索策略。仿真结果显示,在回收空间受限的情况下,与传统被动式拦阻回收方法相比,使用主动捕捉拦阻方法钩索成功率提高了29%。该方法有效提高了无人机着陆回收的安全性和可靠性,为智能化回收技术的发展提供了新的理论支持和实践方案。 展开更多
关键词 固定翼无人机 着陆回收 钩索成功率 dqn 人工智能
原文传递
基于改进DQN的直升机CGF突防路径规划 被引量:2
13
作者 许强强 李克奇 +2 位作者 岳忠奇 杨艳良 岳晋忠 《火力与指挥控制》 北大核心 2025年第1期104-112,共9页
针对直升机CGF突防雷达阵地时的路径规划问题,提出了一种基于改进DQN的直升机CGF的突防路径规划方法。结合了人工势场原理和专家经验,对传统的深度强化学习DQN算法进行了多方面的改进,以适应动态和不可预知的战场环境。通过在MetaSim仿... 针对直升机CGF突防雷达阵地时的路径规划问题,提出了一种基于改进DQN的直升机CGF的突防路径规划方法。结合了人工势场原理和专家经验,对传统的深度强化学习DQN算法进行了多方面的改进,以适应动态和不可预知的战场环境。通过在MetaSim仿真作战平台中进行实验,证明该方法在路径规划的平均所需时间上比传统A*和DIJKSTRA算法以及传统DQN算法有所提高,同时在路径长度和成功率上也显示出显著的改进。 展开更多
关键词 路径规划 计算机生成兵力 深度强化学习 人工势场 dqn
在线阅读 下载PDF
基于随机博弈和DQN算法的云原生移动目标防御决策方法
14
作者 耿致远 许泽轩 张恒巍 《信息网络安全》 北大核心 2025年第6期967-976,共10页
随着云原生系统中集成应用组件的复杂性不断提高,且大部分组件为开源代码,系统组件的漏洞利用已成为影响云原生安全的主要威胁之一。移动目标防御作为一种先进的动态防御机制,被广泛认为是应对该问题的有效手段。然而,在实际应用中,频... 随着云原生系统中集成应用组件的复杂性不断提高,且大部分组件为开源代码,系统组件的漏洞利用已成为影响云原生安全的主要威胁之一。移动目标防御作为一种先进的动态防御机制,被广泛认为是应对该问题的有效手段。然而,在实际应用中,频繁且无序的配置转换可能会使系统运行效率和服务质量降低,进而对资源有限系统的安全性造成不利影响。为解决云原生环境中随机攻防场景下的移动目标防御决策问题,文章结合博弈理论的建模能力与深度强化学习的求解优势,提出一种基于随机博弈和DQN算法的云原生移动目标防御决策方法,实现在大规模策略空间中进行高效最优移动目标防御策略的决策,并通过仿真实验验证了文章所提方法的有效性和实用性。 展开更多
关键词 云原生 漏洞利用 移动目标防御 随机博弈 dqn算法
在线阅读 下载PDF
基于DQN算法的决策和执行分离的交通信号控制
15
作者 谢梦伟 陈光 +2 位作者 汪洋 胡鸿翔 侯北平 《浙江科技大学学报》 2025年第5期526-536,共11页
【目的】为了解决交通信号强化学习控制中相位决策即执行机制可能带来的交通安全隐患问题,提出一种相位决策和执行分离的深度强化学习交通信号控制方法。【方法】首先,引入相位决策和执行分离的策略,在当前交通信号相位持续时间临近结... 【目的】为了解决交通信号强化学习控制中相位决策即执行机制可能带来的交通安全隐患问题,提出一种相位决策和执行分离的深度强化学习交通信号控制方法。【方法】首先,引入相位决策和执行分离的策略,在当前交通信号相位持续时间临近结束的过渡期,智能体(交通信号控制器)基于道路交叉口的实时车流状况信息做出下一相位决策,并在当前相位持续时间结束时执行下一相位,以此在相位决策和执行的过渡期引入信号预警;然后,在深度Q网络(deep Q-network,DQN)强化学习的框架上设计并实现算法;最后,搭建仿真试验环境对算法进行验证。【结果】过渡期时长为5 s时,本研究提出的方法在多种交通流量条件下均表现优异,与DQN控制策略相比,本研究方法在高、中、低及混合车流量场景中车辆平均行驶时间分别减少3.58%、9.85%、12.19%和3.44%,在高、中、低车流量场景中平均等待时间分别减少7.35%、13.92%和45.36%,在混合车流量场景中无明显优势;相较于竞争架构深度Q-network(dueling deep Q-network,Dueling DQN)控制策略,车辆平均行驶时间分别降低3.09%、7.74%、16.25%和25.15%,平均等待时间分别降低5.24%、10.96%、51.94%和57.87%;与柔性演员-评论家(soft actor-critic,SAC)控制策略相比,车辆平均行驶时间分别降低7.86%、14.19%、24.01%和9.50%,平均等待时间分别降低22.94%、28.47%、63.50%和12.17%。【结论】本研究有效提高了车辆通行效率,同时通过在相位切换过渡期引入信号预警,使驾驶者能够提前知晓信号变化,避免做出错误决策,从而减少交通安全隐患,对实现智能交通和交通安全有现实意义。 展开更多
关键词 交通信号控制 深度强化学习 dqn 决策和执行分离
在线阅读 下载PDF
基于强化学习的社交网络影响力最小化模型GCNNs-DDQN
16
作者 陈梓彦 袁得嵛 +1 位作者 孙泽宇 程佳琳 《计算机科学与探索》 北大核心 2025年第9期2458-2469,共12页
谣言传播迅速且危害较大,因此,利用辟谣信息对谣言传播进行抑制对于社会稳定有重要意义。为了使已经传播的谣言的影响力尽快减小并消失,提出一种结合图神经网络GCN、GNN、Double DQN的动态辟谣GCNNs-DDQN模型。使用GCN获得节点作为源节... 谣言传播迅速且危害较大,因此,利用辟谣信息对谣言传播进行抑制对于社会稳定有重要意义。为了使已经传播的谣言的影响力尽快减小并消失,提出一种结合图神经网络GCN、GNN、Double DQN的动态辟谣GCNNs-DDQN模型。使用GCN获得节点作为源节点和目标节点的初始节点嵌入,结合节点状态向量,将其作为输入传入4个耦合的GNN以获得复杂节点嵌入,进行Q值计算,同时使用Double DQN结合Q值与奖励,优化4个耦合的GNN和Double DQN模型的权重参数,从而实现根据谣言传播的情况,选择当前情况下影响力最大的节点发布辟谣信息。使用10个不同大小的真实数据集来评估模型的辟谣效果,并对各参数对辟谣效果的影响进行分析,最后进行消融实验。实验结果表明,GCNNs-DDQN模型具有更强的泛化能力,能够应用于不同的社交网络中,相较于传统算法,辟谣时间最高可缩短2个单位时间;对谣言有利的参数值的增加,会加大辟谣难度,增加阻断时间,而对辟谣信息有利的因素,则不一定会减少阻断时间,反而可能阻碍辟谣。 展开更多
关键词 谣言影响力最小化 图神经网络 Double dqn
在线阅读 下载PDF
基于树采样Dueling-DQN的无人机三维避障路径规划方案
17
作者 胡明 曹圣昊 +3 位作者 王杨 范祥祥 于得水 焦奕康 《小型微型计算机系统》 北大核心 2025年第7期1616-1624,共9页
深度Q网络(Deep Q-Network, DQN)已被广泛应用于无人机避障路径规划任务,针对传统DQN采样过程中由于存在样本信息利用不充分,导致收敛速度慢的问题,提出了一种基于树采样Dueling-DQN的无人机三维避障路径规划方案.首先描述了三维空间内... 深度Q网络(Deep Q-Network, DQN)已被广泛应用于无人机避障路径规划任务,针对传统DQN采样过程中由于存在样本信息利用不充分,导致收敛速度慢的问题,提出了一种基于树采样Dueling-DQN的无人机三维避障路径规划方案.首先描述了三维空间内的无人机避障规划网络系统模型、仿真环境模型;然后设计了避障算法、电量消耗算法、无人机动作合集等;最后提出结合树采样的Dueling-DQN算法,算法使用二叉树结构存储优先级样本,结合奖励函数、贪婪策略等获得无人机的避障飞行路径.实验结果显示,与传统DQN和DDQN(Double Deep Q-Network, DDQN)相比,方案在获得较优规划路径的同时,取得了最高的平均奖励值.在10种障碍物难度等级的条件下,与A~*、RRT、蚁群算法相比,到达目标点所需的步数最少,且碰撞概率最低.仿真结果验证了所提无人机三维避障路径规划方案在处理三维空间内无人机避障规划问题的有效性. 展开更多
关键词 无人机 三维空间避障 路径规划 树采样 dqn算法
在线阅读 下载PDF
基于RCED-DQN的滚动轴承故障诊断方法研究
18
作者 李家声 王亭强 +3 位作者 周杰 马萍 张宏立 苑茹 《组合机床与自动化加工技术》 北大核心 2025年第2期188-193,199,共7页
为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架... 为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架将一维卷积网络和残差编解码器结合,进行无监督预训练拓宽网络结构,挖掘了网络深层特征,解决了深度强化学习网络难以训练、模型难以收敛的问题;然后,采用预训练后的编码器作为特征提取器,与所设计的特征分类器相连接构建DQN算法的Q网络。通过智能体与环境的交互学习出最佳诊断策略,实现了滚动轴承端到端的故障诊断。实验结果证明,融合残差编解码器的深度Q网络在实验数据集下有效地提取故障特征,提高了诊断决策能力;在不同方法、不同工况下的对比实验结果也验证了所提方法的准确性、有效性和泛化性。 展开更多
关键词 深度强化学习 故障诊断 残差编解码器 dqn网络
在线阅读 下载PDF
一种基于DQN的卫星通信车载站中频功率智能控制方法
19
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度Q学习网络(dqn)
在线阅读 下载PDF
基于DQN的低轨卫星网络多目标智能路由算法
20
作者 罗宗屹 金世超 +1 位作者 董涛 殷杰 《天地一体化信息网络》 2025年第1期16-23,共8页
近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难... 近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难度大等挑战,提出基于深度Q网络(DQN)的多目标智能路由算法,通过设计多目标奖励函数,实现了时延、丢包率、负载均衡多目标的性能优化。在时延方面,本算法优于最短通路优先算法;在流量分布指数和丢包率方面,本算法相较于最短通路优先算法与Dijkstra算法分别提高14%和10%以上。最后,阐述所提智能路由算法在多种应用场景中的使用方法。 展开更多
关键词 低轨卫星网络 路由算法 深度Q网络
在线阅读 下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部