期刊文献+
共找到129篇文章
< 1 2 7 >
每页显示 20 50 100
基于改进DQN的多深度四向穿梭车仓储系统货位分配研究
1
作者 武照云 赵彬彬 +3 位作者 张中伟 李丽 高增恩 金涛 《现代电子技术》 北大核心 2026年第2期178-186,共9页
为解决多深度四向穿梭车仓储系统中因货位分配不合理带来的出库作业效率低、穿梭车拥堵等问题,提出一种基于改进DQN的货位分配优化方法。首先,根据多深度四向穿梭车仓储系统货位分配问题的特点,构建以出入库效率、货架稳定性、巷道作业... 为解决多深度四向穿梭车仓储系统中因货位分配不合理带来的出库作业效率低、穿梭车拥堵等问题,提出一种基于改进DQN的货位分配优化方法。首先,根据多深度四向穿梭车仓储系统货位分配问题的特点,构建以出入库效率、货架稳定性、巷道作业均衡性为目标的优化模型;然后,定义改进DQN的状态-动作空间、奖励函数等,引入优先经验回放机制以增大优质样本的权重并降低数据的相关性,同时引入决斗网络机制区分各动作的相对优势,更好地估计Q值,进而提升复杂高维度状态空间中的训练效率和稳定性。仿真实验结果表明,改进DQN算法的优化结果和收敛速度均优于遗传算法(GA)和DQN,其性能比GA提高了3.91%~18.18%,比DQN提高了3.66%~15.09%,而且在大规模货架和批量订单场景中优势更加显著。 展开更多
关键词 四向穿梭车 货位分配 改进dqn 优先经验回放 决斗网络 状态空间
在线阅读 下载PDF
融合GAT与可解释DQN的SQL注入攻击检测模型
2
作者 邓钰洋 芦天亮 +2 位作者 李知皓 孟昊阳 马远声 《信息网络安全》 北大核心 2026年第1期150-167,共18页
随着Web应用的持续演进及数据库驱动系统的广泛部署,SQL注入攻击作为一种高度隐蔽且破坏力强的网络攻击方式,依然是当前Web安全防护的重要研究对象。针对SQL注入语句结构复杂、语义多样以及攻击样本稀缺等问题,文章提出一种融合图结构... 随着Web应用的持续演进及数据库驱动系统的广泛部署,SQL注入攻击作为一种高度隐蔽且破坏力强的网络攻击方式,依然是当前Web安全防护的重要研究对象。针对SQL注入语句结构复杂、语义多样以及攻击样本稀缺等问题,文章提出一种融合图结构建模与强化学习机制的SQL注入攻击检测方法。该方法将SQL语句建模为图结构,通过改进的图注意力网络GAT融合节点与边的语法特征,并构建了包含4个专门化检测专家的多智能体强化学习框架,实现动态集成决策。同时,该检测方法设计了针对SQL注入攻击混淆特点的对抗样本生成模块,增强了模型对复杂变形攻击的识别能力。此外,结合LIME与SHAP方法对检测结果进行可解释性分析,增强系统的透明度与实用性。实验结果表明,该方法在保持较低计算资源消耗的前提下,有效缓解了样本不均衡与攻击模式多样化引起的检测偏差问题。该方法在综合性SQL注入数据集上的检测准确率达0.955,AUC值为0.978,显著优于现有基线方法,为SQL注入攻击的智能化检测提供了有效解决方案。 展开更多
关键词 SQL注入攻击检测 图注意力网络 多智能体 dqn 可解释强化学习
在线阅读 下载PDF
基于Stackelberg博弈和DQN的多类型蜜罐部署方案
3
作者 韩雨 陈元恒 +2 位作者 王一川 马艺宾 黑新宏 《通信学报》 北大核心 2026年第2期261-273,共13页
针对传统蜜罐部署方案在面对日益复杂的网络环境时存在动态适应性差、诱捕能力不足等问题,基于CIC-IDS-2017攻击数据集,提出了一种基于Stackelberg博弈和深度Q网络(DQN)的多类型动态蜜罐部署方案。首先,通过对攻击行为时间−状态建模捕... 针对传统蜜罐部署方案在面对日益复杂的网络环境时存在动态适应性差、诱捕能力不足等问题,基于CIC-IDS-2017攻击数据集,提出了一种基于Stackelberg博弈和深度Q网络(DQN)的多类型动态蜜罐部署方案。首先,通过对攻击行为时间−状态建模捕捉攻击行为的时序演化特征,结合马尔可夫预测实现对未知攻击的预判。其次,根据不同蜜罐(低交互、中交互、高交互和拟态蜜罐)的部署成本和诱捕能力的差异性,设计融合攻防效益的综合效用函数。最后,通过Stackelberg博弈主导角色动态切换与DQN策略优化,实现固定资源约束下的最优部署,进一步提升策略的动态适应性。仿真结果表明,所提方案能够有效应对攻击行为的时序演变状态,并在固定资源约束下给出最优的蜜罐部署方案,提升了防御系统的自适应性。此外,该方案对时序攻击的诱捕成功率达96%(在拟态蜜罐情况下),防御效用较传统方案提升35%,且能动态适应多类型攻击场景。 展开更多
关键词 网络安全 蜜罐诱捕 动态部署 动态博弈 深度Q网络
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:8
4
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划 被引量:1
5
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 dqn算法
原文传递
一种基于DQN的卫星通信车载站中频功率智能控制方法 被引量:1
6
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度Q学习网络(dqn)
在线阅读 下载PDF
基于DQN的无人机主动捕捉拦阻回收方法
7
作者 王一峰 彭一明 +2 位作者 李龙 魏小辉 聂宏 《航空学报》 北大核心 2025年第12期226-239,共14页
使用拦阻索回收无人机时,钩索成功率是评估其回收安全性与可靠性的关键指标之一。针对无人机回收区域受限的情况下如何提高钩索成功率这一问题,提出了一种无人机主动捕捉拦阻回收方法,通过在车载移动平台的拦阻系统在人工智能计算结果... 使用拦阻索回收无人机时,钩索成功率是评估其回收安全性与可靠性的关键指标之一。针对无人机回收区域受限的情况下如何提高钩索成功率这一问题,提出了一种无人机主动捕捉拦阻回收方法,通过在车载移动平台的拦阻系统在人工智能计算结果的引导下主动移动至最佳钩索位置来提高无人机的钩索成功率。首先,建立无人机着陆回收拦阻动力学模型来计算钩索失效边界,使用支持向量机(SVM)方法对动力学仿真结果进行识别,并生成无人机钩索分析代理模型。然后,将移索过程简化成马尔可夫决策过程,使用移索装置模型作为训练环境,六自由度无人机着陆下滑模型生成数据集,钩索分析代理模型构成奖励函数,采用深度Q网络(DQN)训练得到能够实时计算并引导拦阻装置向最佳钩索位置主动调整的移索策略。仿真结果显示,在回收空间受限的情况下,与传统被动式拦阻回收方法相比,使用主动捕捉拦阻方法钩索成功率提高了29%。该方法有效提高了无人机着陆回收的安全性和可靠性,为智能化回收技术的发展提供了新的理论支持和实践方案。 展开更多
关键词 固定翼无人机 着陆回收 钩索成功率 dqn 人工智能
原文传递
基于DQN的低轨卫星网络多目标智能路由算法
8
作者 罗宗屹 金世超 +1 位作者 董涛 殷杰 《天地一体化信息网络》 2025年第1期16-23,共8页
近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难... 近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难度大等挑战,提出基于深度Q网络(DQN)的多目标智能路由算法,通过设计多目标奖励函数,实现了时延、丢包率、负载均衡多目标的性能优化。在时延方面,本算法优于最短通路优先算法;在流量分布指数和丢包率方面,本算法相较于最短通路优先算法与Dijkstra算法分别提高14%和10%以上。最后,阐述所提智能路由算法在多种应用场景中的使用方法。 展开更多
关键词 低轨卫星网络 路由算法 深度Q网络
在线阅读 下载PDF
基于强化学习的社交网络影响力最小化模型GCNNs-DDQN
9
作者 陈梓彦 袁得嵛 +1 位作者 孙泽宇 程佳琳 《计算机科学与探索》 北大核心 2025年第9期2458-2469,共12页
谣言传播迅速且危害较大,因此,利用辟谣信息对谣言传播进行抑制对于社会稳定有重要意义。为了使已经传播的谣言的影响力尽快减小并消失,提出一种结合图神经网络GCN、GNN、Double DQN的动态辟谣GCNNs-DDQN模型。使用GCN获得节点作为源节... 谣言传播迅速且危害较大,因此,利用辟谣信息对谣言传播进行抑制对于社会稳定有重要意义。为了使已经传播的谣言的影响力尽快减小并消失,提出一种结合图神经网络GCN、GNN、Double DQN的动态辟谣GCNNs-DDQN模型。使用GCN获得节点作为源节点和目标节点的初始节点嵌入,结合节点状态向量,将其作为输入传入4个耦合的GNN以获得复杂节点嵌入,进行Q值计算,同时使用Double DQN结合Q值与奖励,优化4个耦合的GNN和Double DQN模型的权重参数,从而实现根据谣言传播的情况,选择当前情况下影响力最大的节点发布辟谣信息。使用10个不同大小的真实数据集来评估模型的辟谣效果,并对各参数对辟谣效果的影响进行分析,最后进行消融实验。实验结果表明,GCNNs-DDQN模型具有更强的泛化能力,能够应用于不同的社交网络中,相较于传统算法,辟谣时间最高可缩短2个单位时间;对谣言有利的参数值的增加,会加大辟谣难度,增加阻断时间,而对辟谣信息有利的因素,则不一定会减少阻断时间,反而可能阻碍辟谣。 展开更多
关键词 谣言影响力最小化 图神经网络 Double dqn
在线阅读 下载PDF
基于联合DQN的定向能系统火力智能决策建模仿真方法
10
作者 屈长虹 王俊杰 +3 位作者 王坤 崔清勇 陈蒋洋 王鑫鹏 《系统仿真学报》 北大核心 2025年第5期1256-1265,共10页
针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建... 针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建模仿真方法。以定向能系统的状态、无人机集群的状态和定向能系统部署区域的状态构造状态空间,利用联合机制共享各个装备的状态信息以及同类型装备的网络参数,设计威胁评估机制提高泛化性,并建立动作屏蔽机制屏蔽无效动作,有效解决了多智能体因状态和动作维度灾难引起的训练发散、收敛缓慢等问题,提高基于联合DQN网络学习效率和泛化性。根据仿真实验结果,该方法优于传统基于规则的方法,验证了该方法的可行性与实用性,为兼容多种部署方案的定向能系统反无人机集群火力智能决策提供一个新思路。 展开更多
关键词 定向能系统 反无人机集群 深度Q网络 联合机制 威胁评估机制 动作屏蔽机制
原文传递
基于DQN的改进NSGA-Ⅱ求解多目标柔性作业车间调度问题
11
作者 郑国梁 张朝阳 +1 位作者 吉卫喜 于俊杰 《现代制造工程》 北大核心 2025年第9期1-11,共11页
提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexi... 提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexible Job shop Scheduling Problem,MO-FJSP)。通过在DQN算法中定义马尔可夫决策过程和奖励函数,考虑选定设备对完工时间和能源消耗的局部及全局影响,提高了NSGA-Ⅱ初始种群的质量。改进的NSGA-Ⅱ通过精英保留策略确保运行过程中的种群多样性,并保留了进化过程中优质的个体。将DQN算法生成的初始解与贪婪算法生成的初始解进行对比,验证了DQN算法在生成初始解方面的有效性。此外,将基于DQN算法的改进NSGA-Ⅱ与其他启发式算法在标准案例和仿真案例上进行对比,证明了其在解决MO-FJSP方面的有效性。 展开更多
关键词 深度Q网络算法 多目标柔性作业车间调度问题 奖励函数 非支配排序遗传算法
在线阅读 下载PDF
Relay Selection for Cooperative NOMA Systems Based on the DQN Algorithm
12
作者 Ying Lin Yongwei Xiong +2 位作者 Xingbo Gong Sifei Zhang Yinhang Tian 《Journal of Beijing Institute of Technology》 2025年第3期303-315,共13页
In this study,a solution based on deep Q network(DQN)is proposed to address the relay selection problem in cooperative non-orthogonal multiple access(NOMA)systems.DQN is particularly effective in addressing problems w... In this study,a solution based on deep Q network(DQN)is proposed to address the relay selection problem in cooperative non-orthogonal multiple access(NOMA)systems.DQN is particularly effective in addressing problems within dynamic and complex communication environ-ments.By formulating the relay selection problem as a Markov decision process(MDP),the DQN algorithm employs deep neural networks(DNNs)to learn and make decisions through real-time interactions with the communication environment,aiming to minimize the system’s outage proba-bility.During the learning process,the DQN algorithm progressively acquires channel state infor-mation(CSI)between two nodes,thereby minimizing the system’s outage probability until a sta-ble level is reached.Simulation results show that the proposed method effectively reduces the out-age probability by 82%compared to the two-way relay selection scheme(Two-Way)when the sig-nal-to-noise ratio(SNR)is 30 dB.This study demonstrates the applicability and advantages of the DQN algorithm in cooperative NOMA systems,providing a novel approach to addressing real-time relay selection challenges in dynamic communication environments. 展开更多
关键词 deep Q network(dqn) cooperative non-orthogonal multiple access(NOMA) relay selection outage probability
在线阅读 下载PDF
面向无人艇的T-DQN智能避障算法研究 被引量:18
13
作者 周治国 余思雨 +3 位作者 于家宝 段俊伟 陈龙 陈俊龙 《自动化学报》 EI CAS CSCD 北大核心 2023年第8期1645-1655,共11页
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛... 无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶. 展开更多
关键词 无人艇 强化学习 智能避障 深度Q网络
在线阅读 下载PDF
面向煤矿救援机器人路径规划的重回放机制DQN算法 被引量:1
14
作者 吴东领 魏群 刘心军 《煤炭技术》 CAS 北大核心 2023年第5期237-240,共4页
煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机... 煤矿井下环境复杂,现有煤矿救援机器人路径规划算法存在收敛性差及平滑性能弱等不足。提出一种面向煤矿救援机器人路径规划的重回放机制和动态贪婪策略结合的DQN算法。首先,通过DQN网络训练得到的输出值替换原来的Q值表,并采用重回放机制,从而避免陷入维度灾难和改善算法的收敛性;其次,采用一种动态的贪婪搜索策略,选择出当前最佳的执行动作,打破样本之间的关联性,不断探索环境信息选择最优路径。最后,利用拓展邻域的位移模式,缩短搜索距离从而提升规划路径的平滑性能。仿真结果表明:提出的算法性能对比DQN算法在煤矿救援机器人规划路径指标性能上获得较大提升,从而保障了煤矿救援机器人实际作业时的高效运行。 展开更多
关键词 煤矿救援机器人 路径规划 dqn网络训练 重回放机制 收敛性
原文传递
基于二阶时序差分误差的双网络DQN算法 被引量:5
15
作者 陈建平 周鑫 +3 位作者 傅启明 高振 付保川 吴宏杰 《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 展开更多
关键词 深度强化学习 马尔科夫决策过程 深度Q网络 二阶时序差分误差 梯度下降
在线阅读 下载PDF
一种基于DQN的去中心化优先级卸载策略 被引量:1
16
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度Q网络
在线阅读 下载PDF
基于DQN的机场地服人员动态排班研究 被引量:3
17
作者 余明晖 周鼎新 汤皓泉 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第11期66-71,共6页
针对在繁忙机场的地面服务人员动态排班问题,提出一种基于深度Q网络(DQN)的排班方法.首先以最大化任务执行率和最小化员工工作时间作为目标,建立了优化模型;然后根据目标提出了两种不同的排班方法,进而采用DQN算法,根据生成的航班动态数... 针对在繁忙机场的地面服务人员动态排班问题,提出一种基于深度Q网络(DQN)的排班方法.首先以最大化任务执行率和最小化员工工作时间作为目标,建立了优化模型;然后根据目标提出了两种不同的排班方法,进而采用DQN算法,根据生成的航班动态数据,提取6个状态特征作为网络的输入,并拟定合适的奖励机制,使得训练后的模型能够动态地选择最好的分配方法,最终对模型进行求解.将该方法应用在连续7 d的实际排班中,实验结果表明:与人工排班结果相比,该方法平均每天的任务完成数增加了0.43个,员工的总工作时长减少了53 min,DQN的排班结果具有明显优势,提高了机场地面服务的工作效率. 展开更多
关键词 机场人员排班 动态排班 机场安全保障 深度强化学习 深度Q网络 多目标优化
原文传递
超密集网络中基于改进DQN的接入选择算法 被引量:4
18
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度Q网络(dqn) 优先经验回放 负载均衡
在线阅读 下载PDF
彩虹深度Q网络联合二分法的有源-无源干扰策略优化方法
19
作者 杨佳瑞 王丽洋 +4 位作者 张奇正 仲秦 岑熙 许朵 李亚超 《雷达学报(中英文)》 北大核心 2026年第1期331-344,共14页
智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与... 智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与二分法,构建了一种有源-无源干扰策略联合优化方法,利用Rainbow DQN决策有无源干扰样式序列,并以二分法动态搜索无源干扰最优释放位置;考虑干扰对抗环境的非完全观测性,该文进一步设计了基于雷达波束指向点变化的奖励函数,以准确反馈干扰策略的有效性。通过仿真模拟干扰机-雷达对抗实验,与深度Q网络(DQN)、决策优势分离深度Q网络(Dueling DQN)及双重深度Q网络(Double DQN)3种主流干扰决策模型相比,所提方法的Q值平均提升2.43倍,奖励均值平均提升3.09倍,无源干扰位置决策步数缩短50%以上。实验结果表明,该文所提基于Rainbow DQN与二分法的有源-无源干扰策略联合优化方法,可实现有源干扰与无源干扰联合有效决策,进一步提高了干扰策略决策模型适用性,显著提升了干扰机电子对抗中的价值。 展开更多
关键词 彩虹深度Q网络 二分法 有源-无源干扰决策 波束指向点 非完全观测环境
在线阅读 下载PDF
基于Double-DQN的中央空调系统节能优化运行 被引量:16
20
作者 闫军威 黄琪 周璇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期135-144,共10页
针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产... 针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产生的维数灾难和值函数过估计问题.然后以广州市某办公建筑中央空调系统为研究对象,建立该系统的TRNSYS仿真平台,对算法的有效性进行了验证.仿真结果表明:该方法在满足室内热舒适性要求的前提下,以系统能耗最小为目标,实现了系统的节能优化运行;与PID控制和单神经网络强化学习控制方法相比,系统总能耗分别降低5.36%和1.64%,非舒适性时间总占比分别减少2.32%和1.37%.文中提出的强化学习控制器能够有效解决值函数过估计问题,具有良好的鲁棒性,自适应优化能力和较好的节能效果,可为建筑节能提供新思路. 展开更多
关键词 中央空调系统 节能优化运行 强化学习 Double-dqn算法 双神经网络结构 总能耗 室内热舒适性
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部