期刊文献+
共找到137篇文章
< 1 2 7 >
每页显示 20 50 100
Relay Selection for Cooperative NOMA Systems Based on the DQN Algorithm
1
作者 Ying Lin Yongwei Xiong +2 位作者 Xingbo Gong Sifei Zhang Yinhang Tian 《Journal of Beijing Institute of Technology》 2025年第3期303-315,共13页
In this study,a solution based on deep Q network(DQN)is proposed to address the relay selection problem in cooperative non-orthogonal multiple access(NOMA)systems.DQN is particularly effective in addressing problems w... In this study,a solution based on deep Q network(DQN)is proposed to address the relay selection problem in cooperative non-orthogonal multiple access(NOMA)systems.DQN is particularly effective in addressing problems within dynamic and complex communication environ-ments.By formulating the relay selection problem as a Markov decision process(MDP),the DQN algorithm employs deep neural networks(DNNs)to learn and make decisions through real-time interactions with the communication environment,aiming to minimize the system’s outage proba-bility.During the learning process,the DQN algorithm progressively acquires channel state infor-mation(CSI)between two nodes,thereby minimizing the system’s outage probability until a sta-ble level is reached.Simulation results show that the proposed method effectively reduces the out-age probability by 82%compared to the two-way relay selection scheme(Two-Way)when the sig-nal-to-noise ratio(SNR)is 30 dB.This study demonstrates the applicability and advantages of the DQN algorithm in cooperative NOMA systems,providing a novel approach to addressing real-time relay selection challenges in dynamic communication environments. 展开更多
关键词 deep q network(dqn) cooperative non-orthogonal multiple access(NOMA) relay selection outage probability
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:2
2
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划 被引量:1
3
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 dqn算法
原文传递
基于DQN的无人机主动捕捉拦阻回收方法
4
作者 王一峰 彭一明 +2 位作者 李龙 魏小辉 聂宏 《航空学报》 北大核心 2025年第12期226-239,共14页
使用拦阻索回收无人机时,钩索成功率是评估其回收安全性与可靠性的关键指标之一。针对无人机回收区域受限的情况下如何提高钩索成功率这一问题,提出了一种无人机主动捕捉拦阻回收方法,通过在车载移动平台的拦阻系统在人工智能计算结果... 使用拦阻索回收无人机时,钩索成功率是评估其回收安全性与可靠性的关键指标之一。针对无人机回收区域受限的情况下如何提高钩索成功率这一问题,提出了一种无人机主动捕捉拦阻回收方法,通过在车载移动平台的拦阻系统在人工智能计算结果的引导下主动移动至最佳钩索位置来提高无人机的钩索成功率。首先,建立无人机着陆回收拦阻动力学模型来计算钩索失效边界,使用支持向量机(SVM)方法对动力学仿真结果进行识别,并生成无人机钩索分析代理模型。然后,将移索过程简化成马尔可夫决策过程,使用移索装置模型作为训练环境,六自由度无人机着陆下滑模型生成数据集,钩索分析代理模型构成奖励函数,采用深度Q网络(DQN)训练得到能够实时计算并引导拦阻装置向最佳钩索位置主动调整的移索策略。仿真结果显示,在回收空间受限的情况下,与传统被动式拦阻回收方法相比,使用主动捕捉拦阻方法钩索成功率提高了29%。该方法有效提高了无人机着陆回收的安全性和可靠性,为智能化回收技术的发展提供了新的理论支持和实践方案。 展开更多
关键词 固定翼无人机 着陆回收 钩索成功率 dqn 人工智能
原文传递
一种面向博弈场景的PPO-Dueling DQN策略优化方法
5
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度q网络 PPO算法 网络攻防博弈 效能评估
在线阅读 下载PDF
一种基于DQN的卫星通信车载站中频功率智能控制方法
6
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度q学习网络(dqn)
在线阅读 下载PDF
基于DQN的改进NSGA-Ⅱ求解多目标柔性作业车间调度问题
7
作者 郑国梁 张朝阳 +1 位作者 吉卫喜 于俊杰 《现代制造工程》 北大核心 2025年第9期1-11,共11页
提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexi... 提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexible Job shop Scheduling Problem,MO-FJSP)。通过在DQN算法中定义马尔可夫决策过程和奖励函数,考虑选定设备对完工时间和能源消耗的局部及全局影响,提高了NSGA-Ⅱ初始种群的质量。改进的NSGA-Ⅱ通过精英保留策略确保运行过程中的种群多样性,并保留了进化过程中优质的个体。将DQN算法生成的初始解与贪婪算法生成的初始解进行对比,验证了DQN算法在生成初始解方面的有效性。此外,将基于DQN算法的改进NSGA-Ⅱ与其他启发式算法在标准案例和仿真案例上进行对比,证明了其在解决MO-FJSP方面的有效性。 展开更多
关键词 深度q网络算法 多目标柔性作业车间调度问题 奖励函数 非支配排序遗传算法
在线阅读 下载PDF
基于联合DQN的定向能系统火力智能决策建模仿真方法
8
作者 屈长虹 王俊杰 +3 位作者 王坤 崔清勇 陈蒋洋 王鑫鹏 《系统仿真学报》 北大核心 2025年第5期1256-1265,共10页
针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建... 针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建模仿真方法。以定向能系统的状态、无人机集群的状态和定向能系统部署区域的状态构造状态空间,利用联合机制共享各个装备的状态信息以及同类型装备的网络参数,设计威胁评估机制提高泛化性,并建立动作屏蔽机制屏蔽无效动作,有效解决了多智能体因状态和动作维度灾难引起的训练发散、收敛缓慢等问题,提高基于联合DQN网络学习效率和泛化性。根据仿真实验结果,该方法优于传统基于规则的方法,验证了该方法的可行性与实用性,为兼容多种部署方案的定向能系统反无人机集群火力智能决策提供一个新思路。 展开更多
关键词 定向能系统 反无人机集群 深度q网络 联合机制 威胁评估机制 动作屏蔽机制
原文传递
蚁群优化算法驱动的DQN多任务协同调度方法研究
9
作者 李华峰 王富臣 +1 位作者 江广冀 宋悦 《电气自动化》 2025年第1期5-7,共3页
针对传统调度方法存在调度效率低下、资源利用率低等问题,提出了蚁群优化算法驱动的深度Q网络方法。通过结合蚁群优化算法的全局搜索能力和深度Q网络在学习调度决策方面的优势,能够在复杂环境下实现高效多任务调度。仿真试验结果表明,... 针对传统调度方法存在调度效率低下、资源利用率低等问题,提出了蚁群优化算法驱动的深度Q网络方法。通过结合蚁群优化算法的全局搜索能力和深度Q网络在学习调度决策方面的优势,能够在复杂环境下实现高效多任务调度。仿真试验结果表明,与普通的Q学习和深度Q网络相比,所提方法在收敛速度和效率方面更有优势。 展开更多
关键词 深度q网络 蚁群算法 q学习 任务调度
在线阅读 下载PDF
基于多智能体优先级重放DDQN的UANET路由算法
10
作者 石超 杨竞舟 《无线通信技术》 2025年第2期1-8,共8页
针对多智能体深度Q网络的路由在选路时存在难以获取全局信息,优化目标单一,Q值过估计以及随机采样导致经验利用效率低的问题,提出了一种基于多智能体优先级重放DDQN的UANET路由算法。为了寻求数据包在源节点和目的节点之间的最优传输路... 针对多智能体深度Q网络的路由在选路时存在难以获取全局信息,优化目标单一,Q值过估计以及随机采样导致经验利用效率低的问题,提出了一种基于多智能体优先级重放DDQN的UANET路由算法。为了寻求数据包在源节点和目的节点之间的最优传输路径,将路由选择建模为多智能体部分马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP),对链路剩余容量、节点负载以及链路稳定性进行考量,并引入优先级经验重放技术提高学习效率,利用双深度Q网络DDQN输出路由决策。仿真实验结果表明该算法在复杂网络环境下能够有效提升UANET的服务质量和网络性能,满足未来无人机网络在复杂环境中的应用需求。 展开更多
关键词 无人机自组织网络 Ddqn 多智能体 优先级经验重放 路由算法
原文传递
Walking Stability Control Method for Biped Robot on Uneven Ground Based on Deep Q-Network
11
作者 Baoling Han Yuting Zhao Qingsheng Luo 《Journal of Beijing Institute of Technology》 EI CAS 2019年第3期598-605,共8页
A gait control method for a biped robot based on the deep Q-network (DQN) algorithm is proposed to enhance the stability of walking on uneven ground. This control strategy is an intelligent learning method of posture ... A gait control method for a biped robot based on the deep Q-network (DQN) algorithm is proposed to enhance the stability of walking on uneven ground. This control strategy is an intelligent learning method of posture adjustment. A robot is taken as an agent and trained to walk steadily on an uneven surface with obstacles, using a simple reward function based on forward progress. The reward-punishment (RP) mechanism of the DQN algorithm is established after obtaining the offline gait which was generated in advance foot trajectory planning. Instead of implementing a complex dynamic model, the proposed method enables the biped robot to learn to adjust its posture on the uneven ground and ensures walking stability. The performance and effectiveness of the proposed algorithm was validated in the V-REP simulation environment. The results demonstrate that the biped robot's lateral tile angle is less than 3° after implementing the proposed method and the walking stability is obviously improved. 展开更多
关键词 deep q-network (dqn) BIPED robot uneven ground WALKING STABILITY gait control
在线阅读 下载PDF
面向无人艇的T-DQN智能避障算法研究 被引量:18
12
作者 周治国 余思雨 +3 位作者 于家宝 段俊伟 陈龙 陈俊龙 《自动化学报》 EI CAS CSCD 北大核心 2023年第8期1645-1655,共11页
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛... 无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶. 展开更多
关键词 无人艇 强化学习 智能避障 深度q网络
在线阅读 下载PDF
基于二阶时序差分误差的双网络DQN算法 被引量:5
13
作者 陈建平 周鑫 +3 位作者 傅启明 高振 付保川 吴宏杰 《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 展开更多
关键词 深度强化学习 马尔科夫决策过程 深度q网络 二阶时序差分误差 梯度下降
在线阅读 下载PDF
基于DQN的机场地服人员动态排班研究 被引量:3
14
作者 余明晖 周鼎新 汤皓泉 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第11期66-71,共6页
针对在繁忙机场的地面服务人员动态排班问题,提出一种基于深度Q网络(DQN)的排班方法.首先以最大化任务执行率和最小化员工工作时间作为目标,建立了优化模型;然后根据目标提出了两种不同的排班方法,进而采用DQN算法,根据生成的航班动态数... 针对在繁忙机场的地面服务人员动态排班问题,提出一种基于深度Q网络(DQN)的排班方法.首先以最大化任务执行率和最小化员工工作时间作为目标,建立了优化模型;然后根据目标提出了两种不同的排班方法,进而采用DQN算法,根据生成的航班动态数据,提取6个状态特征作为网络的输入,并拟定合适的奖励机制,使得训练后的模型能够动态地选择最好的分配方法,最终对模型进行求解.将该方法应用在连续7 d的实际排班中,实验结果表明:与人工排班结果相比,该方法平均每天的任务完成数增加了0.43个,员工的总工作时长减少了53 min,DQN的排班结果具有明显优势,提高了机场地面服务的工作效率. 展开更多
关键词 机场人员排班 动态排班 机场安全保障 深度强化学习 深度q网络 多目标优化
原文传递
一种基于DQN的去中心化优先级卸载策略 被引量:1
15
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度q网络
在线阅读 下载PDF
超密集网络中基于改进DQN的接入选择算法 被引量:4
16
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度q网络(dqn) 优先经验回放 负载均衡
在线阅读 下载PDF
基于集成DQN的自适应边缘缓存算法
17
作者 张雷 李亚文 王晓军 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期97-107,共11页
工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)... 工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)的自适应缓存策略。算法在离线阶段利用不同历史任务数据,训练并保存多个历史任务模型。在线阶段每当检测到实时数据流的任务特征发生变化,则重新训练网络模型。如果实时数据流的特征隶属于历史任务,则向深度Q网络(Deep Q-Network,DQN)导入相应的历史任务模型进行网络训练。否则直接利用实时数据流训练并标记为新的任务模型。仿真实验结果表明,IDQN与参考算法相比,在内容请求流行度动态变化时能够有效减少模型收敛时间,提高缓存效率。 展开更多
关键词 工业边缘网络 缓存替换策略 集成强化学习 深度q网络
在线阅读 下载PDF
演化算法的DQN网络参数优化方法
18
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
在线阅读 下载PDF
基于改进DQN算法的机器人路径规划 被引量:17
19
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
在线阅读 下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:3
20
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度q网络算法 旋翼无人机 着陆控制
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部