期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:2
1
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于改进DQN算法的船舶全局路径规划研究 被引量:1
2
作者 关巍 曲胜 +1 位作者 张显库 胡彤博 《中国舰船研究》 北大核心 2025年第1期107-114,共8页
[目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网... [目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网络结构,使其对特定状态及其动作的价值评估更加准确,并同时具备一定的探索性和泛化性。[结果]实验结果表明,在马尼拉附近海域环境下,相比于A^(*)算法和DQN算法,改进算法在路径长度上分别缩短了1.9%和1.0%,拐点数量上分别减少了62.5%和25%。[结论]实验结果验证了改进DQN算法能够更经济、更合理地规划出有效路径。 展开更多
关键词 船舶 运动规划 dqn算法 优先经验回放(PER)
在线阅读 下载PDF
基于DQN和圆拟合的机器人手眼标定方法
3
作者 储昭碧 何沣奕 +1 位作者 高金辉 彭乐峰 《仪器仪表学报》 北大核心 2025年第8期330-340,共11页
近年来,随着工业机器人技术的不断发展,机器人搭载激光测距仪实现多姿态测量的应用场景和对手眼标定的需求逐渐增多,对手眼标定技术的精度提出了更高要求,而传统标定方法往往依赖专用标定物或传感器,操作复杂且成本较高。故提出了一种... 近年来,随着工业机器人技术的不断发展,机器人搭载激光测距仪实现多姿态测量的应用场景和对手眼标定的需求逐渐增多,对手眼标定技术的精度提出了更高要求,而传统标定方法往往依赖专用标定物或传感器,操作复杂且成本较高。故提出了一种基于深度Q网络(DQN)算法和圆轮廓拟合的机器人手眼标定方法。利用DQN算法控制机器人末端两关节带动激光测距仪运动,使得激光测距仪返回值最小,在此基础上,建立机械臂运动学模型计算得到此时光点的理论坐标值。通过设定关节一的多个角度值,使光点在目标平面形成一个圆轨迹,对实际采集的光点坐标值进行圆拟合,建立等式约束下的优化模型,求解得到手眼标定的参数值。基于MATLAB平台模拟仿真,对该方法的可行性进行了验证,分析了角度参数和位移参数初始值对标定结果的影响和抗激光测距噪声干扰的性能。与其他标定方法进行对比,结果显示该方法具有更高的精度。搭建了实验系统,利用该方法求解标定参数,实验结果表明,标定后的系统扫描实验误差不大于0.5 mm,满足工业应用的精度要求。该方法无需额外昂贵的标定物,仅依靠激光测距仪的单测量量和几何约束,显著降低了标定成本与操作难度,同时具备良好的抗噪声性能,能实现工业现场高精度标定。 展开更多
关键词 手眼标定 强化学习 dqn算法 圆拟合
原文传递
基于改进DQN的无人机三维路径规划研究
4
作者 孔建国 赵恬恬 +2 位作者 梁海军 刘晨宇 马珂昕 《舰船电子工程》 2025年第7期36-40,共5页
为了解决DQN在未知环境下无人机路径规划中存在收敛性差及成功率较低的问题,提出了一种基于NoisyNet-DuelingDQN的路径规划方法。该方法在传统的DQN算法基础上引入了竞争网络,以更好地评估每一动作的价值;其次,通过给神经网络的权重引... 为了解决DQN在未知环境下无人机路径规划中存在收敛性差及成功率较低的问题,提出了一种基于NoisyNet-DuelingDQN的路径规划方法。该方法在传统的DQN算法基础上引入了竞争网络,以更好地评估每一动作的价值;其次,通过给神经网络的权重引入噪声,从而可以更好地探索空间,寻找最优策略。最后通过仿真实验证明:1)该算法在不同环境下相比传统的DQN和NoisyNet-DQN算法具有更好的收敛性和更高的奖励值;2)经60000次后,该算法成功率较DQN提高12.16%,较NoisyNet-DQN提高3.6%。 展开更多
关键词 深度强化学习 路径规划 dqn算法 NoisyNet-Duelingdqn
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划 被引量:1
5
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 dqn算法
原文传递
基于DQN的低轨卫星网络多目标智能路由算法
6
作者 罗宗屹 金世超 +1 位作者 董涛 殷杰 《天地一体化信息网络》 2025年第1期16-23,共8页
近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难... 近年来,低轨卫星网络发展迅速,被广泛应用于全球通信、互联网接入等领域。首先,对当前低轨卫星网络发展现状与主流的低轨网络路由算法进行总结。然后,针对星上路由算法设计面临的优化目标单一、收敛速度慢以及时延和丢包率等指标优化难度大等挑战,提出基于深度Q网络(DQN)的多目标智能路由算法,通过设计多目标奖励函数,实现了时延、丢包率、负载均衡多目标的性能优化。在时延方面,本算法优于最短通路优先算法;在流量分布指数和丢包率方面,本算法相较于最短通路优先算法与Dijkstra算法分别提高14%和10%以上。最后,阐述所提智能路由算法在多种应用场景中的使用方法。 展开更多
关键词 低轨卫星网络 路由算法 深度Q网络
在线阅读 下载PDF
基于随机博弈和DQN算法的云原生移动目标防御决策方法
7
作者 耿致远 许泽轩 张恒巍 《信息网络安全》 北大核心 2025年第6期967-976,共10页
随着云原生系统中集成应用组件的复杂性不断提高,且大部分组件为开源代码,系统组件的漏洞利用已成为影响云原生安全的主要威胁之一。移动目标防御作为一种先进的动态防御机制,被广泛认为是应对该问题的有效手段。然而,在实际应用中,频... 随着云原生系统中集成应用组件的复杂性不断提高,且大部分组件为开源代码,系统组件的漏洞利用已成为影响云原生安全的主要威胁之一。移动目标防御作为一种先进的动态防御机制,被广泛认为是应对该问题的有效手段。然而,在实际应用中,频繁且无序的配置转换可能会使系统运行效率和服务质量降低,进而对资源有限系统的安全性造成不利影响。为解决云原生环境中随机攻防场景下的移动目标防御决策问题,文章结合博弈理论的建模能力与深度强化学习的求解优势,提出一种基于随机博弈和DQN算法的云原生移动目标防御决策方法,实现在大规模策略空间中进行高效最优移动目标防御策略的决策,并通过仿真实验验证了文章所提方法的有效性和实用性。 展开更多
关键词 云原生 漏洞利用 移动目标防御 随机博弈 dqn算法
在线阅读 下载PDF
Automatic Driving Operation Strategy of Urban Rail Train Based on Improved DQN Algorithm
8
作者 Tian Lu Bohong Liu 《Journal on Artificial Intelligence》 2023年第1期113-129,共17页
To realize a better automatic train driving operation control strategy for urban rail trains,an automatic train driving method with improved DQN algorithm(classical deep reinforcement learning algorithm)is proposed as... To realize a better automatic train driving operation control strategy for urban rail trains,an automatic train driving method with improved DQN algorithm(classical deep reinforcement learning algorithm)is proposed as a research object.Firstly,the train control model is established by considering the train operation requirements.Secondly,the dueling network and DDQN ideas are introduced to prevent the value function overestimation problem.Finally,the priority experience playback and“restricted speed arrival time”are used to reduce the useless experience utilization.The experiments are carried out to verify the train operation strategy method by simulating the actual line conditions.From the experimental results,the train operation meets the ATO requirements,the energy consumption is 15.75%more energy-efficient than the actual operation,and the algorithm convergence speed is improved by about 37%.The improved DQN method not only enhances the efficiency of the algorithm but also forms a more effective operation strategy than the actual operation,thereby contributing meaningfully to the advancement of automatic train operation intelligence. 展开更多
关键词 dqn algorithm automatic train operation(ATO) operation strategy urban rail train
在线阅读 下载PDF
基于树采样Dueling-DQN的无人机三维避障路径规划方案
9
作者 胡明 曹圣昊 +3 位作者 王杨 范祥祥 于得水 焦奕康 《小型微型计算机系统》 北大核心 2025年第7期1616-1624,共9页
深度Q网络(Deep Q-Network, DQN)已被广泛应用于无人机避障路径规划任务,针对传统DQN采样过程中由于存在样本信息利用不充分,导致收敛速度慢的问题,提出了一种基于树采样Dueling-DQN的无人机三维避障路径规划方案.首先描述了三维空间内... 深度Q网络(Deep Q-Network, DQN)已被广泛应用于无人机避障路径规划任务,针对传统DQN采样过程中由于存在样本信息利用不充分,导致收敛速度慢的问题,提出了一种基于树采样Dueling-DQN的无人机三维避障路径规划方案.首先描述了三维空间内的无人机避障规划网络系统模型、仿真环境模型;然后设计了避障算法、电量消耗算法、无人机动作合集等;最后提出结合树采样的Dueling-DQN算法,算法使用二叉树结构存储优先级样本,结合奖励函数、贪婪策略等获得无人机的避障飞行路径.实验结果显示,与传统DQN和DDQN(Double Deep Q-Network, DDQN)相比,方案在获得较优规划路径的同时,取得了最高的平均奖励值.在10种障碍物难度等级的条件下,与A~*、RRT、蚁群算法相比,到达目标点所需的步数最少,且碰撞概率最低.仿真结果验证了所提无人机三维避障路径规划方案在处理三维空间内无人机避障规划问题的有效性. 展开更多
关键词 无人机 三维空间避障 路径规划 树采样 dqn算法
在线阅读 下载PDF
基于DQN的改进NSGA-Ⅱ求解多目标柔性作业车间调度问题
10
作者 郑国梁 张朝阳 +1 位作者 吉卫喜 于俊杰 《现代制造工程》 北大核心 2025年第9期1-11,共11页
提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexi... 提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexible Job shop Scheduling Problem,MO-FJSP)。通过在DQN算法中定义马尔可夫决策过程和奖励函数,考虑选定设备对完工时间和能源消耗的局部及全局影响,提高了NSGA-Ⅱ初始种群的质量。改进的NSGA-Ⅱ通过精英保留策略确保运行过程中的种群多样性,并保留了进化过程中优质的个体。将DQN算法生成的初始解与贪婪算法生成的初始解进行对比,验证了DQN算法在生成初始解方面的有效性。此外,将基于DQN算法的改进NSGA-Ⅱ与其他启发式算法在标准案例和仿真案例上进行对比,证明了其在解决MO-FJSP方面的有效性。 展开更多
关键词 深度Q网络算法 多目标柔性作业车间调度问题 奖励函数 非支配排序遗传算法
在线阅读 下载PDF
基于DQN算法的动态调度问题研究
11
作者 周荣升 王艳红 《微处理机》 2025年第1期55-59,共5页
针对动态作业车间调度中新工件突发插入导致现有调度规则失效的问题,本文基于深度强化学习中的DQN算法提出一种实时调度策略。该方法可在动态环境下对调度决策进行实时调整,以实现整体生产效率最大化和新工件及时加工的目标。研究通过... 针对动态作业车间调度中新工件突发插入导致现有调度规则失效的问题,本文基于深度强化学习中的DQN算法提出一种实时调度策略。该方法可在动态环境下对调度决策进行实时调整,以实现整体生产效率最大化和新工件及时加工的目标。研究通过构建动态仿真环境,对算法在不同工件插入场景下的性能进行了验证,结果表明该方法相比传统调度方法具有更好的适应性和鲁棒性,为解决动态作业车间调度问题提供了新的思路。 展开更多
关键词 动态作业车间 dqn算法 强化学习 车间调度
在线阅读 下载PDF
基于DQN算法的考虑AGV小车搬运的离散制造车间调度方法 被引量:2
12
作者 周亚勤 肖蒙 +2 位作者 吕志军 汪俊亮 张洁 《机械工程学报》 EI CAS CSCD 北大核心 2024年第18期338-348,共11页
针对离散制造车间生产调度不仅需要确定工件各工序的加工设备及设备上工序的加工顺序,同时要根据工件调度方案,需要在规定时间点前由AGV小车将各工件运送到工序相应的设备上加工,以提高调度方案执行率的需求,构建考虑车间设备布局、工... 针对离散制造车间生产调度不仅需要确定工件各工序的加工设备及设备上工序的加工顺序,同时要根据工件调度方案,需要在规定时间点前由AGV小车将各工件运送到工序相应的设备上加工,以提高调度方案执行率的需求,构建考虑车间设备布局、工件工艺路线、AGV小车搬运时间与小车位置等约束,工件完工时间最小化和AGV小车运载均衡为综合目标的离散制造车间调度模型。依据离散制造车间调度数学模型构建强化学习环境,包括工件、机器和小车的状态空间,调度决策动作空间和奖励函数;基于建立的强化学习环境,设计基于DQN算法的工件小车调度方法,设计工件智能体,读取车间局部环境,将局部环境映射到工件状态参数的权重,根据该权重得到工件调度列表实现从车间状态到工件调度的动作选择。设计小车智能体,通过读取工件智能体调度决策和车间信息得到小车搬运相关参数,实现小车智能体与工件智能体的交互,将搬运相关参数和车间局部环境中小车状态信息映射成小车调度相关权重,根据权重得到小车调度列表实现小车调度的动作选择。最后,通过离散制造车间实际案例对算法进行测试,测试结果表明,基于DQN算法的调度算法能够有效地求解考虑小车搬运的离散制造车间调度问题,可最小化工件的最大完工时间,均衡小车的搬运负载,具有良好的综合调度性能。 展开更多
关键词 离散制造车间 工件调度 小车调度 dqn算法
原文传递
基于Double-DQN的中央空调系统节能优化运行 被引量:14
13
作者 闫军威 黄琪 周璇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期135-144,共10页
针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产... 针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产生的维数灾难和值函数过估计问题.然后以广州市某办公建筑中央空调系统为研究对象,建立该系统的TRNSYS仿真平台,对算法的有效性进行了验证.仿真结果表明:该方法在满足室内热舒适性要求的前提下,以系统能耗最小为目标,实现了系统的节能优化运行;与PID控制和单神经网络强化学习控制方法相比,系统总能耗分别降低5.36%和1.64%,非舒适性时间总占比分别减少2.32%和1.37%.文中提出的强化学习控制器能够有效解决值函数过估计问题,具有良好的鲁棒性,自适应优化能力和较好的节能效果,可为建筑节能提供新思路. 展开更多
关键词 中央空调系统 节能优化运行 强化学习 Double-dqn算法 双神经网络结构 总能耗 室内热舒适性
在线阅读 下载PDF
基于改进DQN算法的无人仓多AGV路径规划 被引量:2
14
作者 谢勇 郑绥君 +1 位作者 程念胜 朱洪君 《工业工程》 2024年第1期36-44,53,共10页
针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法... 针对无人仓中多AGV路径规划与冲突问题,以最小化总行程时间为目标,建立多AGV路径规划模型,提出一种基于动态决策的改进DQN算法。算法设计了基于单AGV静态路径规划的经验知识模型,指导AGV的学习探索方向,提前规避冲突与障碍物,加快算法收敛。同时提出基于总行程时间最短的冲突消解策略,从根本上解决多AGV路径冲突与死锁问题。最后,建立无人仓栅格地图进行仿真实验。结果表明,本文提出的模型和算法较其他DQN算法收敛速度提升13.3%,平均损失值降低26.3%。这说明该模型和算法有利于规避和化解无人仓多AGV路径规划冲突,减少多AGV总行程时间,对提高无人仓作业效率具有重要指导意义。 展开更多
关键词 多AGV 路径规划 dqn算法 经验知识 冲突消解
在线阅读 下载PDF
基于改进DQN算法的机器人路径规划 被引量:17
15
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度Q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
在线阅读 下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:3
16
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度Q网络算法 旋翼无人机 着陆控制
在线阅读 下载PDF
基于DQN的车辆驾驶行为决策方法 被引量:10
17
作者 罗鹏 黄珍 +1 位作者 秦易晋 陈志军 《交通信息与安全》 CSCD 北大核心 2020年第5期67-77,112,共12页
针对传统DQN算法下网联车驾驶行为决策的动作选择过程随机性强、探索空间大的问题,研究了结合专家知识和DQN算法的智能车辆决策框架,设计了奖励值函数来引导算法的训练。通过层次分析法(AHP)选取高速场景下车辆驾驶决策中的重要影响因素... 针对传统DQN算法下网联车驾驶行为决策的动作选择过程随机性强、探索空间大的问题,研究了结合专家知识和DQN算法的智能车辆决策框架,设计了奖励值函数来引导算法的训练。通过层次分析法(AHP)选取高速场景下车辆驾驶决策中的重要影响因素,利用ID3决策树构建简单而有效的专家规则库;在传统算法基础上,通过设计奖励值函数来优化DQN网络结构,由奖励值函数引导DQN算法来解决高速场景下的车辆决策问题,并在Python仿真环境中构建高速交通场景对该算法进行分析和验证。实验结果表明,在高速直道和并道场景下,达到95%成功率的平均训练次数分别减少了100次和200次,平均奖励值分别提高了4.02和1.34,有效加快了DQN算法的动作选择,降低了探索过程中的动作随机性。 展开更多
关键词 智能驾驶 强化学习 dqn算法 专家知识
在线阅读 下载PDF
基于Expectimax搜索与Double DQN的非完备信息博弈算法 被引量:7
18
作者 雷捷维 王嘉旸 +2 位作者 任航 闫天伟 黄伟 《计算机工程》 CAS CSCD 北大核心 2021年第3期304-310,320,共8页
麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜... 麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜索树扩展过程中,采用Double DQN输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。在Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax搜索算法得到最优动作以改进探索策略。实验结果表明,与Expectimax搜索算法、Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能。 展开更多
关键词 Double dqn算法 Expectimax搜索 非完备信息博弈 麻将 强化学习
在线阅读 下载PDF
基于输出层具有噪声的DQN的无人车路径规划 被引量:6
19
作者 李杨 闫冬梅 刘磊 《应用数学和力学》 CSCD 北大核心 2023年第4期450-460,共11页
在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真... 在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真结果表明:①该策略能快速规划出从初始点到目标点的无碰撞路线,与Q-learning算法、DQN算法和noisynet_DQN算法相比,该文提出的算法收敛速度更快;②该策略关于初始点、目标点、障碍物具有泛化能力,验证了其有效性与鲁棒性. 展开更多
关键词 深度强化学习 无人车 dqn算法 Gauss噪声 路径规划 Gazebo仿真
在线阅读 下载PDF
基于DQN算法的倒计时交叉口信号灯配时研究 被引量:6
20
作者 李珊 任安虎 白静静 《国外电子测量技术》 北大核心 2021年第10期91-97,共7页
针对已有的DQN配时算法无法应用在倒计时交叉口的问题,提出以Webster配时法计算绿信比方案,并将其作为控制动作,以归一化车流量、车速、排队长度构造状态矩阵,通过3层全连接神经网络计算动作价值,引入零奖赏延误因子将延误时间转换为奖... 针对已有的DQN配时算法无法应用在倒计时交叉口的问题,提出以Webster配时法计算绿信比方案,并将其作为控制动作,以归一化车流量、车速、排队长度构造状态矩阵,通过3层全连接神经网络计算动作价值,引入零奖赏延误因子将延误时间转换为奖励值,使用探索率余弦衰减的方式提高收敛能力,使用Huber函数计算误差提高收敛稳定性,最后利用Vissim仿真平台进行测试。结果表明,该方法在延误指标上相比20种固定配时方案均有不同程度的降低,证明了该方法的有效性。 展开更多
关键词 智能交通 信号配时 深度强化学习 dqn算法 VISSIM仿真
原文传递
上一页 1 2 4 下一页 到第
使用帮助 返回顶部