期刊文献+
共找到452篇文章
< 1 2 23 >
每页显示 20 50 100
改进Deep Q Networks的交通信号均衡调度算法
1
作者 贺道坤 《机械设计与制造》 北大核心 2025年第4期135-140,共6页
为进一步缓解城市道路高峰时段十字路口的交通拥堵现象,实现路口各道路车流均衡通过,基于改进Deep Q Networks提出了一种的交通信号均衡调度算法。提取十字路口与交通信号调度最相关的特征,分别建立单向十字路口交通信号模型和线性双向... 为进一步缓解城市道路高峰时段十字路口的交通拥堵现象,实现路口各道路车流均衡通过,基于改进Deep Q Networks提出了一种的交通信号均衡调度算法。提取十字路口与交通信号调度最相关的特征,分别建立单向十字路口交通信号模型和线性双向十字路口交通信号模型,并基于此构建交通信号调度优化模型;针对Deep Q Networks算法在交通信号调度问题应用中所存在的收敛性、过估计等不足,对Deep Q Networks进行竞争网络改进、双网络改进以及梯度更新策略改进,提出相适应的均衡调度算法。通过与经典Deep Q Networks仿真比对,验证论文算法对交通信号调度问题的适用性和优越性。基于城市道路数据,分别针对两种场景进行仿真计算,仿真结果表明该算法能够有效缩减十字路口车辆排队长度,均衡各路口车流通行量,缓解高峰出行方向的道路拥堵现象,有利于十字路口交通信号调度效益的提升。 展开更多
关键词 交通信号调度 十字路口 deep q networks 深度强化学习 智能交通
在线阅读 下载PDF
Deep Reinforcement Learning Approach for X-rudder AUVs Fault Diagnosis Based on Deep Q-network
2
作者 Chuanfa Chen Xiang Gao +3 位作者 Yueming Li Xuezhi Chen Jian Cao Yinghao Zhang 《哈尔滨工程大学学报(英文版)》 2025年第6期1239-1251,共13页
The rudder mechanism of the X-rudder autonomous underwater cehicle(AUV)is relatively complex,and fault diagnosis capability is an important guarantee for its task execution in complex underwater environments.However,t... The rudder mechanism of the X-rudder autonomous underwater cehicle(AUV)is relatively complex,and fault diagnosis capability is an important guarantee for its task execution in complex underwater environments.However,traditional fault diagnosis methods currently rely on prior knowledge and expert experience,and lack accuracy.In order to improve the autonomy and accuracy of fault diagnosis methods,and overcome the shortcomings of traditional algorithms,this paper proposes an X-steering AUV fault diagnosis model based on the deep reinforcement learning deep Q network(DQN)algorithm,which can learn the relationship between state data and fault types,map raw residual data to corresponding fault patterns,and achieve end-to-end mapping.In addition,to solve the problem of few X-steering fault sample data,Dropout technology is introduced during the model training phase to improve the performance of the DQN algorithm.Experimental results show that the proposed model has improved the convergence speed and comprehensive performance indicators compared to the unimproved DQN algorithm,with precision,recall,F_(1-score),and accuracy reaching up to 100%,98.07%,99.02%,and 98.50% respectively,and the model’s accuracy is higher than other machine learning algorithms like back propagation,support vector machine. 展开更多
关键词 Autonomous underwater cehicles X-rudder Fault diagnosis deep q network Dropout technique
在线阅读 下载PDF
基于Deep Q Networks的机械臂推动和抓握协同控制 被引量:3
3
作者 贺道坤 《现代制造工程》 CSCD 北大核心 2021年第7期23-28,共6页
针对目前机械臂在复杂场景应用不足以及推动和抓握自主协同控制研究不多的现状,发挥深度Q网络(Deep Q Networks)无规则、自主学习优势,提出了一种基于Deep Q Networks的机械臂推动和抓握协同控制方法。通过2个完全卷积网络将场景信息映... 针对目前机械臂在复杂场景应用不足以及推动和抓握自主协同控制研究不多的现状,发挥深度Q网络(Deep Q Networks)无规则、自主学习优势,提出了一种基于Deep Q Networks的机械臂推动和抓握协同控制方法。通过2个完全卷积网络将场景信息映射至推动或抓握动作,经过马尔可夫过程,采取目光长远奖励机制,选取最佳行为函数,实现对复杂场景机械臂推动和抓握动作的自主协同控制。在仿真和真实场景实验中,该方法在复杂场景中能够通过推动和抓握自主协同操控实现对物块的快速抓取,并获得更高的动作效率和抓取成功率。 展开更多
关键词 机械臂 抓握 推动 深度q网络(deep q networks) 协同控制
在线阅读 下载PDF
基于Deep Q Networks的交通指示灯控制方法 被引量:2
4
作者 颜文胜 吕红兵 《计算机测量与控制》 2021年第6期93-97,共5页
交通指示灯的智能控制是当前智能交通研究中的热点问题;为更加及时有效地自适应动态交通,进一步提升街道路口车流效率,提出了一种基于Deep Q Networks的道路指示灯控制方法;该方法基于道路指示灯控制问题描述,以状态、行动和奖励三要素... 交通指示灯的智能控制是当前智能交通研究中的热点问题;为更加及时有效地自适应动态交通,进一步提升街道路口车流效率,提出了一种基于Deep Q Networks的道路指示灯控制方法;该方法基于道路指示灯控制问题描述,以状态、行动和奖励三要素构建道路指示灯控制的强化学习模型,提出基于Deep Q Networks的道路指示控制方法流程;为检验方法的有效性,以浙江省台州市市府大道与东环大道交叉路口交通数据在SUMO中进行方法比对与仿真实验;实验结果表明,基于Deep Q Networks的交通指示灯控制方法在交通指示等的控制与调度中具有更高的效率和自主性,更有利于改善路口车流的吞吐量,对道路路口车流的驻留时延、队列长度和等待时间等方面的优化具有更好的性能。 展开更多
关键词 道路指示灯 deep q networks 智能交通 信号控制
在线阅读 下载PDF
基于改进深度Q网络的异构无人机快速任务分配
5
作者 王月海 邱国帅 +3 位作者 邢娜 赵欣怡 王婕 韩曦 《工程科学学报》 北大核心 2026年第1期142-151,共10页
随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略... 随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略,为此,本文考虑了环境不确定性如不同风速和降雨量,重点研究了改进的强化学习算法在无人机任务分配中的应用,使多无人机系统能够迅速响应并实现资源的高效利用.首先,本文将无人机任务分配问题建模为马尔可夫决策过程,通过神经网络进行策略逼近用以任务分配中高效处理高维和复杂的状态空间,同时引入优先经验重放机制,有效降低了在线计算的负担.仿真结果表明,与其他强化学习方法相比,该算法具有较强的收敛性.在面对复杂环境时,其鲁棒性更为显著.此外,该算法在处理不同任务时仅需0.24 s即可完成一组适合的无人机分配,并能够快速生成大规模无人机集群的任务分配方案. 展开更多
关键词 无人机群 任务分配 强化学习 深度q网络 马尔可夫决策过程
在线阅读 下载PDF
Artificial Potential Field Incorporated Deep-Q-Network Algorithm for Mobile Robot Path Prediction 被引量:3
6
作者 A.Sivaranjani B.Vinod 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期1135-1150,共16页
Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a st... Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a state action function in mobile robots suited to their environment.During trial-and-error interaction with its surroundings,it helps a robot tofind an ideal behavior on its own.The Deep Q Network(DQN)algorithm is used in TurtleBot 3(TB3)to achieve the goal by successfully avoiding the obstacles.But it requires a large number of training iterations.This research mainly focuses on a mobility robot’s best path prediction utilizing DQN and the Artificial Potential Field(APF)algorithms.First,a TB3 Waffle Pi DQN is built and trained to reach the goal.Then the APF shortest path algorithm is incorporated into the DQN algorithm.The proposed planning approach is compared with the standard DQN method in a virtual environment based on the Robot Operation System(ROS).The results from the simulation show that the combination is effective for DQN and APF gives a better optimal path and takes less time when compared to the conventional DQN algo-rithm.The performance improvement rate of the proposed DQN+APF in comparison with DQN in terms of the number of successful targets is attained by 88%.The performance of the proposed DQN+APF in comparison with DQN in terms of average time is achieved by 0.331 s.The performance of the proposed DQN+APF in comparison with DQN average rewards in which the positive goal is attained by 85%and the negative goal is attained by-90%. 展开更多
关键词 Artificial potentialfield deep reinforcement learning mobile robot turtle bot deep q network path prediction
在线阅读 下载PDF
Locally generalised multi-agent reinforcement learning for demand and capacity balancing with customised neural networks 被引量:2
7
作者 Yutong CHEN Minghua HU +1 位作者 Yan XU Lei YANG 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2023年第4期338-353,共16页
Reinforcement Learning(RL)techniques are being studied to solve the Demand and Capacity Balancing(DCB)problems to fully exploit their computational performance.A locally gen-eralised Multi-Agent Reinforcement Learning... Reinforcement Learning(RL)techniques are being studied to solve the Demand and Capacity Balancing(DCB)problems to fully exploit their computational performance.A locally gen-eralised Multi-Agent Reinforcement Learning(MARL)for real-world DCB problems is proposed.The proposed method can deploy trained agents directly to unseen scenarios in a specific Air Traffic Flow Management(ATFM)region to quickly obtain a satisfactory solution.In this method,agents of all flights in a scenario form a multi-agent decision-making system based on partial observation.The trained agent with the customised neural network can be deployed directly on the corresponding flight,allowing it to solve the DCB problem jointly.A cooperation coefficient is introduced in the reward function,which is used to adjust the agent’s cooperation preference in a multi-agent system,thereby controlling the distribution of flight delay time allocation.A multi-iteration mechanism is designed for the DCB decision-making framework to deal with problems arising from non-stationarity in MARL and to ensure that all hotspots are eliminated.Experiments based on large-scale high-complexity real-world scenarios are conducted to verify the effectiveness and efficiency of the method.From a statis-tical point of view,it is proven that the proposed method is generalised within the scope of the flights and sectors of interest,and its optimisation performance outperforms the standard computer-assisted slot allocation and state-of-the-art RL-based DCB methods.The sensitivity analysis preliminarily reveals the effect of the cooperation coefficient on delay time allocation. 展开更多
关键词 Air traffic flow management Demand and capacity bal-ancing deep q-learning network Flight delays GENERALISATION Ground delay program multi-agent reinforcement learning
原文传递
Improved Double Deep Q Network Algorithm Based on Average Q-Value Estimation and Reward Redistribution for Robot Path Planning
8
作者 Yameng Yin Lieping Zhang +3 位作者 Xiaoxu Shi Yilin Wang Jiansheng Peng Jianchu Zou 《Computers, Materials & Continua》 SCIE EI 2024年第11期2769-2790,共22页
By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning... By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning of mobile robots.However,the traditional DDQN algorithm suffers from sparse rewards and inefficient utilization of high-quality data.Targeting those problems,an improved DDQN algorithm based on average Q-value estimation and reward redistribution was proposed.First,to enhance the precision of the target Q-value,the average of multiple previously learned Q-values from the target Q network is used to replace the single Q-value from the current target Q network.Next,a reward redistribution mechanism is designed to overcome the sparse reward problem by adjusting the final reward of each action using the round reward from trajectory information.Additionally,a reward-prioritized experience selection method is introduced,which ranks experience samples according to reward values to ensure frequent utilization of high-quality data.Finally,simulation experiments are conducted to verify the effectiveness of the proposed algorithm in fixed-position scenario and random environments.The experimental results show that compared to the traditional DDQN algorithm,the proposed algorithm achieves shorter average running time,higher average return and fewer average steps.The performance of the proposed algorithm is improved by 11.43%in the fixed scenario and 8.33%in random environments.It not only plans economic and safe paths but also significantly improves efficiency and generalization in path planning,making it suitable for widespread application in autonomous navigation and industrial automation. 展开更多
关键词 Double deep q network path planning average q-value estimation reward redistribution mechanism reward-prioritized experience selection method
在线阅读 下载PDF
Walking Stability Control Method for Biped Robot on Uneven Ground Based on Deep Q-Network
9
作者 Baoling Han Yuting Zhao Qingsheng Luo 《Journal of Beijing Institute of Technology》 EI CAS 2019年第3期598-605,共8页
A gait control method for a biped robot based on the deep Q-network (DQN) algorithm is proposed to enhance the stability of walking on uneven ground. This control strategy is an intelligent learning method of posture ... A gait control method for a biped robot based on the deep Q-network (DQN) algorithm is proposed to enhance the stability of walking on uneven ground. This control strategy is an intelligent learning method of posture adjustment. A robot is taken as an agent and trained to walk steadily on an uneven surface with obstacles, using a simple reward function based on forward progress. The reward-punishment (RP) mechanism of the DQN algorithm is established after obtaining the offline gait which was generated in advance foot trajectory planning. Instead of implementing a complex dynamic model, the proposed method enables the biped robot to learn to adjust its posture on the uneven ground and ensures walking stability. The performance and effectiveness of the proposed algorithm was validated in the V-REP simulation environment. The results demonstrate that the biped robot's lateral tile angle is less than 3° after implementing the proposed method and the walking stability is obviously improved. 展开更多
关键词 deep q-network (DqN) BIPED robot uneven ground WALKING STABILITY gait control
在线阅读 下载PDF
基于改进深度Q网络的无预测风电场日前拓扑优化 被引量:2
10
作者 黄晟 潘丽君 +3 位作者 屈尹鹏 周歧林 徐箭 柯德平 《电力系统自动化》 北大核心 2025年第2期122-132,共11页
风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差... 风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差的引入造成日前优化调控方案有效性的降低,增加了日内风机调控的难度。因此,文中充分发挥强化学习模型的决策能力,提出了一种基于改进深度Q网络(DQN)的无预测风电场拓扑重构决策方案,并以DQN为框架展开。首先,构建基于历史数据的状态空间;然后,提出基于生成树的动作价值对解耦的动作空间优化方法,以最小化电压偏差和网损为目标建立优化评价体系,完成由历史实际出力数据到决策的映射关系构建,在避免引入预测误差的情况下实现风电场日前优化调控;最后,设计一种基于多层次经验指导的经验回放策略,提升算法的训练性能,保证算法的适用性。根据实际的风电运行数据进行仿真,通过对比分析改进技术对DQN算法的影响和优化调控前后风电场的运行状态,验证了所提方法的创新性和有效性。 展开更多
关键词 风电场 预测 深度q网络 拓扑重构 电压控制 优化 强化学习
在线阅读 下载PDF
基于角度搜索和深度Q网络的移动机器人路径规划算法 被引量:3
11
作者 李宗刚 韩森 +1 位作者 陈引娟 宁小刚 《兵工学报》 北大核心 2025年第2期30-44,共15页
针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的... 针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的搜索方向,减少栅格节点的遍历,提高路径规划的效率。为加强移动机器人之间的协作能力,提出一种物联网信息融合技术(Internet Information Fusion Technology,IIFT)模型,能够将多个分散的局部环境信息整合为全局信息,指导移动机器人规划路径。仿真实验结果表明:与标准DQN算法相比,AS-DQN算法可以缩短移动机器人寻得到达目标点最优路径的时间,将IIFT模型与AS-DQN算法相结合路径规划效率更加显著。实体实验结果表明:AS-DQN算法能够应用于Turtlebot3无人车,并成功找到起点至目标点的最优路径。 展开更多
关键词 移动机器人 路径规划 深度q网络 角度搜索策略 物联网信息融合技术
在线阅读 下载PDF
基于双深度Q网络的车联网安全位置路由 被引量:2
12
作者 米洪 郑莹 《无线电通信技术》 北大核心 2025年第1期96-105,共10页
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secur... 作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secure Location Routing,DSLR)。DSLR通过防御灰洞攻击提升消息传递率(Message Delivery Ratio,MDR),并降低消息的传输时延。构建以丢包率和链路连通时间为约束条件的优化问题,利用双深度Q网络算法求解。为了提升DSLR的收敛性,基于连通时间、丢包率和传输时延构建奖励函数,引导智能体选择满足要求的转发节点。采用动态的探索因子机制,平衡探索与利用间的关系,进而加速算法的收敛。仿真结果表明,相比于同类算法,提出的DSLR提升了MDR,减少了传输时延。 展开更多
关键词 车联网 位置路由 灰洞攻击 双深度q网络 动态的探索因子
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:2
13
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DqN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于深度Q网络的平衡杆优化控制实验教学案例设计
14
作者 钟珊 杜鑫 +2 位作者 司亚利 刘井莲 严卫 《实验室研究与探索》 北大核心 2025年第1期146-152,190,共8页
为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了... 为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了实验方案的设计。实验评估综合考虑了算法有效性、Q值估计的准确性、样本效率和Q网络的损失估计。在此基础上,将其与基准算法Q学习算法在累计奖赏和学习效率上进行了对比。该实验不仅可以帮助学生学会综合应用强化学习知识,也能帮助其掌握采用深度Q网络算法来求解离散动作空间任务的最优策略。 展开更多
关键词 强化学习 深度q网络 q学习 平衡杆 实验设计
在线阅读 下载PDF
基于深度Q网络算法的空天地边缘计算网络资源分配方法
15
作者 李新春 孙鹤源 许驰 《吉林大学学报(工学版)》 北大核心 2025年第7期2418-2424,共7页
由于卫星、无人机和地面站位置不断变化,导致空天地边缘计算网络链路不固定,且网络需要快速响应用户请求,对吞吐量与实时性的要求较高,增加了网络资源分配的难度。对此,本文提出基于深度Q网络算法的空天地边缘计算网络资源分配方法。首... 由于卫星、无人机和地面站位置不断变化,导致空天地边缘计算网络链路不固定,且网络需要快速响应用户请求,对吞吐量与实时性的要求较高,增加了网络资源分配的难度。对此,本文提出基于深度Q网络算法的空天地边缘计算网络资源分配方法。首先,考虑网络拓扑的动态性和资源异构性,建立资源间的通信模型,为资源分配提供基础框架;然后,基于最大吞吐量设计资源分配目标函数,并利用马尔科夫决策模型表述目标函数,将资源分配问题转化为序列决策问题,便于在动态变化的网络环境中作出决策;最后,基于深度Q网络算法求解目标函数,通过强化学习的方式,使算法能够通过与环境的交互学习到最优的资源分配策略,适应网络的实时性和动态性。实验结果表明:应用该方法后,网络累计回报较高,资源任务平均能耗降低,说明该方法实际可行。 展开更多
关键词 空天地一体化网络 深度q网络算法 边缘计算 资源分配 马尔科夫决策模型
原文传递
An Enhanced Searching Strategy for Multi-Agent Mobile Applications 被引量:2
16
作者 Xiaoyu Zhang Wei Liu Fangchun Yang 《China Communications》 SCIE CSCD 2022年第11期282-296,共15页
Multi-agent mobile applications play an essential role in mobile applications and have attracted more and more researchers’attention.Previous work has always focused on multi-agent applications with perfect informati... Multi-agent mobile applications play an essential role in mobile applications and have attracted more and more researchers’attention.Previous work has always focused on multi-agent applications with perfect information.Researchers are usually based on human-designed rules to provide decision-making searching services.However,existing methods for solving perfect-information mobile applications cannot be directly applied to imperfect-information mobile applications.Here,we take the Contact Bridge,a multi-agent application with imperfect information,for the case study.We propose an enhanced searching strategy to deal with multi-agent applications with imperfect information.We design a self-training bidding system model and apply a Recurrent Neural Network(RNN)to model the bidding process.The bridge system model consists of two parts,a bidding prediction system based on imitation learning to get a contract quickly and a visualization system for hands understanding to realize regular communication between players.Then,to dynamically analyze the impact of other players’unknown hands on our final reward,we design a Monte Carlo sampling algorithm based on the bidding system model(BSM)to deal with imperfect information.At the same time,a double-dummy analysis model is designed to efficiently evaluate the results of sampling.Experimental results indicate that our searching strategy outperforms the top rule-based mobile applications. 展开更多
关键词 multi-agent mobile applications imperfect information deep neural network Monte Carlo Contact Bridge
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划 被引量:1
17
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 DqN算法
原文传递
一种面向博弈场景的PPO-Dueling DQN策略优化方法
18
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度q网络 PPO算法 网络攻防博弈 效能评估
在线阅读 下载PDF
基于Q-learning算法的机场航班延误预测 被引量:2
19
作者 刘琪 乐美龙 《航空计算技术》 2025年第1期28-32,共5页
将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延... 将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延误时间的最终解释变量输入Q-learning算法中,从而实现对航班延误的实时预测。使用北京首都国际机场航班数据进行测试实验,实验结果表明,所提出的模型可以有效预测航班延误,平均误差为4.05 min。将提出的组合算法性能与4种基准方法进行比较,基于DBN的Q-learning算法的延误预测准确性高于另外四种算法,具有较高的预测精度。 展开更多
关键词 航空运输 航班延误预测 深度信念网络 q-LEARNING 航班延误
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
20
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 双深度q网络
在线阅读 下载PDF
上一页 1 2 23 下一页 到第
使用帮助 返回顶部