期刊文献+
共找到477篇文章
< 1 2 24 >
每页显示 20 50 100
改进Deep Q Networks的交通信号均衡调度算法
1
作者 贺道坤 《机械设计与制造》 北大核心 2025年第4期135-140,共6页
为进一步缓解城市道路高峰时段十字路口的交通拥堵现象,实现路口各道路车流均衡通过,基于改进Deep Q Networks提出了一种的交通信号均衡调度算法。提取十字路口与交通信号调度最相关的特征,分别建立单向十字路口交通信号模型和线性双向... 为进一步缓解城市道路高峰时段十字路口的交通拥堵现象,实现路口各道路车流均衡通过,基于改进Deep Q Networks提出了一种的交通信号均衡调度算法。提取十字路口与交通信号调度最相关的特征,分别建立单向十字路口交通信号模型和线性双向十字路口交通信号模型,并基于此构建交通信号调度优化模型;针对Deep Q Networks算法在交通信号调度问题应用中所存在的收敛性、过估计等不足,对Deep Q Networks进行竞争网络改进、双网络改进以及梯度更新策略改进,提出相适应的均衡调度算法。通过与经典Deep Q Networks仿真比对,验证论文算法对交通信号调度问题的适用性和优越性。基于城市道路数据,分别针对两种场景进行仿真计算,仿真结果表明该算法能够有效缩减十字路口车辆排队长度,均衡各路口车流通行量,缓解高峰出行方向的道路拥堵现象,有利于十字路口交通信号调度效益的提升。 展开更多
关键词 交通信号调度 十字路口 deep q networks 深度强化学习 智能交通
在线阅读 下载PDF
基于Deep Q Networks的交通指示灯控制方法 被引量:2
2
作者 颜文胜 吕红兵 《计算机测量与控制》 2021年第6期93-97,共5页
交通指示灯的智能控制是当前智能交通研究中的热点问题;为更加及时有效地自适应动态交通,进一步提升街道路口车流效率,提出了一种基于Deep Q Networks的道路指示灯控制方法;该方法基于道路指示灯控制问题描述,以状态、行动和奖励三要素... 交通指示灯的智能控制是当前智能交通研究中的热点问题;为更加及时有效地自适应动态交通,进一步提升街道路口车流效率,提出了一种基于Deep Q Networks的道路指示灯控制方法;该方法基于道路指示灯控制问题描述,以状态、行动和奖励三要素构建道路指示灯控制的强化学习模型,提出基于Deep Q Networks的道路指示控制方法流程;为检验方法的有效性,以浙江省台州市市府大道与东环大道交叉路口交通数据在SUMO中进行方法比对与仿真实验;实验结果表明,基于Deep Q Networks的交通指示灯控制方法在交通指示等的控制与调度中具有更高的效率和自主性,更有利于改善路口车流的吞吐量,对道路路口车流的驻留时延、队列长度和等待时间等方面的优化具有更好的性能。 展开更多
关键词 道路指示灯 deep q networks 智能交通 信号控制
在线阅读 下载PDF
基于Deep Q Networks的机械臂推动和抓握协同控制 被引量:3
3
作者 贺道坤 《现代制造工程》 CSCD 北大核心 2021年第7期23-28,共6页
针对目前机械臂在复杂场景应用不足以及推动和抓握自主协同控制研究不多的现状,发挥深度Q网络(Deep Q Networks)无规则、自主学习优势,提出了一种基于Deep Q Networks的机械臂推动和抓握协同控制方法。通过2个完全卷积网络将场景信息映... 针对目前机械臂在复杂场景应用不足以及推动和抓握自主协同控制研究不多的现状,发挥深度Q网络(Deep Q Networks)无规则、自主学习优势,提出了一种基于Deep Q Networks的机械臂推动和抓握协同控制方法。通过2个完全卷积网络将场景信息映射至推动或抓握动作,经过马尔可夫过程,采取目光长远奖励机制,选取最佳行为函数,实现对复杂场景机械臂推动和抓握动作的自主协同控制。在仿真和真实场景实验中,该方法在复杂场景中能够通过推动和抓握自主协同操控实现对物块的快速抓取,并获得更高的动作效率和抓取成功率。 展开更多
关键词 机械臂 抓握 推动 深度q网络(deep q networks) 协同控制
在线阅读 下载PDF
Improved Double Deep Q Network Algorithm Based on Average Q-Value Estimation and Reward Redistribution for Robot Path Planning
4
作者 Yameng Yin Lieping Zhang +3 位作者 Xiaoxu Shi Yilin Wang Jiansheng Peng Jianchu Zou 《Computers, Materials & Continua》 SCIE EI 2024年第11期2769-2790,共22页
By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning... By integrating deep neural networks with reinforcement learning,the Double Deep Q Network(DDQN)algorithm overcomes the limitations of Q-learning in handling continuous spaces and is widely applied in the path planning of mobile robots.However,the traditional DDQN algorithm suffers from sparse rewards and inefficient utilization of high-quality data.Targeting those problems,an improved DDQN algorithm based on average Q-value estimation and reward redistribution was proposed.First,to enhance the precision of the target Q-value,the average of multiple previously learned Q-values from the target Q network is used to replace the single Q-value from the current target Q network.Next,a reward redistribution mechanism is designed to overcome the sparse reward problem by adjusting the final reward of each action using the round reward from trajectory information.Additionally,a reward-prioritized experience selection method is introduced,which ranks experience samples according to reward values to ensure frequent utilization of high-quality data.Finally,simulation experiments are conducted to verify the effectiveness of the proposed algorithm in fixed-position scenario and random environments.The experimental results show that compared to the traditional DDQN algorithm,the proposed algorithm achieves shorter average running time,higher average return and fewer average steps.The performance of the proposed algorithm is improved by 11.43%in the fixed scenario and 8.33%in random environments.It not only plans economic and safe paths but also significantly improves efficiency and generalization in path planning,making it suitable for widespread application in autonomous navigation and industrial automation. 展开更多
关键词 Double deep q network path planning average q-value estimation reward redistribution mechanism reward-prioritized experience selection method
在线阅读 下载PDF
Deep Reinforcement Learning Approach for X-rudder AUVs Fault Diagnosis Based on Deep Q-network
5
作者 Chuanfa Chen Xiang Gao +3 位作者 Yueming Li Xuezhi Chen Jian Cao Yinghao Zhang 《哈尔滨工程大学学报(英文版)》 2025年第6期1239-1251,共13页
The rudder mechanism of the X-rudder autonomous underwater cehicle(AUV)is relatively complex,and fault diagnosis capability is an important guarantee for its task execution in complex underwater environments.However,t... The rudder mechanism of the X-rudder autonomous underwater cehicle(AUV)is relatively complex,and fault diagnosis capability is an important guarantee for its task execution in complex underwater environments.However,traditional fault diagnosis methods currently rely on prior knowledge and expert experience,and lack accuracy.In order to improve the autonomy and accuracy of fault diagnosis methods,and overcome the shortcomings of traditional algorithms,this paper proposes an X-steering AUV fault diagnosis model based on the deep reinforcement learning deep Q network(DQN)algorithm,which can learn the relationship between state data and fault types,map raw residual data to corresponding fault patterns,and achieve end-to-end mapping.In addition,to solve the problem of few X-steering fault sample data,Dropout technology is introduced during the model training phase to improve the performance of the DQN algorithm.Experimental results show that the proposed model has improved the convergence speed and comprehensive performance indicators compared to the unimproved DQN algorithm,with precision,recall,F_(1-score),and accuracy reaching up to 100%,98.07%,99.02%,and 98.50% respectively,and the model’s accuracy is higher than other machine learning algorithms like back propagation,support vector machine. 展开更多
关键词 Autonomous underwater cehicles X-rudder Fault diagnosis deep q network Dropout technique
在线阅读 下载PDF
Improved Double Deep Q Network-Based Task Scheduling Algorithm in Edge Computing for Makespan Optimization 被引量:4
6
作者 Lei Zeng Qi Liu +1 位作者 Shigen Shen Xiaodong Liu 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2024年第3期806-817,共12页
Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical ... Edge computing nodes undertake an increasing number of tasks with the rise of business density.Therefore,how to efficiently allocate large-scale and dynamic workloads to edge computing resources has become a critical challenge.This study proposes an edge task scheduling approach based on an improved Double Deep Q Network(DQN),which is adopted to separate the calculations of target Q values and the selection of the action in two networks.A new reward function is designed,and a control unit is added to the experience replay unit of the agent.The management of experience data are also modified to fully utilize its value and improve learning efficiency.Reinforcement learning agents usually learn from an ignorant state,which is inefficient.As such,this study proposes a novel particle swarm optimization algorithm with an improved fitness function,which can generate optimal solutions for task scheduling.These optimized solutions are provided for the agent to pre-train network parameters to obtain a better cognition level.The proposed algorithm is compared with six other methods in simulation experiments.Results show that the proposed algorithm outperforms other benchmark methods regarding makespan. 展开更多
关键词 edge computing task scheduling reinforcement learning MAKESPAN Double deep q network(DqN)
原文传递
Artificial Potential Field Incorporated Deep-Q-Network Algorithm for Mobile Robot Path Prediction 被引量:3
7
作者 A.Sivaranjani B.Vinod 《Intelligent Automation & Soft Computing》 SCIE 2023年第1期1135-1150,共16页
Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a st... Autonomous navigation of mobile robots is a challenging task that requires them to travel from their initial position to their destination without collision in an environment.Reinforcement Learning methods enable a state action function in mobile robots suited to their environment.During trial-and-error interaction with its surroundings,it helps a robot tofind an ideal behavior on its own.The Deep Q Network(DQN)algorithm is used in TurtleBot 3(TB3)to achieve the goal by successfully avoiding the obstacles.But it requires a large number of training iterations.This research mainly focuses on a mobility robot’s best path prediction utilizing DQN and the Artificial Potential Field(APF)algorithms.First,a TB3 Waffle Pi DQN is built and trained to reach the goal.Then the APF shortest path algorithm is incorporated into the DQN algorithm.The proposed planning approach is compared with the standard DQN method in a virtual environment based on the Robot Operation System(ROS).The results from the simulation show that the combination is effective for DQN and APF gives a better optimal path and takes less time when compared to the conventional DQN algo-rithm.The performance improvement rate of the proposed DQN+APF in comparison with DQN in terms of the number of successful targets is attained by 88%.The performance of the proposed DQN+APF in comparison with DQN in terms of average time is achieved by 0.331 s.The performance of the proposed DQN+APF in comparison with DQN average rewards in which the positive goal is attained by 85%and the negative goal is attained by-90%. 展开更多
关键词 Artificial potentialfield deep reinforcement learning mobile robot turtle bot deep q network path prediction
在线阅读 下载PDF
基于视觉感知与深度Q网络的循环水养殖智能投喂方法
8
作者 黄海燕 崔丹 +4 位作者 叶佳鑫 周月明 陈猷鹏 杨军超 申渝 《南方水产科学》 北大核心 2026年第2期37-49,共13页
为实现循环水养殖系统(Recirculating aquaculture system,RAS)中投喂策略的精准化与自适应调控,解决因投喂策略静态化导致的饲料利用率低、生长调控粗放等问题,研究提出了一种融合视觉感知与深度Q网络(Deep Q-Network,DQN)的智能投喂... 为实现循环水养殖系统(Recirculating aquaculture system,RAS)中投喂策略的精准化与自适应调控,解决因投喂策略静态化导致的饲料利用率低、生长调控粗放等问题,研究提出了一种融合视觉感知与深度Q网络(Deep Q-Network,DQN)的智能投喂方法。该方法以淡水石斑鱼(Cichlasoma managuense)为实验对象,通过YOLOv8与DeepSORT实现鱼体运动速度的实时跟踪,并结合灰度共生矩阵提取的纹理特征,构建鱼群摄食强度量化指标;进而将摄食强度、水温、溶解氧及期望摄食强度共同作为状态输入,设计多目标奖励函数,采用深度Q网络训练决策模型,形成闭环控制系统。实验结果表明,目标检测平均精度均值(mAP@.5)达85.3%,决策模型在个体平均总投喂量仅378.4 g的条件下,使鱼群体质量增长率(Weight gain rate,WGR)升至54.38%,饲料转化率(Feed conversion ratio,FCR)降至1.09,性能显著优于传统投喂方式。本方法有效实现了摄食行为的实时感知与投喂策略的动态优化,为循环水养殖的精细化管理提供了可靠的技术路径。 展开更多
关键词 视觉感知 深度q网络 智能投喂 循环水养殖
在线阅读 下载PDF
基于改进深度Q网络的智能网联汽车路径规划
9
作者 文家燕 王怡博 +1 位作者 辛华健 谢广明 《智能系统学报》 北大核心 2026年第1期226-235,共10页
针对非结构环境中的智能网联汽车路径规划问题,传统的深度Q网络(deep Q-network,DQN)算法存在规划效率低、收敛速度慢、泛化性差等问题,本文提出了一种结合注意力机制和经验分类的DQN规划方法。通过结合注意力机制设计经验回放池,通过... 针对非结构环境中的智能网联汽车路径规划问题,传统的深度Q网络(deep Q-network,DQN)算法存在规划效率低、收敛速度慢、泛化性差等问题,本文提出了一种结合注意力机制和经验分类的DQN规划方法。通过结合注意力机制设计经验回放池,通过动态权重分配解决多目标优化冲突,提升相似环境中的经验利用率,降低规划时间,加快收敛;构建非稀疏奖励约束,结合交通环境特性优化状态空间,以便适应多目标场景和实现多场景泛化。仿真表明,优化后的算法平均规划速度提升了28.6%,行进路程较优化前缩短了25.2%,且在不同场景下通过载入训练数据,首次规划成功的耗时缩短了32.8%。 展开更多
关键词 智能网联汽车 路径规划 非结构化环境 注意力机制 经验回放 避障 深度q网络 深度强化学习
在线阅读 下载PDF
基于改进深度Q网络的异构无人机快速任务分配
10
作者 王月海 邱国帅 +3 位作者 邢娜 赵欣怡 王婕 韩曦 《工程科学学报》 北大核心 2026年第1期142-151,共10页
随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略... 随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略,为此,本文考虑了环境不确定性如不同风速和降雨量,重点研究了改进的强化学习算法在无人机任务分配中的应用,使多无人机系统能够迅速响应并实现资源的高效利用.首先,本文将无人机任务分配问题建模为马尔可夫决策过程,通过神经网络进行策略逼近用以任务分配中高效处理高维和复杂的状态空间,同时引入优先经验重放机制,有效降低了在线计算的负担.仿真结果表明,与其他强化学习方法相比,该算法具有较强的收敛性.在面对复杂环境时,其鲁棒性更为显著.此外,该算法在处理不同任务时仅需0.24 s即可完成一组适合的无人机分配,并能够快速生成大规模无人机集群的任务分配方案. 展开更多
关键词 无人机群 任务分配 强化学习 深度q网络 马尔可夫决策过程
在线阅读 下载PDF
基于类加权迁移深度Q网络策略的分层数据存储框架
11
作者 冯刚 《计算机应用与软件》 北大核心 2026年第2期387-397,共11页
为了实现数据管理的高效性和适用能力,提出一种基于类加权迁移深度Q网络策略的分层数据存储框架。为了提升其在不同存储解决方案之间进行在线动态数据传输的能力,以及根据数据访问模式和可用性做出决策的能力,引入类加权迁移深度Q网络... 为了实现数据管理的高效性和适用能力,提出一种基于类加权迁移深度Q网络策略的分层数据存储框架。为了提升其在不同存储解决方案之间进行在线动态数据传输的能力,以及根据数据访问模式和可用性做出决策的能力,引入类加权迁移深度Q网络策略来解决分层存储系统中的数据迁移问题,同时忽略源异常值,有效激励了正知识的转移,提升域自适应的效果。最后设计了一个仿真软件和一个云框架进行试验测试,结果证明了提出方法的高效性和自适应能力。 展开更多
关键词 深度q网络 动态迁移策略 分层数据存储 云框架
在线阅读 下载PDF
基于深度Q网络的分布式车辆路径规划策略研究
12
作者 文家燕 王怡博 景永年 《工业控制计算机》 2026年第2期94-96,共3页
针对智能网联汽车在非结构化环境中路径规划存在学习效率低、泛化能力不足、数据隐私安全性不足等问题,提出一种基于深度Q网络(Deep Q-Network,DQN)的分布式车辆路径规划方法。设计了动态权重分配算法,结合本地数据归一化技术,对多源车... 针对智能网联汽车在非结构化环境中路径规划存在学习效率低、泛化能力不足、数据隐私安全性不足等问题,提出一种基于深度Q网络(Deep Q-Network,DQN)的分布式车辆路径规划方法。设计了动态权重分配算法,结合本地数据归一化技术,对多源车辆模型训练参数进行整合,平衡模型性能的同时保护隐私安全。引入云端共享经验池机制,消除跨场景数据分布偏移,加速全局模型收敛。仿真实验表明,相较于传统DQN算法,提出的算法在环境中路径规划成功率提升显著,模型达到成功率90%时所需的训练回合数减少77.6%。 展开更多
关键词 深度q网络 路径规划 联邦学习 归一化
在线阅读 下载PDF
干扰环境下DQN结合反步控制的无人船路径跟随
13
作者 路春宇 李震 +1 位作者 王楠 王宇轩 《舰船科学技术》 北大核心 2026年第3期145-153,共9页
为了解决无人水面船(USV)在复杂海洋环境中路径跟随的控制问题,本文构建基于MAVLink的通信系统,实现领航船舶与受控船舶间的实时状态传输,确保受控船舶能够根据领航船舶的实时位置、速度等信息进行动态调整,并利用深度Q网络(Deep Q-Netw... 为了解决无人水面船(USV)在复杂海洋环境中路径跟随的控制问题,本文构建基于MAVLink的通信系统,实现领航船舶与受控船舶间的实时状态传输,确保受控船舶能够根据领航船舶的实时位置、速度等信息进行动态调整,并利用深度Q网络(Deep Q-Network,DQN)的学习方法使受控船舶能够自主学习最优的航行路径,从而提升跟随精度。在通信不稳定的条件下,采用反步控制(Backstepping Control,BC)进行状态预测并实时反馈补偿,从而确保受控船舶能够平稳跟随领航船舶,修正由于数据丢失造成的路径误差。结果表明,该方法在高干扰环境下,尤其在通信延迟和数据包丢失的情况下,仍能维持良好的路径跟随性能。与传统的控制方法相比,基于DQN和BC的混合控制策略显著提高了无人水面船舶的跟随精度和系统稳定性,具有较强的鲁棒性,能够在复杂和动态变化的海洋环境中有效运行。 展开更多
关键词 无人水面船 路径跟随 深度q网络 反步控制 抗干扰 MAVLink协议
在线阅读 下载PDF
彩虹深度Q网络联合二分法的有源-无源干扰策略优化方法
14
作者 杨佳瑞 王丽洋 +4 位作者 张奇正 仲秦 岑熙 许朵 李亚超 《雷达学报(中英文)》 北大核心 2026年第1期331-344,共14页
智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与... 智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与二分法,构建了一种有源-无源干扰策略联合优化方法,利用Rainbow DQN决策有无源干扰样式序列,并以二分法动态搜索无源干扰最优释放位置;考虑干扰对抗环境的非完全观测性,该文进一步设计了基于雷达波束指向点变化的奖励函数,以准确反馈干扰策略的有效性。通过仿真模拟干扰机-雷达对抗实验,与深度Q网络(DQN)、决策优势分离深度Q网络(Dueling DQN)及双重深度Q网络(Double DQN)3种主流干扰决策模型相比,所提方法的Q值平均提升2.43倍,奖励均值平均提升3.09倍,无源干扰位置决策步数缩短50%以上。实验结果表明,该文所提基于Rainbow DQN与二分法的有源-无源干扰策略联合优化方法,可实现有源干扰与无源干扰联合有效决策,进一步提高了干扰策略决策模型适用性,显著提升了干扰机电子对抗中的价值。 展开更多
关键词 彩虹深度q网络 二分法 有源-无源干扰决策 波束指向点 非完全观测环境
在线阅读 下载PDF
基于D3QN算法的电力无线传感网络用户满意度优化
15
作者 杨景刚 胡成博 +3 位作者 朱雪琼 王真 刘洪 李慧 《电力工程技术》 北大核心 2026年第3期57-62,115,共7页
在电力无线传感网络(power wireless sensor network,PWSN)中,多用户上行并发接入受限于有限的频谱与功率资源,且不同监测业务对通信可靠性与时延的需求存在显著差异,导致资源调度难以兼顾整体效能与用户体验。文中在正交频分复用(ortho... 在电力无线传感网络(power wireless sensor network,PWSN)中,多用户上行并发接入受限于有限的频谱与功率资源,且不同监测业务对通信可靠性与时延的需求存在显著差异,导致资源调度难以兼顾整体效能与用户体验。文中在正交频分复用(orthogonal frequency division multiplexing,OFDM)上行架构中构建一种能够在异构业务环境实现服务质量差异化保障的联合资源分配机制,同时设计可量化的用户满意度函数,将子载波与功率联合优化建模为一个马尔科夫决策过程(Markov decision process,MDP),并引入双决斗深度Q网络(dueling double deep Q network,D3QN)算法动态调整资源分配策略。此外,为进一步降低计算复杂度,文中提出动作空间下采样机制,能有效提升训练效率。仿真结果表明,文中算法在不同节点规模与子载波配置下均能够快速收敛,相较于传统深度Q网络(deep Q network,DQN)、随机分配与均匀分配方法,文中算法能显著提升用户满意度。 展开更多
关键词 电力无线传感网络(PWSN) 正交频分复用(OFDM) 用户满意度 资源分配 双决斗深度q网络(D3qN) 强化学习
在线阅读 下载PDF
基于改进EMDQN的数据中心空调系统仿真优化控制
16
作者 王伟 托娅 +1 位作者 苗宇 何勇军 《哈尔滨理工大学学报》 北大核心 2026年第1期59-67,共9页
为了降低数据中心空调系统的能耗,提出改进的情景记忆深度Q网络(episodic memory deep Q-networks,EMDQN),用于数据中心空调系统优化控制。首先,以过去的温度和设备功耗为参数,利用Patch TST模型预测下一时刻数据中心机柜出风温度。然后... 为了降低数据中心空调系统的能耗,提出改进的情景记忆深度Q网络(episodic memory deep Q-networks,EMDQN),用于数据中心空调系统优化控制。首先,以过去的温度和设备功耗为参数,利用Patch TST模型预测下一时刻数据中心机柜出风温度。然后,基于温度预测结果,搭建数据中心仿真平台,设计基于改进EMDQN的智能空调控制器。在EMDQN的基础上引入Mamba模块,通过Mamba模块的选择性过滤机制减少时间序列特征的冗余信息,保留重要特征,提高了模型的泛化能力和系统性能。实验结果表明:本文方法有效降低了空调系统功率,实现了对空调系统的优化控制。 展开更多
关键词 数据中心 温度预测 空调系统 深度q网络 优化控制
在线阅读 下载PDF
基于改进的平均DDQN移动机器人路径规划算法
17
作者 卢秋莉 张烈平 +1 位作者 史小旭 彭建盛 《计算机工程与设计》 北大核心 2026年第3期842-849,共8页
为解决传统DDQN算法中存在奖励稀疏和优质经验样本利用不足的问题,提出一种基于改进的平均DDQN移动机器人路径规划算法。提出平均DDQN算法,在传统DDQN算法基础上采用平均Q值法,提升目标Q值估计准确性。改进奖励分配机制,利用轨迹信息中... 为解决传统DDQN算法中存在奖励稀疏和优质经验样本利用不足的问题,提出一种基于改进的平均DDQN移动机器人路径规划算法。提出平均DDQN算法,在传统DDQN算法基础上采用平均Q值法,提升目标Q值估计准确性。改进奖励分配机制,利用轨迹信息中的回合奖励调整每个动作的最终奖励,改善训练时奖励稀疏问题。引入奖励优先加权采样方法,确保优质经验样本得到充分利用。通过在Gazebo平台和实际环境中与其它算法进行比较,实验结果验证了所提算法在路径规划时间、长度和步数上均优于对比算法。 展开更多
关键词 强化学习 移动机器人 深度双q网络 平均q 奖励优先加权采样 避障 路径规划
在线阅读 下载PDF
融合证候辨识置信度的DQN方剂推荐系统—中医个性化诊疗的动态决策模型
18
作者 郑婉婷 仝媛媛 +1 位作者 柴嘉琪 朱玲 《中国数字医学》 2026年第2期85-94,共10页
目的:针对中医证候辨识主观性强、传统方剂推荐缺乏动态响应的问题,提出一种融合证候预测置信度的深度强化学习决策模型,设计自适应优化的中医个性化诊疗系统。方法:基于5970例临床四诊数据,构建深度神经网络(DNN)证候预测模型,采用SMOT... 目的:针对中医证候辨识主观性强、传统方剂推荐缺乏动态响应的问题,提出一种融合证候预测置信度的深度强化学习决策模型,设计自适应优化的中医个性化诊疗系统。方法:基于5970例临床四诊数据,构建深度神经网络(DNN)证候预测模型,采用SMOTE算法解决证候类别不平衡问题;将证候特征向量及其预测置信度联合构成状态空间,构建深度Q网络(DQN),通过奖励函数动态优化决策策略,激励低置信度状态下的探索,并实现高置信度状态下的精准方剂推荐。结果:DNN证候辨识模型准确率达91.1%(宏F190.9%),显著优于传统方法;置信度驱动的DQN系统实现68.9%的智能方剂选择率,综合评分提升至0.658。结论:“证候置信度-DQN”协同决策范式突破了传统静态方剂推荐的局限性,为中医智能诊疗提供了可量化、自适应的动态决策工具,推动临床实践从经验规则向数据驱动的智能化转型。 展开更多
关键词 中医证候辨识 深度神经网络 深度q网络 个性化方剂推荐
在线阅读 下载PDF
基于DQN增强遗传算法的Plateaued函数高效构造研究
19
作者 吴严生 曹心怡 樊卫北 《计算机科学》 北大核心 2026年第4期57-65,共9页
作为Bent函数的重要推广,Plateaued函数继承了很多Bent函数的优良密码学性质,具有重要的应用价值。由于传统构造Plateaued函数的方法存在计算复杂度高、灵活性不足等问题,因此提出一种基于深度Q网络(Deep Q-Network,DQN)增强的自适应遗... 作为Bent函数的重要推广,Plateaued函数继承了很多Bent函数的优良密码学性质,具有重要的应用价值。由于传统构造Plateaued函数的方法存在计算复杂度高、灵活性不足等问题,因此提出一种基于深度Q网络(Deep Q-Network,DQN)增强的自适应遗传算法。该算法深度融合DQN与遗传算法,构建多维状态空间感知种群进化特征,通过群体共识机制智能选择6种交叉与变异策略组合,实现遗传参数的自适应调控。实验结果表明,该算法的适应度提升幅度达0.20~0.35,收敛速度更快,稳定性更高,平均可生成230~300个有效Plateaued函数真值序列,显著优于标准遗传算法和基础Q-learning遗传算法。算法能智能调节变异率(0.235~0.276)与交叉操作使用率(70%~90%),在优化Walsh谱分布的同时保持种群多样性。尽管计算开销略有增加,但所提算法在解的质量、收敛性能和策略自适应能力上具有显著优势,验证了深度强化学习在密码学函数构造中的有效性,为布尔函数智能化设计提供了新方案。 展开更多
关键词 PLATEAUED函数 真值序列 q-LEARNING 深度q网络 遗传算法 WALSH谱 非线性度
在线阅读 下载PDF
Walking Stability Control Method for Biped Robot on Uneven Ground Based on Deep Q-Network
20
作者 Baoling Han Yuting Zhao Qingsheng Luo 《Journal of Beijing Institute of Technology》 EI CAS 2019年第3期598-605,共8页
A gait control method for a biped robot based on the deep Q-network (DQN) algorithm is proposed to enhance the stability of walking on uneven ground. This control strategy is an intelligent learning method of posture ... A gait control method for a biped robot based on the deep Q-network (DQN) algorithm is proposed to enhance the stability of walking on uneven ground. This control strategy is an intelligent learning method of posture adjustment. A robot is taken as an agent and trained to walk steadily on an uneven surface with obstacles, using a simple reward function based on forward progress. The reward-punishment (RP) mechanism of the DQN algorithm is established after obtaining the offline gait which was generated in advance foot trajectory planning. Instead of implementing a complex dynamic model, the proposed method enables the biped robot to learn to adjust its posture on the uneven ground and ensures walking stability. The performance and effectiveness of the proposed algorithm was validated in the V-REP simulation environment. The results demonstrate that the biped robot's lateral tile angle is less than 3° after implementing the proposed method and the walking stability is obviously improved. 展开更多
关键词 deep q-network (DqN) BIPED robot uneven ground WALKING STABILITY gait control
在线阅读 下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部