期刊文献+
共找到600篇文章
< 1 2 30 >
每页显示 20 50 100
基于视觉感知与深度Q网络的循环水养殖智能投喂方法
1
作者 黄海燕 崔丹 +4 位作者 叶佳鑫 周月明 陈猷鹏 杨军超 申渝 《南方水产科学》 北大核心 2026年第2期37-49,共13页
为实现循环水养殖系统(Recirculating aquaculture system,RAS)中投喂策略的精准化与自适应调控,解决因投喂策略静态化导致的饲料利用率低、生长调控粗放等问题,研究提出了一种融合视觉感知与深度Q网络(Deep Q-Network,DQN)的智能投喂... 为实现循环水养殖系统(Recirculating aquaculture system,RAS)中投喂策略的精准化与自适应调控,解决因投喂策略静态化导致的饲料利用率低、生长调控粗放等问题,研究提出了一种融合视觉感知与深度Q网络(Deep Q-Network,DQN)的智能投喂方法。该方法以淡水石斑鱼(Cichlasoma managuense)为实验对象,通过YOLOv8与DeepSORT实现鱼体运动速度的实时跟踪,并结合灰度共生矩阵提取的纹理特征,构建鱼群摄食强度量化指标;进而将摄食强度、水温、溶解氧及期望摄食强度共同作为状态输入,设计多目标奖励函数,采用深度Q网络训练决策模型,形成闭环控制系统。实验结果表明,目标检测平均精度均值(mAP@.5)达85.3%,决策模型在个体平均总投喂量仅378.4 g的条件下,使鱼群体质量增长率(Weight gain rate,WGR)升至54.38%,饲料转化率(Feed conversion ratio,FCR)降至1.09,性能显著优于传统投喂方式。本方法有效实现了摄食行为的实时感知与投喂策略的动态优化,为循环水养殖的精细化管理提供了可靠的技术路径。 展开更多
关键词 视觉感知 深度Q网络 智能投喂 循环水养殖
在线阅读 下载PDF
基于改进深度Q网络的智能网联汽车路径规划
2
作者 文家燕 王怡博 +1 位作者 辛华健 谢广明 《智能系统学报》 北大核心 2026年第1期226-235,共10页
针对非结构环境中的智能网联汽车路径规划问题,传统的深度Q网络(deep Q-network,DQN)算法存在规划效率低、收敛速度慢、泛化性差等问题,本文提出了一种结合注意力机制和经验分类的DQN规划方法。通过结合注意力机制设计经验回放池,通过... 针对非结构环境中的智能网联汽车路径规划问题,传统的深度Q网络(deep Q-network,DQN)算法存在规划效率低、收敛速度慢、泛化性差等问题,本文提出了一种结合注意力机制和经验分类的DQN规划方法。通过结合注意力机制设计经验回放池,通过动态权重分配解决多目标优化冲突,提升相似环境中的经验利用率,降低规划时间,加快收敛;构建非稀疏奖励约束,结合交通环境特性优化状态空间,以便适应多目标场景和实现多场景泛化。仿真表明,优化后的算法平均规划速度提升了28.6%,行进路程较优化前缩短了25.2%,且在不同场景下通过载入训练数据,首次规划成功的耗时缩短了32.8%。 展开更多
关键词 智能网联汽车 路径规划 非结构化环境 注意力机制 经验回放 避障 深度Q网络 深度强化学习
在线阅读 下载PDF
基于改进深度Q网络的异构无人机快速任务分配
3
作者 王月海 邱国帅 +3 位作者 邢娜 赵欣怡 王婕 韩曦 《工程科学学报》 北大核心 2026年第1期142-151,共10页
随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略... 随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略,为此,本文考虑了环境不确定性如不同风速和降雨量,重点研究了改进的强化学习算法在无人机任务分配中的应用,使多无人机系统能够迅速响应并实现资源的高效利用.首先,本文将无人机任务分配问题建模为马尔可夫决策过程,通过神经网络进行策略逼近用以任务分配中高效处理高维和复杂的状态空间,同时引入优先经验重放机制,有效降低了在线计算的负担.仿真结果表明,与其他强化学习方法相比,该算法具有较强的收敛性.在面对复杂环境时,其鲁棒性更为显著.此外,该算法在处理不同任务时仅需0.24 s即可完成一组适合的无人机分配,并能够快速生成大规模无人机集群的任务分配方案. 展开更多
关键词 无人机群 任务分配 强化学习 深度Q网络 马尔可夫决策过程
在线阅读 下载PDF
基于类加权迁移深度Q网络策略的分层数据存储框架
4
作者 冯刚 《计算机应用与软件》 北大核心 2026年第2期387-397,共11页
为了实现数据管理的高效性和适用能力,提出一种基于类加权迁移深度Q网络策略的分层数据存储框架。为了提升其在不同存储解决方案之间进行在线动态数据传输的能力,以及根据数据访问模式和可用性做出决策的能力,引入类加权迁移深度Q网络... 为了实现数据管理的高效性和适用能力,提出一种基于类加权迁移深度Q网络策略的分层数据存储框架。为了提升其在不同存储解决方案之间进行在线动态数据传输的能力,以及根据数据访问模式和可用性做出决策的能力,引入类加权迁移深度Q网络策略来解决分层存储系统中的数据迁移问题,同时忽略源异常值,有效激励了正知识的转移,提升域自适应的效果。最后设计了一个仿真软件和一个云框架进行试验测试,结果证明了提出方法的高效性和自适应能力。 展开更多
关键词 深度Q网络 动态迁移策略 分层数据存储 云框架
在线阅读 下载PDF
基于深度Q网络的分布式车辆路径规划策略研究
5
作者 文家燕 王怡博 景永年 《工业控制计算机》 2026年第2期94-96,共3页
针对智能网联汽车在非结构化环境中路径规划存在学习效率低、泛化能力不足、数据隐私安全性不足等问题,提出一种基于深度Q网络(Deep Q-Network,DQN)的分布式车辆路径规划方法。设计了动态权重分配算法,结合本地数据归一化技术,对多源车... 针对智能网联汽车在非结构化环境中路径规划存在学习效率低、泛化能力不足、数据隐私安全性不足等问题,提出一种基于深度Q网络(Deep Q-Network,DQN)的分布式车辆路径规划方法。设计了动态权重分配算法,结合本地数据归一化技术,对多源车辆模型训练参数进行整合,平衡模型性能的同时保护隐私安全。引入云端共享经验池机制,消除跨场景数据分布偏移,加速全局模型收敛。仿真实验表明,相较于传统DQN算法,提出的算法在环境中路径规划成功率提升显著,模型达到成功率90%时所需的训练回合数减少77.6%。 展开更多
关键词 深度Q网络 路径规划 联邦学习 归一化
在线阅读 下载PDF
基于深度强化学习决策的雷达干扰抑制方法
6
作者 肖易寒 孟祥乾 陆钱融 《制导与引信》 2026年第1期22-31,共10页
针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取... 针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取;然后根据信号特征通过可变贪婪算法选择动作作用于干扰,并将动作前后的信号特征存储于双深度优先经验回放池后,经过学习决策出最优的干扰抑制策略;最后使用该策略抑制干扰后输出。实验结果表明,该方法有效改善了信号的脉压结果,显著提升了信号的信干噪比,相较于基于D3QN的传统干扰抑制方法,在策略准确率和收敛速度上分别提升了7.3%和8.7%。 展开更多
关键词 雷达干扰抑制 双重竞争深度Q网络 双深度优先经验回放 可变贪婪算法 脉冲压缩
在线阅读 下载PDF
LGDLight:线图注意力驱动的区域交通信号控制
7
作者 胡援浩 娄铮铮 +3 位作者 胡世哲 张朝阳 焦重阳 周清雷 《计算机工程与应用》 北大核心 2026年第1期379-390,共12页
针对深度强化学习在区域交通信号控制优化时,多智能体间状态传递过程中所呈现的复杂动态问题,采用线图结构来描述复杂交通网络,使用图注意力网络(graph attention network,GAT)建模路口间动态关系,并将其融入决斗式双深度Q网络(dueling ... 针对深度强化学习在区域交通信号控制优化时,多智能体间状态传递过程中所呈现的复杂动态问题,采用线图结构来描述复杂交通网络,使用图注意力网络(graph attention network,GAT)建模路口间动态关系,并将其融入决斗式双深度Q网络(dueling double deep Q network,D3QN)中,提出线图注意力Q网络交通信号控制方法(line graph deep Q network light,LGDLight)。LGDLight将道路作为节点,路网视为线图,利用图注意力网络来捕捉复杂道路节点间的动态信息交互,增强D3QN对复杂交通状态的感知能力。在仿真环境下的真实车流数据测试实验中,LGDLight相较于其他方法表现出更好的性能,尤其是在车流量较大及路网场景较为复杂情况下所表现出的性能更佳。进一步的实验分析不同奖励机制的影响,结果表明以排队长度作为奖励机制时,该方法能更有效地优化交通信号控制。 展开更多
关键词 交通信号控制 深度强化学习 决斗式双深度Q网络(D3QN) 线图 图注意力网络
在线阅读 下载PDF
干扰环境下DQN结合反步控制的无人船路径跟随
8
作者 路春宇 李震 +1 位作者 王楠 王宇轩 《舰船科学技术》 北大核心 2026年第3期145-153,共9页
为了解决无人水面船(USV)在复杂海洋环境中路径跟随的控制问题,本文构建基于MAVLink的通信系统,实现领航船舶与受控船舶间的实时状态传输,确保受控船舶能够根据领航船舶的实时位置、速度等信息进行动态调整,并利用深度Q网络(Deep Q-Netw... 为了解决无人水面船(USV)在复杂海洋环境中路径跟随的控制问题,本文构建基于MAVLink的通信系统,实现领航船舶与受控船舶间的实时状态传输,确保受控船舶能够根据领航船舶的实时位置、速度等信息进行动态调整,并利用深度Q网络(Deep Q-Network,DQN)的学习方法使受控船舶能够自主学习最优的航行路径,从而提升跟随精度。在通信不稳定的条件下,采用反步控制(Backstepping Control,BC)进行状态预测并实时反馈补偿,从而确保受控船舶能够平稳跟随领航船舶,修正由于数据丢失造成的路径误差。结果表明,该方法在高干扰环境下,尤其在通信延迟和数据包丢失的情况下,仍能维持良好的路径跟随性能。与传统的控制方法相比,基于DQN和BC的混合控制策略显著提高了无人水面船舶的跟随精度和系统稳定性,具有较强的鲁棒性,能够在复杂和动态变化的海洋环境中有效运行。 展开更多
关键词 无人水面船 路径跟随 深度Q网络 反步控制 抗干扰 MAVLink协议
在线阅读 下载PDF
基于改进示教型强化学习的有源配电网故障恢复方法
9
作者 张浩然 许沛东 +4 位作者 乔骥 杨帆 周子雄 刘浩 张俊 《电网技术》 北大核心 2026年第4期1685-1695,I0089,I0090,共13页
故障恢复是确保配电网安全稳定运行的关键环节。在高比例新能源接入的背景下,传统预案式故障恢复算法需实时更新且耗时较长,而启发式算法易陷入局部最优。强化学习虽具有较高计算效率,但无法融合先验经验规则,在配电网故障等高不确定性... 故障恢复是确保配电网安全稳定运行的关键环节。在高比例新能源接入的背景下,传统预案式故障恢复算法需实时更新且耗时较长,而启发式算法易陷入局部最优。强化学习虽具有较高计算效率,但无法融合先验经验规则,在配电网故障等高不确定性情况下决策能力有限。针对这些挑战,该文提出基于改进示教型强化学习的有源配电网故障恢复算法。该算法通过有监督学习预训练强化学习模型,并基于先验经验与交互数据协同训练机制,实现实时策略学习。此外,提出奖励函数权重自适应调整和故障恢复动作掩码机制,在提高模型训练效率的同时确保决策满足物理约束。仿真结果表明,相比传统强化学习算法,该方法故障恢复成功率提升21.2%,决策时间降至传统算法的7.6%。实际算例验证证实了该方法在复杂配网环境下的适应性和可靠性。 展开更多
关键词 有源配电网 强化学习 示教型强化学习 故障恢复
原文传递
利用分布式辐射源闪烁诱偏的抗反辐射方法
10
作者 林志康 刘甲磊 +2 位作者 马佳智 施龙飞 徐进宝 《系统工程与电子技术》 北大核心 2026年第1期1-11,共11页
针对多个反辐射无人机(anti-radiation unmanned aerial vehicle,ARUAV)同时来袭时如何通过分布式辐射源协同实现有效诱偏以保护地面雷达的问题,提出一种面向双架ARUAV打击的分布式辐射源闪烁诱偏方法,旨在以大距离的分布式布站方式对... 针对多个反辐射无人机(anti-radiation unmanned aerial vehicle,ARUAV)同时来袭时如何通过分布式辐射源协同实现有效诱偏以保护地面雷达的问题,提出一种面向双架ARUAV打击的分布式辐射源闪烁诱偏方法,旨在以大距离的分布式布站方式对辐射源进行闪烁辐射控制来影响ARUAV被动测角,进而改变其运行轨迹,最终在末端诱偏使其落点位于雷达辐射源安全半径之外。该方法首先分析信号延时控制形成脉内组合信号对ARUAV的测角诱偏原理并设计ARUAV运动模型,然后建立四维Q表深度Q学习框架,根据雷达安全距离条件建立奖励函数,以一定空域的ARUAV位置和速度作为输入,进行强化学习模型训练。仿真结果表明,所提方法诱偏距离至少为515.91 m,优于传统固定辐射诱偏方法,且较同等布站条件固定辐射的末端诱偏方法诱偏距离至少提升68.59%。 展开更多
关键词 反辐射无人机 分布式辐射源 强化学习 深度Q学习
在线阅读 下载PDF
彩虹深度Q网络联合二分法的有源-无源干扰策略优化方法
11
作者 杨佳瑞 王丽洋 +4 位作者 张奇正 仲秦 岑熙 许朵 李亚超 《雷达学报(中英文)》 北大核心 2026年第1期331-344,共14页
智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与... 智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与二分法,构建了一种有源-无源干扰策略联合优化方法,利用Rainbow DQN决策有无源干扰样式序列,并以二分法动态搜索无源干扰最优释放位置;考虑干扰对抗环境的非完全观测性,该文进一步设计了基于雷达波束指向点变化的奖励函数,以准确反馈干扰策略的有效性。通过仿真模拟干扰机-雷达对抗实验,与深度Q网络(DQN)、决策优势分离深度Q网络(Dueling DQN)及双重深度Q网络(Double DQN)3种主流干扰决策模型相比,所提方法的Q值平均提升2.43倍,奖励均值平均提升3.09倍,无源干扰位置决策步数缩短50%以上。实验结果表明,该文所提基于Rainbow DQN与二分法的有源-无源干扰策略联合优化方法,可实现有源干扰与无源干扰联合有效决策,进一步提高了干扰策略决策模型适用性,显著提升了干扰机电子对抗中的价值。 展开更多
关键词 彩虹深度Q网络 二分法 有源-无源干扰决策 波束指向点 非完全观测环境
在线阅读 下载PDF
基于D3QN算法的电力无线传感网络用户满意度优化
12
作者 杨景刚 胡成博 +3 位作者 朱雪琼 王真 刘洪 李慧 《电力工程技术》 北大核心 2026年第3期57-62,115,共7页
在电力无线传感网络(power wireless sensor network,PWSN)中,多用户上行并发接入受限于有限的频谱与功率资源,且不同监测业务对通信可靠性与时延的需求存在显著差异,导致资源调度难以兼顾整体效能与用户体验。文中在正交频分复用(ortho... 在电力无线传感网络(power wireless sensor network,PWSN)中,多用户上行并发接入受限于有限的频谱与功率资源,且不同监测业务对通信可靠性与时延的需求存在显著差异,导致资源调度难以兼顾整体效能与用户体验。文中在正交频分复用(orthogonal frequency division multiplexing,OFDM)上行架构中构建一种能够在异构业务环境实现服务质量差异化保障的联合资源分配机制,同时设计可量化的用户满意度函数,将子载波与功率联合优化建模为一个马尔科夫决策过程(Markov decision process,MDP),并引入双决斗深度Q网络(dueling double deep Q network,D3QN)算法动态调整资源分配策略。此外,为进一步降低计算复杂度,文中提出动作空间下采样机制,能有效提升训练效率。仿真结果表明,文中算法在不同节点规模与子载波配置下均能够快速收敛,相较于传统深度Q网络(deep Q network,DQN)、随机分配与均匀分配方法,文中算法能显著提升用户满意度。 展开更多
关键词 电力无线传感网络(PWSN) 正交频分复用(OFDM) 用户满意度 资源分配 双决斗深度Q网络(D3QN) 强化学习
在线阅读 下载PDF
基于改进EMDQN的数据中心空调系统仿真优化控制
13
作者 王伟 托娅 +1 位作者 苗宇 何勇军 《哈尔滨理工大学学报》 北大核心 2026年第1期59-67,共9页
为了降低数据中心空调系统的能耗,提出改进的情景记忆深度Q网络(episodic memory deep Q-networks,EMDQN),用于数据中心空调系统优化控制。首先,以过去的温度和设备功耗为参数,利用Patch TST模型预测下一时刻数据中心机柜出风温度。然后... 为了降低数据中心空调系统的能耗,提出改进的情景记忆深度Q网络(episodic memory deep Q-networks,EMDQN),用于数据中心空调系统优化控制。首先,以过去的温度和设备功耗为参数,利用Patch TST模型预测下一时刻数据中心机柜出风温度。然后,基于温度预测结果,搭建数据中心仿真平台,设计基于改进EMDQN的智能空调控制器。在EMDQN的基础上引入Mamba模块,通过Mamba模块的选择性过滤机制减少时间序列特征的冗余信息,保留重要特征,提高了模型的泛化能力和系统性能。实验结果表明:本文方法有效降低了空调系统功率,实现了对空调系统的优化控制。 展开更多
关键词 数据中心 温度预测 空调系统 深度Q网络 优化控制
在线阅读 下载PDF
基于多智能体强化学习求解柔性作业车间联合调度问题
14
作者 孟繁威 郭宏 +3 位作者 延小龙 武玉鑫 张德华 罗雷 《计算机集成制造系统》 北大核心 2026年第3期813-830,共18页
针对柔性作业车间中工件、AGV和机器的联合调度问题,以完工时间最小化为优化目标,提出了一种基于双重深度Q网络的分布式多智能体强化学习(DMA-DDQN)方法。创建了3类智能体,即工件分配智能体、AGV调度智能体及工序选择智能体,分别解决工... 针对柔性作业车间中工件、AGV和机器的联合调度问题,以完工时间最小化为优化目标,提出了一种基于双重深度Q网络的分布式多智能体强化学习(DMA-DDQN)方法。创建了3类智能体,即工件分配智能体、AGV调度智能体及工序选择智能体,分别解决工件分配、AGV选择以及机器工序选择3类调度子问题。首先,双重深度Q网络(DDQN)算法用于训练3类智能体,通过捕捉生产信息和调度目标之间的关系,做出调度决策;其次,针对3类智能体,分别设计了状态和动作表示,以实现更高效的决策。其中,在设计工件分配智能体时,引入了机器评价指数,用于解决车间规模扩大时状态空间产生的维度爆炸问题;在奖励函数设计时采用了替代奖励成形技术,以提高学习效率和调度效率。最后,为了验证所提方法中各类智能体在不同规模下的性能,与现有的启发式调度算法进行了对比;进一步,与复合启发式调度算法及现有调度算法相比,验证所提方法在不同规模下的优越性。 展开更多
关键词 智能车间 多智能体 联合调度 双重深度Q网络
在线阅读 下载PDF
面向安全可编程阀门阵列生物芯片的基于深度强化学习的组件布局算法
15
作者 陈子阳 陈钧 +2 位作者 朱予涵 刘耿耿 黄兴 《计算机工程与科学》 北大核心 2026年第1期40-50,共11页
作为一种新型的连续流体式微流控生物芯片,完全可编程阀门阵列FPVA生物芯片具备高灵活性和可编程性的优点,将其用作实验平台可以提供更加灵活的操纵,同时可以实现个性化的实验流程配置。然而,随着芯片制造工艺不断提高,FPVA生物芯片的... 作为一种新型的连续流体式微流控生物芯片,完全可编程阀门阵列FPVA生物芯片具备高灵活性和可编程性的优点,将其用作实验平台可以提供更加灵活的操纵,同时可以实现个性化的实验流程配置。然而,随着芯片制造工艺不断提高,FPVA生物芯片的集成度已经达到很高的水平,结合其高自由度的特性,对FPVA生物芯片进行编程和设计的难度也在不断提高。组件布局是生物芯片设计中的一个重要步骤,在以往的研究中通常采用启发式算法进行布局,但是对于离散问题的求解效果比较有限,而且参数设置难度较大,因此设计一种高效易用、更加适合离散化的组件布局算法,能够提高整体芯片设计过程的效率。深度强化学习DRL具备高效率、强自适应性和灵活性等优点,智能体通过不断地与环境交互,进行自我训练和调节,能够迅速适应各种复杂的变化和需求并找到最优或近似最优的策略。相比启发式算法,DRL能够更加贴合环境,找到全局最优的布局方案。因此,设计了一种面向FPVA生物芯片的基于DRL的组件布局算法,为DRL智能体构建了FPVA芯片交互环境并采用双重深度Q网络构建组件布局决策模型,利用智能体能够快速迭代的优点迅速完成大规模集成FPVA生物芯片的组件布局工作。同时,通过设计并发关系约束和布局区域约束来判断各个组件之间的并发关系并且对芯片上的可布局区域进行限制,使得布局方案能够更加符合实际情况,从而保证布局方案的正确性与可行性。利用多个测试样例,将所提算法与最新相关算法进行了对比,实验结果表明所提算法能够生成具有更短预布线线长与更少单元复用次数的组件布局方案,从而为后续的布线阶段提供高质量的布局方案。 展开更多
关键词 微流控生物芯片 完全可编程阀门阵列 组件布局 深度强化学习 双重深度Q网络
在线阅读 下载PDF
基于改进的平均DDQN移动机器人路径规划算法
16
作者 卢秋莉 张烈平 +1 位作者 史小旭 彭建盛 《计算机工程与设计》 北大核心 2026年第3期842-849,共8页
为解决传统DDQN算法中存在奖励稀疏和优质经验样本利用不足的问题,提出一种基于改进的平均DDQN移动机器人路径规划算法。提出平均DDQN算法,在传统DDQN算法基础上采用平均Q值法,提升目标Q值估计准确性。改进奖励分配机制,利用轨迹信息中... 为解决传统DDQN算法中存在奖励稀疏和优质经验样本利用不足的问题,提出一种基于改进的平均DDQN移动机器人路径规划算法。提出平均DDQN算法,在传统DDQN算法基础上采用平均Q值法,提升目标Q值估计准确性。改进奖励分配机制,利用轨迹信息中的回合奖励调整每个动作的最终奖励,改善训练时奖励稀疏问题。引入奖励优先加权采样方法,确保优质经验样本得到充分利用。通过在Gazebo平台和实际环境中与其它算法进行比较,实验结果验证了所提算法在路径规划时间、长度和步数上均优于对比算法。 展开更多
关键词 强化学习 移动机器人 深度双Q网络 平均Q值 奖励优先加权采样 避障 路径规划
在线阅读 下载PDF
融合证候辨识置信度的DQN方剂推荐系统—中医个性化诊疗的动态决策模型
17
作者 郑婉婷 仝媛媛 +1 位作者 柴嘉琪 朱玲 《中国数字医学》 2026年第2期85-94,共10页
目的:针对中医证候辨识主观性强、传统方剂推荐缺乏动态响应的问题,提出一种融合证候预测置信度的深度强化学习决策模型,设计自适应优化的中医个性化诊疗系统。方法:基于5970例临床四诊数据,构建深度神经网络(DNN)证候预测模型,采用SMOT... 目的:针对中医证候辨识主观性强、传统方剂推荐缺乏动态响应的问题,提出一种融合证候预测置信度的深度强化学习决策模型,设计自适应优化的中医个性化诊疗系统。方法:基于5970例临床四诊数据,构建深度神经网络(DNN)证候预测模型,采用SMOTE算法解决证候类别不平衡问题;将证候特征向量及其预测置信度联合构成状态空间,构建深度Q网络(DQN),通过奖励函数动态优化决策策略,激励低置信度状态下的探索,并实现高置信度状态下的精准方剂推荐。结果:DNN证候辨识模型准确率达91.1%(宏F190.9%),显著优于传统方法;置信度驱动的DQN系统实现68.9%的智能方剂选择率,综合评分提升至0.658。结论:“证候置信度-DQN”协同决策范式突破了传统静态方剂推荐的局限性,为中医智能诊疗提供了可量化、自适应的动态决策工具,推动临床实践从经验规则向数据驱动的智能化转型。 展开更多
关键词 中医证候辨识 深度神经网络 深度Q网络 个性化方剂推荐
在线阅读 下载PDF
基于深度强化学习的移动机器人动态避障研究
18
作者 张阴硕 王宇钢 +2 位作者 穆俊珍 杨历夏 唐祎晖 《机械工程师》 2026年第3期32-37,共6页
针对采用传统强化学习算法的移动机器人在复杂动态环境下避障的稳定性差及效率较低的问题,提出了一种三因子采样深度Q网络学习方法。通过学习因子提升成功经验采样概率,通过降重因子降低重复采样概率,并提高经验采样效率。通过退火因子... 针对采用传统强化学习算法的移动机器人在复杂动态环境下避障的稳定性差及效率较低的问题,提出了一种三因子采样深度Q网络学习方法。通过学习因子提升成功经验采样概率,通过降重因子降低重复采样概率,并提高经验采样效率。通过退火因子增加经验权重,减少优先级采样时关联经验间奖励值误差,提升机器人避障的稳定性。在动态改变障碍物位置的环境中进行仿真试验。结果表明,与传统深度Q网络算法相比,文中所提方法的价值函数奖励值提升了29.2%,同时损失值降低了68.5%,能有效提高机器人在动态环境下避障的效率及稳定性。 展开更多
关键词 移动机器人 深度强化学习 深度Q网络 三因子采样 动态避障
在线阅读 下载PDF
基于工况预设与深度强化学习的列车节能操纵方法研究
19
作者 魏文博 刘小兵 +2 位作者 张屹 艾兴阁 王小敏 《铁道通信信号》 2026年第2期39-46,共8页
为降低列车的运行能耗,提出一种基于工况预设与深度强化学习的节能操纵优化方法。该方法将列车节能操纵建模为马尔可夫决策过程,采用深度Q学习进行离散求解,在满足准点率和舒适性约束的同时,快速优化控车策略以降低能耗。针对传统强化... 为降低列车的运行能耗,提出一种基于工况预设与深度强化学习的节能操纵优化方法。该方法将列车节能操纵建模为马尔可夫决策过程,采用深度Q学习进行离散求解,在满足准点率和舒适性约束的同时,快速优化控车策略以降低能耗。针对传统强化学习算法探索效率低、训练稳定性差等问题,结合列车运行的可达状态,通过最小时间运行曲线与冗余时间分配实时生成预设工况,采用混合策略动态校正智能体输出,减少对无效状态的探索,提升解的质量和算法收敛效率。基于北京南至廊坊站线路数据的仿真结果表明,与传统强化学习算法相比,本方法显著减少了列车超速行为,牵引能耗降低7.53%,运行准点率和乘客舒适度均得到提升,验证了该方法在节能操纵优化中的有效性和实际应用潜力。 展开更多
关键词 工况预设 深度强化学习 列车节能操纵 深度Q学习 多目标优化
在线阅读 下载PDF
基于DQN增强遗传算法的Plateaued函数高效构造研究
20
作者 吴严生 曹心怡 樊卫北 《计算机科学》 北大核心 2026年第4期57-65,共9页
作为Bent函数的重要推广,Plateaued函数继承了很多Bent函数的优良密码学性质,具有重要的应用价值。由于传统构造Plateaued函数的方法存在计算复杂度高、灵活性不足等问题,因此提出一种基于深度Q网络(Deep Q-Network,DQN)增强的自适应遗... 作为Bent函数的重要推广,Plateaued函数继承了很多Bent函数的优良密码学性质,具有重要的应用价值。由于传统构造Plateaued函数的方法存在计算复杂度高、灵活性不足等问题,因此提出一种基于深度Q网络(Deep Q-Network,DQN)增强的自适应遗传算法。该算法深度融合DQN与遗传算法,构建多维状态空间感知种群进化特征,通过群体共识机制智能选择6种交叉与变异策略组合,实现遗传参数的自适应调控。实验结果表明,该算法的适应度提升幅度达0.20~0.35,收敛速度更快,稳定性更高,平均可生成230~300个有效Plateaued函数真值序列,显著优于标准遗传算法和基础Q-learning遗传算法。算法能智能调节变异率(0.235~0.276)与交叉操作使用率(70%~90%),在优化Walsh谱分布的同时保持种群多样性。尽管计算开销略有增加,但所提算法在解的质量、收敛性能和策略自适应能力上具有显著优势,验证了深度强化学习在密码学函数构造中的有效性,为布尔函数智能化设计提供了新方案。 展开更多
关键词 PLATEAUED函数 真值序列 Q-LEARNING 深度Q网络 遗传算法 WALSH谱 非线性度
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部