期刊文献+
共找到578篇文章
< 1 2 29 >
每页显示 20 50 100
基于改进深度Q网络的异构无人机快速任务分配
1
作者 王月海 邱国帅 +3 位作者 邢娜 赵欣怡 王婕 韩曦 《工程科学学报》 北大核心 2026年第1期142-151,共10页
随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略... 随着无人机技术的快速发展,多无人机系统在执行复杂任务时展现出巨大潜力,高效的任务分配策略对提升多无人机系统的整体性能至关重要.然而,传统方法如集中式优化、拍卖算法及鸽群算法等,在面对复杂环境干扰时往往难以生成有效的分配策略,为此,本文考虑了环境不确定性如不同风速和降雨量,重点研究了改进的强化学习算法在无人机任务分配中的应用,使多无人机系统能够迅速响应并实现资源的高效利用.首先,本文将无人机任务分配问题建模为马尔可夫决策过程,通过神经网络进行策略逼近用以任务分配中高效处理高维和复杂的状态空间,同时引入优先经验重放机制,有效降低了在线计算的负担.仿真结果表明,与其他强化学习方法相比,该算法具有较强的收敛性.在面对复杂环境时,其鲁棒性更为显著.此外,该算法在处理不同任务时仅需0.24 s即可完成一组适合的无人机分配,并能够快速生成大规模无人机集群的任务分配方案. 展开更多
关键词 无人机群 任务分配 强化学习 深度Q网络 马尔可夫决策过程
在线阅读 下载PDF
基于类加权迁移深度Q网络策略的分层数据存储框架
2
作者 冯刚 《计算机应用与软件》 北大核心 2026年第2期387-397,共11页
为了实现数据管理的高效性和适用能力,提出一种基于类加权迁移深度Q网络策略的分层数据存储框架。为了提升其在不同存储解决方案之间进行在线动态数据传输的能力,以及根据数据访问模式和可用性做出决策的能力,引入类加权迁移深度Q网络... 为了实现数据管理的高效性和适用能力,提出一种基于类加权迁移深度Q网络策略的分层数据存储框架。为了提升其在不同存储解决方案之间进行在线动态数据传输的能力,以及根据数据访问模式和可用性做出决策的能力,引入类加权迁移深度Q网络策略来解决分层存储系统中的数据迁移问题,同时忽略源异常值,有效激励了正知识的转移,提升域自适应的效果。最后设计了一个仿真软件和一个云框架进行试验测试,结果证明了提出方法的高效性和自适应能力。 展开更多
关键词 深度Q网络 动态迁移策略 分层数据存储 云框架
在线阅读 下载PDF
基于深度Q网络的分布式车辆路径规划策略研究
3
作者 文家燕 王怡博 景永年 《工业控制计算机》 2026年第2期94-96,共3页
针对智能网联汽车在非结构化环境中路径规划存在学习效率低、泛化能力不足、数据隐私安全性不足等问题,提出一种基于深度Q网络(Deep Q-Network,DQN)的分布式车辆路径规划方法。设计了动态权重分配算法,结合本地数据归一化技术,对多源车... 针对智能网联汽车在非结构化环境中路径规划存在学习效率低、泛化能力不足、数据隐私安全性不足等问题,提出一种基于深度Q网络(Deep Q-Network,DQN)的分布式车辆路径规划方法。设计了动态权重分配算法,结合本地数据归一化技术,对多源车辆模型训练参数进行整合,平衡模型性能的同时保护隐私安全。引入云端共享经验池机制,消除跨场景数据分布偏移,加速全局模型收敛。仿真实验表明,相较于传统DQN算法,提出的算法在环境中路径规划成功率提升显著,模型达到成功率90%时所需的训练回合数减少77.6%。 展开更多
关键词 深度Q网络 路径规划 联邦学习 归一化
在线阅读 下载PDF
基于深度强化学习决策的雷达干扰抑制方法
4
作者 肖易寒 孟祥乾 陆钱融 《制导与引信》 2026年第1期22-31,共10页
针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取... 针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取;然后根据信号特征通过可变贪婪算法选择动作作用于干扰,并将动作前后的信号特征存储于双深度优先经验回放池后,经过学习决策出最优的干扰抑制策略;最后使用该策略抑制干扰后输出。实验结果表明,该方法有效改善了信号的脉压结果,显著提升了信号的信干噪比,相较于基于D3QN的传统干扰抑制方法,在策略准确率和收敛速度上分别提升了7.3%和8.7%。 展开更多
关键词 雷达干扰抑制 双重竞争深度Q网络 双深度优先经验回放 可变贪婪算法 脉冲压缩
在线阅读 下载PDF
LGDLight:线图注意力驱动的区域交通信号控制
5
作者 胡援浩 娄铮铮 +3 位作者 胡世哲 张朝阳 焦重阳 周清雷 《计算机工程与应用》 北大核心 2026年第1期379-390,共12页
针对深度强化学习在区域交通信号控制优化时,多智能体间状态传递过程中所呈现的复杂动态问题,采用线图结构来描述复杂交通网络,使用图注意力网络(graph attention network,GAT)建模路口间动态关系,并将其融入决斗式双深度Q网络(dueling ... 针对深度强化学习在区域交通信号控制优化时,多智能体间状态传递过程中所呈现的复杂动态问题,采用线图结构来描述复杂交通网络,使用图注意力网络(graph attention network,GAT)建模路口间动态关系,并将其融入决斗式双深度Q网络(dueling double deep Q network,D3QN)中,提出线图注意力Q网络交通信号控制方法(line graph deep Q network light,LGDLight)。LGDLight将道路作为节点,路网视为线图,利用图注意力网络来捕捉复杂道路节点间的动态信息交互,增强D3QN对复杂交通状态的感知能力。在仿真环境下的真实车流数据测试实验中,LGDLight相较于其他方法表现出更好的性能,尤其是在车流量较大及路网场景较为复杂情况下所表现出的性能更佳。进一步的实验分析不同奖励机制的影响,结果表明以排队长度作为奖励机制时,该方法能更有效地优化交通信号控制。 展开更多
关键词 交通信号控制 深度强化学习 决斗式双深度Q网络(D3QN) 线图 图注意力网络
在线阅读 下载PDF
干扰环境下DQN结合反步控制的无人船路径跟随
6
作者 路春宇 李震 +1 位作者 王楠 王宇轩 《舰船科学技术》 北大核心 2026年第3期145-153,共9页
为了解决无人水面船(USV)在复杂海洋环境中路径跟随的控制问题,本文构建基于MAVLink的通信系统,实现领航船舶与受控船舶间的实时状态传输,确保受控船舶能够根据领航船舶的实时位置、速度等信息进行动态调整,并利用深度Q网络(Deep Q-Netw... 为了解决无人水面船(USV)在复杂海洋环境中路径跟随的控制问题,本文构建基于MAVLink的通信系统,实现领航船舶与受控船舶间的实时状态传输,确保受控船舶能够根据领航船舶的实时位置、速度等信息进行动态调整,并利用深度Q网络(Deep Q-Network,DQN)的学习方法使受控船舶能够自主学习最优的航行路径,从而提升跟随精度。在通信不稳定的条件下,采用反步控制(Backstepping Control,BC)进行状态预测并实时反馈补偿,从而确保受控船舶能够平稳跟随领航船舶,修正由于数据丢失造成的路径误差。结果表明,该方法在高干扰环境下,尤其在通信延迟和数据包丢失的情况下,仍能维持良好的路径跟随性能。与传统的控制方法相比,基于DQN和BC的混合控制策略显著提高了无人水面船舶的跟随精度和系统稳定性,具有较强的鲁棒性,能够在复杂和动态变化的海洋环境中有效运行。 展开更多
关键词 无人水面船 路径跟随 深度Q网络 反步控制 抗干扰 MAVLink协议
在线阅读 下载PDF
彩虹深度Q网络联合二分法的有源-无源干扰策略优化方法
7
作者 杨佳瑞 王丽洋 +4 位作者 张奇正 仲秦 岑熙 许朵 李亚超 《雷达学报(中英文)》 北大核心 2026年第1期331-344,共14页
智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与... 智能干扰决策技术的发展,显著提升了敏感目标在战场中的生存对抗能力。然而,现有干扰决策算法仅考虑有源干扰,忽略了无源干扰策略优化问题,严重限制了干扰决策对抗模型的应用场景。针对这一缺陷,该文基于彩虹深度Q网络(Rainbow DQN)与二分法,构建了一种有源-无源干扰策略联合优化方法,利用Rainbow DQN决策有无源干扰样式序列,并以二分法动态搜索无源干扰最优释放位置;考虑干扰对抗环境的非完全观测性,该文进一步设计了基于雷达波束指向点变化的奖励函数,以准确反馈干扰策略的有效性。通过仿真模拟干扰机-雷达对抗实验,与深度Q网络(DQN)、决策优势分离深度Q网络(Dueling DQN)及双重深度Q网络(Double DQN)3种主流干扰决策模型相比,所提方法的Q值平均提升2.43倍,奖励均值平均提升3.09倍,无源干扰位置决策步数缩短50%以上。实验结果表明,该文所提基于Rainbow DQN与二分法的有源-无源干扰策略联合优化方法,可实现有源干扰与无源干扰联合有效决策,进一步提高了干扰策略决策模型适用性,显著提升了干扰机电子对抗中的价值。 展开更多
关键词 彩虹深度Q网络 二分法 有源-无源干扰决策 波束指向点 非完全观测环境
在线阅读 下载PDF
利用分布式辐射源闪烁诱偏的抗反辐射方法
8
作者 林志康 刘甲磊 +2 位作者 马佳智 施龙飞 徐进宝 《系统工程与电子技术》 北大核心 2026年第1期1-11,共11页
针对多个反辐射无人机(anti-radiation unmanned aerial vehicle,ARUAV)同时来袭时如何通过分布式辐射源协同实现有效诱偏以保护地面雷达的问题,提出一种面向双架ARUAV打击的分布式辐射源闪烁诱偏方法,旨在以大距离的分布式布站方式对... 针对多个反辐射无人机(anti-radiation unmanned aerial vehicle,ARUAV)同时来袭时如何通过分布式辐射源协同实现有效诱偏以保护地面雷达的问题,提出一种面向双架ARUAV打击的分布式辐射源闪烁诱偏方法,旨在以大距离的分布式布站方式对辐射源进行闪烁辐射控制来影响ARUAV被动测角,进而改变其运行轨迹,最终在末端诱偏使其落点位于雷达辐射源安全半径之外。该方法首先分析信号延时控制形成脉内组合信号对ARUAV的测角诱偏原理并设计ARUAV运动模型,然后建立四维Q表深度Q学习框架,根据雷达安全距离条件建立奖励函数,以一定空域的ARUAV位置和速度作为输入,进行强化学习模型训练。仿真结果表明,所提方法诱偏距离至少为515.91 m,优于传统固定辐射诱偏方法,且较同等布站条件固定辐射的末端诱偏方法诱偏距离至少提升68.59%。 展开更多
关键词 反辐射无人机 分布式辐射源 强化学习 深度Q学习
在线阅读 下载PDF
面向安全可编程阀门阵列生物芯片的基于深度强化学习的组件布局算法
9
作者 陈子阳 陈钧 +2 位作者 朱予涵 刘耿耿 黄兴 《计算机工程与科学》 北大核心 2026年第1期40-50,共11页
作为一种新型的连续流体式微流控生物芯片,完全可编程阀门阵列FPVA生物芯片具备高灵活性和可编程性的优点,将其用作实验平台可以提供更加灵活的操纵,同时可以实现个性化的实验流程配置。然而,随着芯片制造工艺不断提高,FPVA生物芯片的... 作为一种新型的连续流体式微流控生物芯片,完全可编程阀门阵列FPVA生物芯片具备高灵活性和可编程性的优点,将其用作实验平台可以提供更加灵活的操纵,同时可以实现个性化的实验流程配置。然而,随着芯片制造工艺不断提高,FPVA生物芯片的集成度已经达到很高的水平,结合其高自由度的特性,对FPVA生物芯片进行编程和设计的难度也在不断提高。组件布局是生物芯片设计中的一个重要步骤,在以往的研究中通常采用启发式算法进行布局,但是对于离散问题的求解效果比较有限,而且参数设置难度较大,因此设计一种高效易用、更加适合离散化的组件布局算法,能够提高整体芯片设计过程的效率。深度强化学习DRL具备高效率、强自适应性和灵活性等优点,智能体通过不断地与环境交互,进行自我训练和调节,能够迅速适应各种复杂的变化和需求并找到最优或近似最优的策略。相比启发式算法,DRL能够更加贴合环境,找到全局最优的布局方案。因此,设计了一种面向FPVA生物芯片的基于DRL的组件布局算法,为DRL智能体构建了FPVA芯片交互环境并采用双重深度Q网络构建组件布局决策模型,利用智能体能够快速迭代的优点迅速完成大规模集成FPVA生物芯片的组件布局工作。同时,通过设计并发关系约束和布局区域约束来判断各个组件之间的并发关系并且对芯片上的可布局区域进行限制,使得布局方案能够更加符合实际情况,从而保证布局方案的正确性与可行性。利用多个测试样例,将所提算法与最新相关算法进行了对比,实验结果表明所提算法能够生成具有更短预布线线长与更少单元复用次数的组件布局方案,从而为后续的布线阶段提供高质量的布局方案。 展开更多
关键词 微流控生物芯片 完全可编程阀门阵列 组件布局 深度强化学习 双重深度Q网络
在线阅读 下载PDF
融合证候辨识置信度的DQN方剂推荐系统—中医个性化诊疗的动态决策模型
10
作者 郑婉婷 仝媛媛 +1 位作者 柴嘉琪 朱玲 《中国数字医学》 2026年第2期85-94,共10页
目的:针对中医证候辨识主观性强、传统方剂推荐缺乏动态响应的问题,提出一种融合证候预测置信度的深度强化学习决策模型,设计自适应优化的中医个性化诊疗系统。方法:基于5970例临床四诊数据,构建深度神经网络(DNN)证候预测模型,采用SMOT... 目的:针对中医证候辨识主观性强、传统方剂推荐缺乏动态响应的问题,提出一种融合证候预测置信度的深度强化学习决策模型,设计自适应优化的中医个性化诊疗系统。方法:基于5970例临床四诊数据,构建深度神经网络(DNN)证候预测模型,采用SMOTE算法解决证候类别不平衡问题;将证候特征向量及其预测置信度联合构成状态空间,构建深度Q网络(DQN),通过奖励函数动态优化决策策略,激励低置信度状态下的探索,并实现高置信度状态下的精准方剂推荐。结果:DNN证候辨识模型准确率达91.1%(宏F190.9%),显著优于传统方法;置信度驱动的DQN系统实现68.9%的智能方剂选择率,综合评分提升至0.658。结论:“证候置信度-DQN”协同决策范式突破了传统静态方剂推荐的局限性,为中医智能诊疗提供了可量化、自适应的动态决策工具,推动临床实践从经验规则向数据驱动的智能化转型。 展开更多
关键词 中医证候辨识 深度神经网络 深度Q网络 个性化方剂推荐
在线阅读 下载PDF
基于工况预设与深度强化学习的列车节能操纵方法研究
11
作者 魏文博 刘小兵 +2 位作者 张屹 艾兴阁 王小敏 《铁道通信信号》 2026年第2期39-46,共8页
为降低列车的运行能耗,提出一种基于工况预设与深度强化学习的节能操纵优化方法。该方法将列车节能操纵建模为马尔可夫决策过程,采用深度Q学习进行离散求解,在满足准点率和舒适性约束的同时,快速优化控车策略以降低能耗。针对传统强化... 为降低列车的运行能耗,提出一种基于工况预设与深度强化学习的节能操纵优化方法。该方法将列车节能操纵建模为马尔可夫决策过程,采用深度Q学习进行离散求解,在满足准点率和舒适性约束的同时,快速优化控车策略以降低能耗。针对传统强化学习算法探索效率低、训练稳定性差等问题,结合列车运行的可达状态,通过最小时间运行曲线与冗余时间分配实时生成预设工况,采用混合策略动态校正智能体输出,减少对无效状态的探索,提升解的质量和算法收敛效率。基于北京南至廊坊站线路数据的仿真结果表明,与传统强化学习算法相比,本方法显著减少了列车超速行为,牵引能耗降低7.53%,运行准点率和乘客舒适度均得到提升,验证了该方法在节能操纵优化中的有效性和实际应用潜力。 展开更多
关键词 工况预设 深度强化学习 列车节能操纵 深度Q学习 多目标优化
在线阅读 下载PDF
空天通信中动态资源分配算法
12
作者 施建锋 陆晨 李宝龙 《电讯技术》 北大核心 2026年第2期163-172,共10页
为满足空天网络中超可靠低时延通信需求,构建了低轨(Low Earth Orbit,LEO)卫星移动性模型和空天网络中舱内与舱外下行通信模型,在带宽敏感用户的容量约束和飞机的数据积压约束下,研究了最小化时延敏感用户平均传输时延的功率与信道资源... 为满足空天网络中超可靠低时延通信需求,构建了低轨(Low Earth Orbit,LEO)卫星移动性模型和空天网络中舱内与舱外下行通信模型,在带宽敏感用户的容量约束和飞机的数据积压约束下,研究了最小化时延敏感用户平均传输时延的功率与信道资源联合分配问题。针对该动态资源分配问题,提出了一种基于深度Q网络(Deep Q-network,DQN)的算法。该方法将强化学习与神经网络相结合,把LEO卫星子信道状态和舱内接入点的信道状态等网络状态作为状态空间,LEO卫星子信道的连接关系、LEO卫星的子信道功率分配和舱载用户的功率分配方案作为动作空间,时延敏感用户的平均传输时延作为奖励函数,根据动态环境自适应调整最优分配方案。仿真结果表明,在空天通信动态环境中,与传统算法相比,所提算法可降低15.4%的传输时延。 展开更多
关键词 低轨卫星通信 空天通信 高动态网络 动态资源分配 深度Q网络
在线阅读 下载PDF
基于深度Q网络的复杂弯曲管道抢修机器人路径规划
13
作者 陈铁峰 高鹏 王涛 《计算机应用文摘》 2026年第4期256-258,262,共4页
受地质沉降、腐蚀老化及第三方施工破坏等因素影响,管道泄漏风险日益突出。面对内部空间狭窄、曲率突变、焊缝余高等复杂工况,为确保抢修任务的效率与成功率,文章提出一种基于深度Q网络的复杂弯曲管道抢修机器人路径规划方法。首先对复... 受地质沉降、腐蚀老化及第三方施工破坏等因素影响,管道泄漏风险日益突出。面对内部空间狭窄、曲率突变、焊缝余高等复杂工况,为确保抢修任务的效率与成功率,文章提出一种基于深度Q网络的复杂弯曲管道抢修机器人路径规划方法。首先对复杂弯曲管道环境进行建模,明确障碍物、起点、终点及管道路径的空间布局。在此基础上,结合深度Q网络算法设计抢修机器人的学习机制,通过神经网络参数优化、动作策略迭代更新和决策生成,实现任务完成时间的最小化。 展开更多
关键词 路径规划 深度Q网络 管道抢修 机器人 管道系统
在线阅读 下载PDF
基于人工智能的建筑照明能耗预测与节能控制方法
14
作者 董艳君 《光源与照明》 2026年第1期41-43,共3页
针对建筑照明系统能耗高、控制滞后的问题,提出一种基于人工智能的能耗预测与节能控制方法。该方法融合长短期记忆网络(long short-term memory,LSTM)与支持向量回归(support vector regression,SVR)构建混合预测模型,提高照明负荷的短... 针对建筑照明系统能耗高、控制滞后的问题,提出一种基于人工智能的能耗预测与节能控制方法。该方法融合长短期记忆网络(long short-term memory,LSTM)与支持向量回归(support vector regression,SVR)构建混合预测模型,提高照明负荷的短期预测精度;结合深度强化学习设计深度Q网络自适应调光策略,实现节能与舒适的协同优化。仿真试验结果表明,该方法在典型办公场景中平均节能率达18.7%,照度达标率超95.0%,验证了其有效性与鲁棒性,为智能建筑照明管理提供了可行的技术方案。 展开更多
关键词 人工智能 建筑照明 能耗预测 节能控制 LSTM SVR 深度Q网络
在线阅读 下载PDF
基于深度Q网络的地铁列车速度曲线优化方法研究
15
作者 孔文龙 柏友运 +1 位作者 向国良 范子寅 《计算机测量与控制》 2026年第2期182-188,265,共8页
随着国内地铁运营规模的不断扩大,地铁列车电能消耗过大的问题亟待解决;通过对列控系统的速度曲线进行优化,减小列车运行时因克服阻力做功和制动过程造成的机械能损失,提高牵引能效;在算法层面上,充分利用AI算法和高性能计算设备在处理... 随着国内地铁运营规模的不断扩大,地铁列车电能消耗过大的问题亟待解决;通过对列控系统的速度曲线进行优化,减小列车运行时因克服阻力做功和制动过程造成的机械能损失,提高牵引能效;在算法层面上,充分利用AI算法和高性能计算设备在处理最优化问题方面的优势,提出基于深度Q网络算法的速度曲线优化方法:该方法应用强化学习架构,通过对智能体进行迭代优化,求解出具有节能特性的速度曲线;在Matlab平台上搭建了仿真环境,对传统算法和所提算法的节能效果进行了仿真对比,结果显示,所提算法相比传统算法实现了约5%~7%的节能。 展开更多
关键词 地铁列车 牵引能效 速度曲线 深度Q网络 强化学习架构
在线阅读 下载PDF
基于深度Q-learning算法的智能电网管控模型研究
16
作者 王筠 李志鹏 +2 位作者 项旭 张军堂 石雷波 《自动化技术与应用》 2026年第2期54-57,142,共5页
设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任... 设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任评估算法与基于属性的访问控制策略,构建基于区块链的智能电网分布式SDN管控模型。在资源分配、网络拓扑动态变化以及安全威胁不断演变的情况下,实施基于区块链的分布式SDN网络的优化。实验测试结果表明,设计方法在通过深度Q-learning优化模型后累积奖励明显大幅增加,在多种安全性能方面表现出色,能够清除恶意域,确保网络环境的安全。 展开更多
关键词 SDN控制器 分布式SDN网络 深度Q-learning算法 区块链 智能电网管控模型
在线阅读 下载PDF
基于分层深度强化学习的电动汽车实时充电引导策略
17
作者 陆文韬 窦胜 +2 位作者 陈良亮 杨凤坤 周瑞超 《电气传动》 2026年第1期57-66,共10页
为了实现电动汽车的实时充电引导以及提高充电站的充电效率,提出了一种基于分层深度强化学习的电动汽车实时充电引导策略。考虑车-站-路多元主体的相互耦合特性,基于电动汽车与充电站、配电网和交通路网的特征信息构建双层电动汽车充电... 为了实现电动汽车的实时充电引导以及提高充电站的充电效率,提出了一种基于分层深度强化学习的电动汽车实时充电引导策略。考虑车-站-路多元主体的相互耦合特性,基于电动汽车与充电站、配电网和交通路网的特征信息构建双层电动汽车充电导航模型。将上述模型解耦成双层有限马尔可夫决策过程网络架构,上层网络评估和推荐充电站,并将最优选择结果传递给下层网络,下层网络为用户规划行驶路径。采用基于彩虹框架的深度Q网络算法求解上述双层决策过程。最后在某特定城市区域进行仿真验证,结果表明,与无序引导方法相比,所提方法可以减少用户时间成本和节省用户费用,且能够保证配电网安全运行。 展开更多
关键词 电动汽车 实时充电引导 推荐充电站 规划行驶路径 双层深度强化学习 深度Q网络算法
在线阅读 下载PDF
基于深度强化学习的SDN交换机转发路径智能调度方法
18
作者 王迪 《计算机应用文摘》 2026年第4期106-108,共3页
在控制与转发解耦的软件定义网络(SDN)架构中,控制平面通过全局感知和集中决策为路径调度提供了结构基础。深度强化学习凭借出色的状态感知与策略自适应演化能力,适用于高动态网络环境中的控制策略优化。文章提出一种基于深度Q网络的SD... 在控制与转发解耦的软件定义网络(SDN)架构中,控制平面通过全局感知和集中决策为路径调度提供了结构基础。深度强化学习凭借出色的状态感知与策略自适应演化能力,适用于高动态网络环境中的控制策略优化。文章提出一种基于深度Q网络的SDN交换机转发路径智能调度方法,从状态空间构建、动作定义、奖励函数设计、策略网络训练及路径执行5个维度构建完整的调度框架。通过融合经验回放和目标网络更新机制,该方法引导策略对路径时延、链路负载与跳数变化进行综合优化,从而有效提升交换机在动态业务条件下的路径自适应能力。 展开更多
关键词 SDN 深度强化学习 Q网络 路径调度 网络控制
在线阅读 下载PDF
基于改进深度Q网络的无预测风电场日前拓扑优化 被引量:2
19
作者 黄晟 潘丽君 +3 位作者 屈尹鹏 周歧林 徐箭 柯德平 《电力系统自动化》 北大核心 2025年第2期122-132,共11页
风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差... 风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差的引入造成日前优化调控方案有效性的降低,增加了日内风机调控的难度。因此,文中充分发挥强化学习模型的决策能力,提出了一种基于改进深度Q网络(DQN)的无预测风电场拓扑重构决策方案,并以DQN为框架展开。首先,构建基于历史数据的状态空间;然后,提出基于生成树的动作价值对解耦的动作空间优化方法,以最小化电压偏差和网损为目标建立优化评价体系,完成由历史实际出力数据到决策的映射关系构建,在避免引入预测误差的情况下实现风电场日前优化调控;最后,设计一种基于多层次经验指导的经验回放策略,提升算法的训练性能,保证算法的适用性。根据实际的风电运行数据进行仿真,通过对比分析改进技术对DQN算法的影响和优化调控前后风电场的运行状态,验证了所提方法的创新性和有效性。 展开更多
关键词 风电场 预测 深度Q网络 拓扑重构 电压控制 优化 强化学习
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:5
20
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DQN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部