期刊文献+
共找到636篇文章
< 1 2 32 >
每页显示 20 50 100
基于Q-Learning长尾延迟优化的SSD-SMR写缓存策略研究
1
作者 刘健 章步镐 +4 位作者 方匡弛 刘宣锋 孙国道 梁荣华 梁浩然 《计算机工程》 北大核心 2026年第3期287-298,共12页
随着全球数据规模的不断增大,如何以低成本的方式有效提升数据的访问性能是存储系统面临的一项重要挑战,使用低延迟、高带宽的固态硬盘(SSD)和低成本、高存储密度的叠瓦式磁盘(SMR)来构建缓存系统,成为一种有效的解决方案。但是,SMR固... 随着全球数据规模的不断增大,如何以低成本的方式有效提升数据的访问性能是存储系统面临的一项重要挑战,使用低延迟、高带宽的固态硬盘(SSD)和低成本、高存储密度的叠瓦式磁盘(SMR)来构建缓存系统,成为一种有效的解决方案。但是,SMR固有的机械运动和多磁道堆叠的特性导致其写性能较差,SSD中的脏数据频繁写回SMR所导致的大量读-合并-写(RMW)操作可能会引起严重的长尾延迟现象。为此,基于SSD-SMR混合存储架构提出一种结合强化学习Q-Learning算法的缓存替换优化策略。通过学习SMR设备的I/O负载状况与延迟之间的经验知识来控制对SMR的写入,当SMR负载较大时,通过控制缓存中脏数据的逐出来减少SMR因写回而产生的大量RMW操作,从而优化系统在不同负载下的尾部延迟开销。将Q-Learning算法与基于数据流行度的缓存算法LRU以及SMR感知的缓存算法SAC进行结合,使用真实企业Trace和YCSB生成的模拟Trace进行测试,实验结果表明,所提方法能够有效提升现有缓存算法的性能,可以降低57.06%的平均延迟和87.49%的尾部延迟。 展开更多
关键词 Q-Learning算法 I/O负载 长尾延迟 缓存替换算法 混合存储
在线阅读 下载PDF
Q学习模因算法求解可重入置换流水车间调度问题
2
作者 吕卓红 李作成 +1 位作者 钱斌 胡蓉 《重庆邮电大学学报(自然科学版)》 北大核心 2026年第1期74-82,共9页
可重入置换流水车间调度问题作为生产调度领域中的一个经典NP难问题,其不规则且庞大的解空间给常见智能优化算法的搜索带来了挑战。为了应对这一难题,设计了一种基于Q学习的模因算法,该算法能够自适应地选择全局搜索算子,以最小化最大... 可重入置换流水车间调度问题作为生产调度领域中的一个经典NP难问题,其不规则且庞大的解空间给常见智能优化算法的搜索带来了挑战。为了应对这一难题,设计了一种基于Q学习的模因算法,该算法能够自适应地选择全局搜索算子,以最小化最大完工时间。在基于Q学习的模因算法中,针对问题特性设计了4种全局搜索算子;融入Q学习机制,Q学习能够帮助算法在迭代过程中自适应地选择适合当下的全局搜索算子,提高算法的效率;在种群更新阶段,采用了基于质量和距离的种群更新机制,不仅确保了解的质量,也维护了种群的多样性。通过仿真实验和与其他算法的对比实验,验证了所提出的基于Q学习的模因算法在求解可重入置换流水车间调度问题(reentrant permutation flow-shop scheduling problem,RPFSP)问题上的有效性和鲁棒性。 展开更多
关键词 可重入 置换流水车间 模因算法 Q学习 自适应 种群更新
在线阅读 下载PDF
边缘计算中面向QoS的负载均衡资源调度算法
3
作者 秦芳芳 黄昕 +3 位作者 刘尚东 邱华杰 沙宇晨 季一木 《南京邮电大学学报(自然科学版)》 北大核心 2026年第1期144-152,共9页
随着移动设备的数量及服务需求激增,边缘环境中有限的服务器资源使得部分用户的服务质量(Quality of Service,QoS)不能得到保障,且现有资源调度算法未充分考虑用户服务需求差异化。因此,提出了一种面向QoS的负载均衡资源调度算法(QoS-Aw... 随着移动设备的数量及服务需求激增,边缘环境中有限的服务器资源使得部分用户的服务质量(Quality of Service,QoS)不能得到保障,且现有资源调度算法未充分考虑用户服务需求差异化。因此,提出了一种面向QoS的负载均衡资源调度算法(QoS-Aware Load Balancing Resource Scheduling algorithm,QALBRS)。首先,通过在协同过滤算法中引入多层感知器学习用户任务和服务器资源的高维非线性特征,并在输出层嵌入位置相似性特征,实现对任务所需资源的个性化分配。接着,为了在资源分配过程中平衡服务器负载并保证服务质量,采用改进的人工蜂群算法求解资源调度系统模型,将Q-Learning算法应用于食物源选择和搜索阶段,以提高算法搜索质量。实验证明,所提算法在保证服务质量和平衡服务器负载方面表现出较好的性能。 展开更多
关键词 边缘计算 资源调度 人工蜂群算法 Q-LEARNING
在线阅读 下载PDF
基于随机森林与Q-learning融合的多元电力数据存储优化决策方法
4
作者 叶学顺 贾东梨 +2 位作者 周俊 唐英 贾梓豪 《科学技术与工程》 北大核心 2026年第3期1065-1074,共10页
大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电... 大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电力数据存储优化决策方法。该方法中的关键技术包括:首先提出了基于改进随机森林算法的存储优化策略决策模型,引入信息增益方法,综合评价数据存储时对数据库的数据访问频率、查询时间、存储速度以及数据冗余率等因素影响,做出数据直接存储、数据索引存储和数据压缩存储的存储优化方法策略决策;其次提出了基于改进Q-learning算法的数据存储算法决策模型,引入多尺度学习机制、优先经验放回机制和正负向奖励机制,决策数据索引存储时适用的索引算法以及数据压缩存储时适用的数据压缩算法。本方法有效融合了数据索引与数据压缩的技术优势,大幅提升数据存储效率并节约存储空间,为大规模多元电力数据管理提供新的解决方案。 展开更多
关键词 随机森林算法 Q-learning算法 数据存储优化方法 数据索引算法 数据压缩算法
在线阅读 下载PDF
模型和学习驱动的模拟退火算法求解面向成本的双边装配线平衡问题
5
作者 刘雨欣 李梓响 +3 位作者 郑晨昱 张子凯 张利平 唐秋华 《机床与液压》 北大核心 2026年第4期102-109,共8页
针对面向成本的双边装配线平衡问题,进一步考虑工位的工具选择和分配,构建以成本为目标、考虑操作分配与工具选择的线性混合整数规划模型。针对该NP难题,设计一种模型和学习混合驱动的模拟退火算法,以实现大规模问题的快速求解。通过混... 针对面向成本的双边装配线平衡问题,进一步考虑工位的工具选择和分配,构建以成本为目标、考虑操作分配与工具选择的线性混合整数规划模型。针对该NP难题,设计一种模型和学习混合驱动的模拟退火算法,以实现大规模问题的快速求解。通过混合整数规划模型对小规模子问题进行精确求解,进而实现个体的局部寻优;同时采用Q学习实现参数组合自适应调整,以提升算法的搜索能力。为验证模型驱动和Q学习的性能,将所提算法与两种原始的模拟退火算法进行对比,案例求解结果表明:所构建数学模型可实现小规模问题的精确求解,但在面对大规模案例其求解速度较慢,而智能算法在大规模问题上的表现更优。同时将所提算法与12种其他算法进行对比,案例求解结果显示:采用模型驱动和Q学习有效增强了模拟退火算法的性能,同时所提模型和学习混合驱动的模拟退火算法优于12种对比算法,验证了算法的有效性。该模型和算法可帮助装配线决策者提升产线性能、降低成本,适用于企业调度系统的自动化操作分配。 展开更多
关键词 双边装配线平衡 成本分配 工具选择 Q学习 智能优化算法
在线阅读 下载PDF
基于改进差分进化算法的汽车零部件物流箱规格优化研究
6
作者 董婧 苌道方 +1 位作者 王云华 王帅 《包装工程》 北大核心 2026年第3期230-238,共9页
目的针对汽车零部件物流包装中因纸箱规格设计不合理导致的包装材料浪费和箱内空间利用率低等问题,考虑到实际场景中订单内多品类零部件异构混装的特性,构建以总包装成本最小化为目标的优化模型,探索高效求解物流纸箱规格设计方案方法... 目的针对汽车零部件物流包装中因纸箱规格设计不合理导致的包装材料浪费和箱内空间利用率低等问题,考虑到实际场景中订单内多品类零部件异构混装的特性,构建以总包装成本最小化为目标的优化模型,探索高效求解物流纸箱规格设计方案方法。方法首先,基于历史订单数据构建包装成本优化模型;其次,采用Sobol序列生成均匀初始种群,弥补随机初始化不足;接着,在差分进化算法中引入Q-Learning调控机制,实现对关键参数的动态自适应调整,从而平衡全局搜索与局部优化能力。最后,基于降序最佳适应策略,求解满足几何与重量约束下的混合装箱方案及实际用箱数量。结果仿真实验表明,本文算法在收敛速度与寻优精度上均明显优于传统遗传算法、模拟退火算法及常规差分进化算法;与原有方案相比,优化物流纸箱规格后,同批订单总包装成本可降低约53%。结论该方法适用于高频波动订单、产品尺寸跨度大、多规格产品等复杂物流包装场景,通过优化箱型设计实现降本增效并提高物流效率。 展开更多
关键词 物流纸箱 规格优化 差分进化算法 Q-LEARNING Sobol序列
在线阅读 下载PDF
基于Stackelberg博弈的钢卷进出库物流调度
7
作者 于金闯 李美娇 +1 位作者 刘德佳 李庆雪 《计算机集成制造系统》 北大核心 2026年第1期384-395,共12页
为了解决钢铁冷轧原料库区中钢卷进出库调度问题,将吊机的调度和钢卷的进出库、倒垛操作进行综合考虑,使完成钢卷的进出库业务所用时间最小化。考虑到进出库业务对可利用空余位置的竞争性,以进库钢卷和出库钢卷作为博弈方,选取出库钢卷... 为了解决钢铁冷轧原料库区中钢卷进出库调度问题,将吊机的调度和钢卷的进出库、倒垛操作进行综合考虑,使完成钢卷的进出库业务所用时间最小化。考虑到进出库业务对可利用空余位置的竞争性,以进库钢卷和出库钢卷作为博弈方,选取出库钢卷、入库位置为策略,钢卷进出库完成时间为目标函数,建立Stackelberg博弈模型,出库钢卷作为领导者首先进行决策,进库钢卷作为跟随者在出库钢卷进行决策后再进行决策,并采用Q-learning算法求解模型的均衡。实验结果表明Q-learning算法在中小规模、甚至大规模中快速求得调度最优策略,降低了调度过程的运输时间。 展开更多
关键词 物流调度 STACKELBERG博弈 Q-learning算法 钢卷进出库 强化学习
在线阅读 下载PDF
融合势场强化蚁群算法的搬运机器人路径规划研究
8
作者 卢宁 董守峰 +1 位作者 金正南 胡信凯 《中国工程机械学报》 北大核心 2026年第1期38-43,共6页
在静态未知环境中,针对传统蚁群算法在搬运机器人路径规划中存在的初期搜索盲目性、收敛速度慢、易陷入局部最优、寻优能力弱等问题,提出了一种融合势场强化蚁群算法的路径规划方法。通过以目标为导向分布初始信息素,改进自适应挥发因... 在静态未知环境中,针对传统蚁群算法在搬运机器人路径规划中存在的初期搜索盲目性、收敛速度慢、易陷入局部最优、寻优能力弱等问题,提出了一种融合势场强化蚁群算法的路径规划方法。通过以目标为导向分布初始信息素,改进自适应挥发因子以优化信息素更新,降低了算法初期搜索盲目性并加快了收敛速度;设计基于目标距离和偏移角度的Q-learning奖励函数,将Q值与信息素浓度组合优化启发函数,并引入启发函数递减参数,提升了算法的寻优能力和适应性;结合人工势场法,引入虚拟目标点并改进斥力函数,解决了局部最优和目标不可达问题,进一步提升了算法局部避障能力,更好地处理复杂环境下的路径规划问题;最后,对得出的最优路径进行了平滑处理,以实现更快更平稳的路径规划效果。采用栅格地图作为搬运机器人模拟运行环境,进行路径规划的仿真实验。结果表明:与传统蚁群算法及陈丹凤等提出的算法相比,在不同密度障碍物环境下,所提出的融合势场强化蚁群算法在迭代次数、收敛速度、最优路径长度及路径转折次数等方面均表现出更优的性能。 展开更多
关键词 路径规划 蚁群算法 信息素 Q-learning算法 人工势场法 路径平滑机制
在线阅读 下载PDF
基于DQN增强遗传算法的Plateaued函数高效构造研究
9
作者 吴严生 曹心怡 樊卫北 《计算机科学》 北大核心 2026年第4期57-65,共9页
作为Bent函数的重要推广,Plateaued函数继承了很多Bent函数的优良密码学性质,具有重要的应用价值。由于传统构造Plateaued函数的方法存在计算复杂度高、灵活性不足等问题,因此提出一种基于深度Q网络(Deep Q-Network,DQN)增强的自适应遗... 作为Bent函数的重要推广,Plateaued函数继承了很多Bent函数的优良密码学性质,具有重要的应用价值。由于传统构造Plateaued函数的方法存在计算复杂度高、灵活性不足等问题,因此提出一种基于深度Q网络(Deep Q-Network,DQN)增强的自适应遗传算法。该算法深度融合DQN与遗传算法,构建多维状态空间感知种群进化特征,通过群体共识机制智能选择6种交叉与变异策略组合,实现遗传参数的自适应调控。实验结果表明,该算法的适应度提升幅度达0.20~0.35,收敛速度更快,稳定性更高,平均可生成230~300个有效Plateaued函数真值序列,显著优于标准遗传算法和基础Q-learning遗传算法。算法能智能调节变异率(0.235~0.276)与交叉操作使用率(70%~90%),在优化Walsh谱分布的同时保持种群多样性。尽管计算开销略有增加,但所提算法在解的质量、收敛性能和策略自适应能力上具有显著优势,验证了深度强化学习在密码学函数构造中的有效性,为布尔函数智能化设计提供了新方案。 展开更多
关键词 PLATEAUED函数 真值序列 Q-LEARNING 深度Q网络 遗传算法 WALSH谱 非线性度
在线阅读 下载PDF
基于DFT重构的改进i_(p)-i_(q)基波正序有功和无功电流检测算法
10
作者 李锦彬 朱罗翔 《电气应用》 2026年第1期133-140,共8页
针对传统硬件锁相环i_(p)-i_(q)算法无法实现基波正序有功与无功电流分离的问题,提出了一种基于DFT重构的改进i_(p)-i_(q)检测算法。该算法通过DFT实现αβ轴系下基波电压及其正交量的重构,结合瞬时对称分量变换,完成基波正序、负序电... 针对传统硬件锁相环i_(p)-i_(q)算法无法实现基波正序有功与无功电流分离的问题,提出了一种基于DFT重构的改进i_(p)-i_(q)检测算法。该算法通过DFT实现αβ轴系下基波电压及其正交量的重构,结合瞬时对称分量变换,完成基波正序、负序电压的解耦,为i_(p)-i_(q)算法提供准确的电压相位信息,从而实现基波正序有功、无功电流的检测。与传统的i_(p)-i_(q)法相比,所提改进算法采用数字锁相环,有效解决了电网复杂工况下的电压相位跟踪问题,可准确、快速地提取基波正序有功和无功电流。最后通过仿真和实验验证了该算法的正确性。 展开更多
关键词 锁相环 i_(p)-i_(q)算法 DFT重构 瞬时对称分量法 基波正序有功电流
原文传递
基于Q-Learning的多模态自适应光伏功率优化组合预测
11
作者 隗知初 杨苹 +3 位作者 周钱雨凡 陈文皓 万思洋 崔嘉雁 《电力工程技术》 北大核心 2026年第1期115-124,163,共11页
针对光伏功率序列波动性强、随机性高的问题,文中提出一种基于Q-Learning的多模态自适应光伏功率优化组合预测模型。首先,采用鲸鱼优化算法的变分模态分解方法,将原始光伏功率序列分解成不同子模态,并通过集成特征筛选模型,确定各子模... 针对光伏功率序列波动性强、随机性高的问题,文中提出一种基于Q-Learning的多模态自适应光伏功率优化组合预测模型。首先,采用鲸鱼优化算法的变分模态分解方法,将原始光伏功率序列分解成不同子模态,并通过集成特征筛选模型,确定各子模态序列最敏感的气象因素。然后,构建反向传播神经网络、双向长短期记忆网络、门控循环单元网络和时间卷积网络4种基础预测模型。考虑到不同模型对不同频率特征的子序列预测能力不同,利用Q-Learning算法自适应选择各模态对应的最优基础模型组合方式。最后,将不同子模态的预测结果叠加重构,得到最终预测结果,并利用高分辨率光伏气象功率数据集进行验证。结果证明,文中所提出的基于Q-Learning的多模态自适应光伏功率优化组合预测模型,相较于单一模型的预测误差平均绝对误差下降了16.18%,均方误差下降了17.00%。 展开更多
关键词 鲸鱼优化算法 变分模态分解 Q-LEARNING 功率预测 组合模型 光伏发电
在线阅读 下载PDF
基于深度Q-learning算法的智能电网管控模型研究
12
作者 王筠 李志鹏 +2 位作者 项旭 张军堂 石雷波 《自动化技术与应用》 2026年第2期54-57,142,共5页
设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任... 设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任评估算法与基于属性的访问控制策略,构建基于区块链的智能电网分布式SDN管控模型。在资源分配、网络拓扑动态变化以及安全威胁不断演变的情况下,实施基于区块链的分布式SDN网络的优化。实验测试结果表明,设计方法在通过深度Q-learning优化模型后累积奖励明显大幅增加,在多种安全性能方面表现出色,能够清除恶意域,确保网络环境的安全。 展开更多
关键词 SDN控制器 分布式SDN网络 深度Q-learning算法 区块链 智能电网管控模型
在线阅读 下载PDF
基于人工智能的城市更新项目规划调整研究
13
作者 刘湘竹 《科技资讯》 2026年第3期152-154,共3页
针对城市更新过程中面临的旧有建筑功能失配、社区需求多元与成本控制等挑战,基于多源时空数据集成与预处理方法,将遥感影像、三维点云、地理信息系统矢量、物联网监测与社会经济统计信息融合后,构建兼顾土地利用效率、社会效益与经济... 针对城市更新过程中面临的旧有建筑功能失配、社区需求多元与成本控制等挑战,基于多源时空数据集成与预处理方法,将遥感影像、三维点云、地理信息系统矢量、物联网监测与社会经济统计信息融合后,构建兼顾土地利用效率、社会效益与经济成本的加权多目标优化模型,并借助深度Q网络(Deep QNetwork,DQN)与遗传算法的混合策略对规划参数进行高效迭代求解。在住宅区、商业区与混合功能区3种典型城市更新场景的对比实验中,所提技术的规划调整准确度不低于98%、方案生成时间不超过40 s、市民满意度评分不低于4.3分,显著优于传统基于规则的规划调整技术。 展开更多
关键词 城市更新 多目标优化模型 深度Q网络 遗传算法 规划调整
在线阅读 下载PDF
基于分层深度强化学习的电动汽车实时充电引导策略
14
作者 陆文韬 窦胜 +2 位作者 陈良亮 杨凤坤 周瑞超 《电气传动》 2026年第1期57-66,共10页
为了实现电动汽车的实时充电引导以及提高充电站的充电效率,提出了一种基于分层深度强化学习的电动汽车实时充电引导策略。考虑车-站-路多元主体的相互耦合特性,基于电动汽车与充电站、配电网和交通路网的特征信息构建双层电动汽车充电... 为了实现电动汽车的实时充电引导以及提高充电站的充电效率,提出了一种基于分层深度强化学习的电动汽车实时充电引导策略。考虑车-站-路多元主体的相互耦合特性,基于电动汽车与充电站、配电网和交通路网的特征信息构建双层电动汽车充电导航模型。将上述模型解耦成双层有限马尔可夫决策过程网络架构,上层网络评估和推荐充电站,并将最优选择结果传递给下层网络,下层网络为用户规划行驶路径。采用基于彩虹框架的深度Q网络算法求解上述双层决策过程。最后在某特定城市区域进行仿真验证,结果表明,与无序引导方法相比,所提方法可以减少用户时间成本和节省用户费用,且能够保证配电网安全运行。 展开更多
关键词 电动汽车 实时充电引导 推荐充电站 规划行驶路径 双层深度强化学习 深度Q网络算法
在线阅读 下载PDF
基于深度强化学习决策的雷达干扰抑制方法
15
作者 肖易寒 孟祥乾 陆钱融 《制导与引信》 2026年第1期22-31,共10页
针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取... 针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度Q网络(double dueling deep Q network,D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取;然后根据信号特征通过可变贪婪算法选择动作作用于干扰,并将动作前后的信号特征存储于双深度优先经验回放池后,经过学习决策出最优的干扰抑制策略;最后使用该策略抑制干扰后输出。实验结果表明,该方法有效改善了信号的脉压结果,显著提升了信号的信干噪比,相较于基于D3QN的传统干扰抑制方法,在策略准确率和收敛速度上分别提升了7.3%和8.7%。 展开更多
关键词 雷达干扰抑制 双重竞争深度Q网络 双深度优先经验回放 可变贪婪算法 脉冲压缩
在线阅读 下载PDF
基于EM算法的ARMA(p,q)线性测量误差模型的参数估计
16
作者 沈逸珺 金阳阳 张慧增 《杭州师范大学学报(自然科学版)》 2026年第2期206-215,共10页
在ARMA(p,q)测量误差模型的基础上引入了线性测量误差模型,给出ARMA(p,q)线性测量误差模型参数估计的EM算法.通过对高阶矩阵进行分块求解,利用Toeplitz矩阵的逆矩阵求解算法,得到了高阶矩阵的逆矩阵迭代公式,给出了具有高维正态分布隐... 在ARMA(p,q)测量误差模型的基础上引入了线性测量误差模型,给出ARMA(p,q)线性测量误差模型参数估计的EM算法.通过对高阶矩阵进行分块求解,利用Toeplitz矩阵的逆矩阵求解算法,得到了高阶矩阵的逆矩阵迭代公式,给出了具有高维正态分布隐变量的一阶矩和二阶矩估计,从而得出参数的EM算法最优值估计.最后通过对ARMA(2,2)线性测量误差模型进行数值模拟,验证了EM算法对模型参数估计的有效性. 展开更多
关键词 EM算法 ARMA(p q)线性测量误差模型 TOEPLITZ矩阵
在线阅读 下载PDF
基于信息素机制的改进Q学习路径规划算法
17
作者 罗熙 王建宏 +1 位作者 丁勇军 张金龙 《南昌大学学报(工科版)》 2026年第1期77-84,共8页
在求解路径规划问题上,Q学习因Q表初始化不合理以及行为策略的随机性,可能会导致算法收敛速度慢甚至易在搜索前期就陷入局部最优解。针对上述问题,本文引入信息素来对智能体的寻优范围进行优化,以提高智能体的搜索效率;利用获取到的环... 在求解路径规划问题上,Q学习因Q表初始化不合理以及行为策略的随机性,可能会导致算法收敛速度慢甚至易在搜索前期就陷入局部最优解。针对上述问题,本文引入信息素来对智能体的寻优范围进行优化,以提高智能体的搜索效率;利用获取到的环境信息对Q表的初始化进行差异性赋值,减少前期探索的盲目性,加快搜索速度;依照同步更新的信息素表对Q学习中智能体行为策略的探索率进行动态调整,使得算法保持一个合适的探索率而不致陷入局部最优。最后,在几种不同风格的栅格地图中进行仿真实验,验证了所提算法的有效性和可行性。 展开更多
关键词 Q学习 路径规划 蚁群算法 信息素 探索率
在线阅读 下载PDF
微网储能侧DC-DC变换器的强化学习自抗扰控制策略 被引量:2
18
作者 马幼捷 刘熠铭 +3 位作者 周雪松 王博 陶珑 问虎龙 《太阳能学报》 北大核心 2025年第3期63-72,共10页
直流微电网电压稳定性研究是新型电力系统面临的关键问题。针对微电网系统中直流母线电压波动大和抗干扰能力弱等缺陷,该文提出一种由Q-learning算法赋能的DC-DC变换器自抗扰控制策略。通过引入线性扩张状态观测器,实现对模型内部摄动... 直流微电网电压稳定性研究是新型电力系统面临的关键问题。针对微电网系统中直流母线电压波动大和抗干扰能力弱等缺陷,该文提出一种由Q-learning算法赋能的DC-DC变换器自抗扰控制策略。通过引入线性扩张状态观测器,实现对模型内部摄动与外部扰动量的精确估计与补偿,利用Q-learning算法实现控制策略参数自适应优化,从而更高效地维持输出电压稳定。基于理论分析,推导范数意义下的Q-learning算法收敛性,并运用Lyapunov理论判据证明线性自抗扰的稳定性。最后,通过仿真对比该文提出的控制策略、线性自抗扰控制与双闭环PI控制在不同工况下的结果,充分验证该策略在提升DC-DC变换器抗扰能力和鲁棒水平的高效性与优越性。 展开更多
关键词 微电网 DC-DC变换器 自抗扰控制 Q-learning算法 Lyapunov判据
原文传递
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:4
19
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R Q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:8
20
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DQN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
上一页 1 2 32 下一页 到第
使用帮助 返回顶部