期刊文献+
共找到654篇文章
< 1 2 33 >
每页显示 20 50 100
基于Q-Learning长尾延迟优化的SSD-SMR写缓存策略研究
1
作者 刘健 章步镐 +4 位作者 方匡弛 刘宣锋 孙国道 梁荣华 梁浩然 《计算机工程》 北大核心 2026年第3期287-298,共12页
随着全球数据规模的不断增大,如何以低成本的方式有效提升数据的访问性能是存储系统面临的一项重要挑战,使用低延迟、高带宽的固态硬盘(SSD)和低成本、高存储密度的叠瓦式磁盘(SMR)来构建缓存系统,成为一种有效的解决方案。但是,SMR固... 随着全球数据规模的不断增大,如何以低成本的方式有效提升数据的访问性能是存储系统面临的一项重要挑战,使用低延迟、高带宽的固态硬盘(SSD)和低成本、高存储密度的叠瓦式磁盘(SMR)来构建缓存系统,成为一种有效的解决方案。但是,SMR固有的机械运动和多磁道堆叠的特性导致其写性能较差,SSD中的脏数据频繁写回SMR所导致的大量读-合并-写(RMW)操作可能会引起严重的长尾延迟现象。为此,基于SSD-SMR混合存储架构提出一种结合强化学习Q-Learning算法的缓存替换优化策略。通过学习SMR设备的I/O负载状况与延迟之间的经验知识来控制对SMR的写入,当SMR负载较大时,通过控制缓存中脏数据的逐出来减少SMR因写回而产生的大量RMW操作,从而优化系统在不同负载下的尾部延迟开销。将Q-Learning算法与基于数据流行度的缓存算法LRU以及SMR感知的缓存算法SAC进行结合,使用真实企业Trace和YCSB生成的模拟Trace进行测试,实验结果表明,所提方法能够有效提升现有缓存算法的性能,可以降低57.06%的平均延迟和87.49%的尾部延迟。 展开更多
关键词 q-learning算法 I/O负载 长尾延迟 缓存替换算法 混合存储
在线阅读 下载PDF
基于随机森林与Q-learning融合的多元电力数据存储优化决策方法
2
作者 叶学顺 贾东梨 +2 位作者 周俊 唐英 贾梓豪 《科学技术与工程》 北大核心 2026年第3期1065-1074,共10页
大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电... 大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电力数据存储优化决策方法。该方法中的关键技术包括:首先提出了基于改进随机森林算法的存储优化策略决策模型,引入信息增益方法,综合评价数据存储时对数据库的数据访问频率、查询时间、存储速度以及数据冗余率等因素影响,做出数据直接存储、数据索引存储和数据压缩存储的存储优化方法策略决策;其次提出了基于改进Q-learning算法的数据存储算法决策模型,引入多尺度学习机制、优先经验放回机制和正负向奖励机制,决策数据索引存储时适用的索引算法以及数据压缩存储时适用的数据压缩算法。本方法有效融合了数据索引与数据压缩的技术优势,大幅提升数据存储效率并节约存储空间,为大规模多元电力数据管理提供新的解决方案。 展开更多
关键词 随机森林算法 q-learning算法 数据存储优化方法 数据索引算法 数据压缩算法
在线阅读 下载PDF
基于Q-Learning的多模态自适应光伏功率优化组合预测
3
作者 隗知初 杨苹 +3 位作者 周钱雨凡 陈文皓 万思洋 崔嘉雁 《电力工程技术》 北大核心 2026年第1期115-124,163,共11页
针对光伏功率序列波动性强、随机性高的问题,文中提出一种基于Q-Learning的多模态自适应光伏功率优化组合预测模型。首先,采用鲸鱼优化算法的变分模态分解方法,将原始光伏功率序列分解成不同子模态,并通过集成特征筛选模型,确定各子模... 针对光伏功率序列波动性强、随机性高的问题,文中提出一种基于Q-Learning的多模态自适应光伏功率优化组合预测模型。首先,采用鲸鱼优化算法的变分模态分解方法,将原始光伏功率序列分解成不同子模态,并通过集成特征筛选模型,确定各子模态序列最敏感的气象因素。然后,构建反向传播神经网络、双向长短期记忆网络、门控循环单元网络和时间卷积网络4种基础预测模型。考虑到不同模型对不同频率特征的子序列预测能力不同,利用Q-Learning算法自适应选择各模态对应的最优基础模型组合方式。最后,将不同子模态的预测结果叠加重构,得到最终预测结果,并利用高分辨率光伏气象功率数据集进行验证。结果证明,文中所提出的基于Q-Learning的多模态自适应光伏功率优化组合预测模型,相较于单一模型的预测误差平均绝对误差下降了16.18%,均方误差下降了17.00%。 展开更多
关键词 鲸鱼优化算法 变分模态分解 q-learning 功率预测 组合模型 光伏发电
在线阅读 下载PDF
基于深度Q-learning算法的智能电网管控模型研究
4
作者 王筠 李志鹏 +2 位作者 项旭 张军堂 石雷波 《自动化技术与应用》 2026年第2期54-57,142,共5页
设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任... 设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任评估算法与基于属性的访问控制策略,构建基于区块链的智能电网分布式SDN管控模型。在资源分配、网络拓扑动态变化以及安全威胁不断演变的情况下,实施基于区块链的分布式SDN网络的优化。实验测试结果表明,设计方法在通过深度Q-learning优化模型后累积奖励明显大幅增加,在多种安全性能方面表现出色,能够清除恶意域,确保网络环境的安全。 展开更多
关键词 SDN控制器 分布式SDN网络 深度q-learning算法 区块链 智能电网管控模型
在线阅读 下载PDF
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:4
5
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
基于改进Q-learning算法的XGBoost模型智能预测页岩断裂韧性
6
作者 张艳 王宗勇 +3 位作者 张豪 吴建成 祝春波 吴高平 《长江大学学报(自然科学版)》 2025年第5期58-65,共8页
岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断... 岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断裂韧性实验,分析了页岩断裂韧性与其他物理力学参数之间的关系,建立了断裂韧性拟合公式,同时采用XGBoost模型,利用地球物理测井数据,通过改进的Q-learning算法优化XGBoost模型超参数,实现了岩石断裂韧性的预测。研究结果表明,Ⅰ型断裂韧性与抗拉强度、声波速度相关性较高,与密度相关性较低,与纵波速度、横波速度、抗拉强度、岩石密度均成正相关。基于改进的Q-learning优化断裂韧性智能预测的XGBoost模型预测准确性较高,预测断裂韧性与拟合断裂韧性相关度高达0.981,所提出的岩石断裂韧性预测模型是可靠的,可为压裂工程设计提供参考。 展开更多
关键词 断裂韧性 测井数据 智能算法 q-learning XGBoost 压裂设计
在线阅读 下载PDF
融合改进Q-learning的遗传算法求解柔性作业车间调度问题
7
作者 陈涛 赵厚安 《常州工学院学报》 2025年第5期17-24,82,共9页
传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性... 传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性作业车间调度模型。采用混合策略初始化种群,提高种群质量,引入精英保留策略,保留进化过程中的优质染色体,通过精细设计强化学习的状态空间、动作设置、奖励机制和基于算法性能的自适应探索率衰减机制,实现对遗传算法关键参数的快速自适应调优,在全局搜索和局部利用之间实现更为精细的平衡。最后,通过Brandimarte的10个基准算例进行仿真实验,与3种不同的算法对比,该方法表现出了较好的寻优能力,证实了算法的有效性。 展开更多
关键词 柔性作业车间调度 q-learning 遗传算法 自适应
在线阅读 下载PDF
融合Q-learning的A^(*)预引导蚁群路径规划算法 被引量:1
8
作者 殷笑天 杨丽英 +1 位作者 刘干 何玉庆 《传感器与微系统》 北大核心 2025年第8期143-147,153,共6页
针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素... 针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素,引导初始路径快速逼近最优解;其次,构建全局-局部双层信息素协同模型,利用全局层保留历史精英路径经验、局部层实时响应环境变化;最后,引入Q-learning方向性奖励函数优化决策过程,在路径拐点与障碍边缘施加强化引导信号。实验表明:在25×24中等复杂度地图中,QHACO算法较传统ACO算法最优路径缩短22.7%,收敛速度提升98.7%;在50×50高密度障碍环境中,最优路径长度优化16.9%,迭代次数减少95.1%。相比传统ACO算法,QHACO算法在最优性、收敛速度与避障能力上均有显著提升,展现出较强环境适应性。 展开更多
关键词 蚁群优化算法 路径规划 局部最优 收敛速度 q-learning 分层信息素 A^(*)算法
在线阅读 下载PDF
基于Double Q-Learning的改进蝗虫算法求解分布式柔性作业车间逆调度问题
9
作者 胡旭伦 唐红涛 《机床与液压》 北大核心 2025年第20期52-63,共12页
针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合... 针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合三层编码方式;提出一种基于逆调度特点的种群初始化方式以提高种群质量;引入权重平衡因子来提高非支配解存档中解集的多样性;将强化学习中的Double Q-Learning机制融入非支配解的选择过程,通过动态动作策略优化目标解的选取,提升调度方案的全局搜索能力与局部优化效率。最后构建26组算例,通过策略有效性分析证明了所提策略可显著提升DQIGOA算法的性能,并通过与NSGA-II、DE和SPEA-II算法进行对比证明DQIGOA算法的有效性。结果表明:相比NSGA-II、DE和SPEA-II算法,DQIGOA算法在HV、IGD、SP指标上均有优势,证明了DQIGOA能够有效提升解的收敛速度和多样性分布,在动态扰动条件下表现出更强的鲁棒性。 展开更多
关键词 分布式柔性作业车间 逆调度 蝗虫算法 Double q-learning机制
在线阅读 下载PDF
基于改进Q-learning算法智能仓储AGV路径规划 被引量:2
10
作者 耿华 冯涛 《现代信息科技》 2025年第2期171-175,共5页
作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用... 作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用不平衡的问题,提出一种结合引力势场改进Q-learning的算法,同时对贪婪系数进行动态调整。首先,针对传统的Q-learning算法规划时学习效率低问题,构建从AGV到目标点的引力场,引导AGV始终朝着目标点方向移动,减少算法初期盲目性,加强初始阶段的目标性。然后,解决算法探索利用平衡问题,对贪婪系数进行动态改进。仿真实验表明,探索速率提升的同时,算法稳定性也有一定的提升。 展开更多
关键词 q-learning算法 强化学习 人工势场算法 AGV 路径规划
在线阅读 下载PDF
面向物流机器人的改进Q-Learning动态避障算法研究 被引量:2
11
作者 王力 赵全海 黄石磊 《计算机测量与控制》 2025年第3期267-274,共8页
为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并... 为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并为平衡好Q-Learning算法的探索和利用问题,提出以贪婪法优化搜索策略,并借助改进动态窗口法对进行路径节点和平滑加速改进,实现局部路径规划,以提高改进Q-Learning算法在AMR动态避障中的搜索性能和效率;结果表明,改进Q-Learning算法能有效优化搜索路径,能较好避开动态障碍物和静态障碍物,与其他算法的距离差幅至少大于1 m;改进算法在局部路径中的避障轨迹更趋近于期望值,最大搜索时间不超过3 s,优于其他算法,且其在不同场景下的避障路径长度和运动时间减少幅度均超过10%,避障成功率超过90%;研究方法能满足智慧仓储、智能制造等工程领域对物流机器人高效、安全作业的需求。 展开更多
关键词 物流机器人 q-learning算法 DWA 多目标规划 障碍物 避障
在线阅读 下载PDF
面向生物安全实验室的融合改进Q-learning和PSO算法的机械臂轨迹规划与避障算法研究
12
作者 郝天腾 杜漫漫 +6 位作者 岳文渤 陈佩蓉 魏馨玲 杜耀华 程智 谢新武 周卫斌 《医疗卫生装备》 2025年第12期15-23,共9页
目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO... 目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO。方法:QPSO算法采用双层优化架构,上层利用改进的Q-learning算法实现路径决策,通过非线性动态温度玻尔兹曼探索策略平衡探索与利用;下层采用含动态权重和学习因子的PSO算法优化轨迹,并结合余弦定理碰撞检测策略保障避障安全性。为验证提出算法的可行性,进行算法性能分析和避障性能测试,并与标准PSO算法、遗传算法、萤火虫算法、改进快速扩展随机树(rapidly-exploring random tree star,RRT*)算法进行对比。结果:相比标准PSO算法、遗传算法、萤火虫算法和RRT*算法,提出的QPSO算法在收敛性能、轨迹长度和避障成功率方面均有显著优势,且在确保最短路径的同时可实现最大安全距离。结论:提出的QPSO算法能有效提升复杂环境下机械臂的轨迹规划和避障效果,可为生物安全实验室等类似环境的自动化实验操作提供可靠的技术支撑。 展开更多
关键词 生物安全实验室 机械臂 轨迹规划 避障算法 q-learning算法 粒子群优化算法
在线阅读 下载PDF
基于Q-learning算法的十字针迹自动编针方法研究
13
作者 周璇 侯小刚 《信息传播研究》 2025年第2期36-44,共9页
随着十字绣行业的蓬勃发展,电脑绣花机在十字绣制作过程中对自动化、智能化水平提出了更高要求,其中十字针迹自动编针是影响机器十字绣效率与质量的关键环节。本文基于图像处理得到的绣谱信息,将十字针迹路径规划问题建模为强化学习过程... 随着十字绣行业的蓬勃发展,电脑绣花机在十字绣制作过程中对自动化、智能化水平提出了更高要求,其中十字针迹自动编针是影响机器十字绣效率与质量的关键环节。本文基于图像处理得到的绣谱信息,将十字针迹路径规划问题建模为强化学习过程,提出了一种基于Q-learning算法的十字针迹自动编针方法。以色块为基本规划单元,将整体针迹规划问题划分为色块间与色块内路径规划两个阶段,并在针迹搜索中引入十字针迹工艺约束,设计状态空间、动作空间及奖励函数,实现符合工艺规则的针迹路径自动生成。仿真实验结果表明,所提出的方法在不同规模色块条件下均具有良好的收敛性与稳定性,与人工编针结果相比,该方法能够有效减少跳线数量与路径冗余。基于Q-learning算法的十字针迹自动编针方法的研究,不仅实现了十字针迹路径的自动规划,还展现了人工智能技术在传统工艺领域的应用潜力,有望推动传统工艺的创新和发展。 展开更多
关键词 十字绣 绣谱 自动编制 q-learning算法 强化学习
在线阅读 下载PDF
改进Q-learning遗传算法在路径规划中的应用研究
14
作者 张泽宇 王雷 +1 位作者 蔡劲草 夏强强 《智能系统学报》 北大核心 2025年第6期1493-1504,共12页
针对传统遗传算法在路径规划中存在转向角度过大、转向次数过多、易陷入局部最优等问题,提出一种改进遗传算法。首先,提出一种改进种群初始化策略,即先确定一个过渡点,生成一条从起点到过渡点的路径和一条从过渡点到终点的路径,再将两... 针对传统遗传算法在路径规划中存在转向角度过大、转向次数过多、易陷入局部最优等问题,提出一种改进遗传算法。首先,提出一种改进种群初始化策略,即先确定一个过渡点,生成一条从起点到过渡点的路径和一条从过渡点到终点的路径,再将两条路径首尾相连成一条从起点到终点的路径,以生成优秀初始种群,提高前期搜索效率;其次,采用模拟退火算法与区域划分种群相结合的改进锦标赛选择策略,增加种群多样性,防止陷入局部最优;最后,设计一种Q-learning算法与交叉和变异相结合的策略,通过与环境交互,不断学习并优化动作选择策略以此提高算法的全局搜索能力,得到更优种群。路径规划仿真结果表明:相比传统遗传算法、改进自适应遗传算法和改进灾变遗传算法,本文所提改进遗传算法能减少路径长度和转向角度,降低转向次数,从而搜索到更优的路径。 展开更多
关键词 路径规划 遗传算法 种群初始化 模拟退火算法 q-learning算法 适应度函数 选择性交叉变异 精英保留
在线阅读 下载PDF
基于Q-learning的移动群智感知任务分配算法 被引量:11
15
作者 胡华 张强 +2 位作者 胡海洋 陈洁 李忠金 《计算机集成制造系统》 EI CSCD 北大核心 2018年第7期1774-1783,共10页
移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层... 移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层面上通过强化学习的每一次探索进行学习优化,微观层面上通过贪心算法为每一次迭代选择局部最优解,增强了算法的性能。对比其他3种算法,所提算法不但能降低时间和能耗开销,而且收敛速度较快,能够提高感知效率,可作为移动群体感知的工作流调度问题走向智能化的一种尝试。 展开更多
关键词 移动群智感知 q-learning方法 任务分配 算法
在线阅读 下载PDF
改进Q-Learning的路径规划算法研究 被引量:8
16
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 q-learning算法 平滑处理 动态避障
在线阅读 下载PDF
基于Q-learning的轻量化填充结构3D打印路径规划 被引量:3
17
作者 徐文鹏 王东晓 +3 位作者 付林朋 张鹏 侯守明 曾艳阳 《传感器与微系统》 CSCD 北大核心 2023年第12期44-47,共4页
针对轻量化填充结构模型,提出了一种基于Q-learning算法的3D打印路径规划方法,来改善该结构路径规划中转弯与启停次数较多的问题。首先对填充和分层处理后的模型切片进行预处理,然后以减少打印头转弯和启停动作为目标,构建相对应的马尔... 针对轻量化填充结构模型,提出了一种基于Q-learning算法的3D打印路径规划方法,来改善该结构路径规划中转弯与启停次数较多的问题。首先对填充和分层处理后的模型切片进行预处理,然后以减少打印头转弯和启停动作为目标,构建相对应的马尔可夫决策过程数学模型,多次迭代动作价值函数至其收敛,求解出一组取得最大回报值的动作策略,按照所设定的数学模型将该策略转义输出为打印路径,最后通过对比实验进行验证。实验结果表明:该方法能有效减少打印头的转弯和启停次数,增加打印路径的连续性,节省打印时间,同时可以在一定程度上提升打印质量。 展开更多
关键词 3D打印 路径规划 q-learning算法 轻量化填充结构
在线阅读 下载PDF
改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断 被引量:10
18
作者 徐凯 郑浩 +1 位作者 涂永超 吴仕勋 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第11期4426-4437,共12页
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻... 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和Q-Learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习Q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。 展开更多
关键词 无绝缘轨道电路 故障诊断 集成学习 改进麻雀算法 q-learning 误差修正
在线阅读 下载PDF
基于情绪认知评价理论和Q-learning的人机交互中情感决策 被引量:2
19
作者 赵涓涓 杨建峰 +1 位作者 陈俊杰 王玉友 《太原理工大学学报》 CAS 北大核心 2012年第6期710-714,共5页
在情感认知的学习与决策中引入了情绪认知评价理论,提出了基于情绪认知评价理论的人机交互情感决策,对情感行为的选取进行了优化;在情感迷宫模型中,对该决策算法进行了Matlab仿真试验,试验结果表明使用BpQ-learning算法的智能体在寻找... 在情感认知的学习与决策中引入了情绪认知评价理论,提出了基于情绪认知评价理论的人机交互情感决策,对情感行为的选取进行了优化;在情感迷宫模型中,对该决策算法进行了Matlab仿真试验,试验结果表明使用BpQ-learning算法的智能体在寻找目标情感过程中得到的平均奖励值高、试探的次数少,达到了预期的试验目标。 展开更多
关键词 情感计算 q-learning算法 情绪认知评价 情感决策
在线阅读 下载PDF
离散四水库问题基准下基于n步Q-learning的水库群优化调度 被引量:6
20
作者 胡鹤轩 钱泽宇 +1 位作者 胡强 张晔 《中国水利水电科学研究院学报(中英文)》 北大核心 2023年第2期138-147,共10页
水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出... 水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出一种离散四水库问题基准下基于n步Q-learning的水库群优化调度方法。该算法基于n步Q-learning算法,对离散四水库问题基准构建一种水库群优化调度的强化学习模型,通过探索经验优化,最终生成水库群最优调度方案。试验分析结果表明,当有足够的探索经验进行学习时,结合惩罚函数的一步Q-learning算法能够达到理论上的最优解。用可行方向法取代惩罚函数实现约束,依据离散四水库问题基准约束建立时刻可行状态表和时刻状态可选动作哈希表,有效的对状态动作空间进行降维,使算法大幅度缩短优化时间。不同的探索策略决定探索经验的有效性,从而决定优化效率,尤其对于复杂的水库群优化调度问题,提出了一种改进的ε-greedy策略,并与传统的ε-greedy、置信区间上限UCB、Boltzmann探索三种策略进行对比,验证了其有效性,在其基础上引入n步回报改进为n步Q-learning,确定合适的n步和学习率等超参数,进一步改进算法优化效率。 展开更多
关键词 水库优化调度 强化学习 q学习 惩罚函数 可行方向法
在线阅读 下载PDF
上一页 1 2 33 下一页 到第
使用帮助 返回顶部