期刊文献+
共找到635篇文章
< 1 2 32 >
每页显示 20 50 100
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:4
1
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
基于改进Q-learning算法的XGBoost模型智能预测页岩断裂韧性
2
作者 张艳 王宗勇 +3 位作者 张豪 吴建成 祝春波 吴高平 《长江大学学报(自然科学版)》 2025年第5期58-65,共8页
岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断... 岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断裂韧性实验,分析了页岩断裂韧性与其他物理力学参数之间的关系,建立了断裂韧性拟合公式,同时采用XGBoost模型,利用地球物理测井数据,通过改进的Q-learning算法优化XGBoost模型超参数,实现了岩石断裂韧性的预测。研究结果表明,Ⅰ型断裂韧性与抗拉强度、声波速度相关性较高,与密度相关性较低,与纵波速度、横波速度、抗拉强度、岩石密度均成正相关。基于改进的Q-learning优化断裂韧性智能预测的XGBoost模型预测准确性较高,预测断裂韧性与拟合断裂韧性相关度高达0.981,所提出的岩石断裂韧性预测模型是可靠的,可为压裂工程设计提供参考。 展开更多
关键词 断裂韧性 测井数据 智能算法 q-learning XGBoost 压裂设计
在线阅读 下载PDF
融合改进Q-learning的遗传算法求解柔性作业车间调度问题
3
作者 陈涛 赵厚安 《常州工学院学报》 2025年第5期17-24,82,共9页
传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性... 传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性作业车间调度模型。采用混合策略初始化种群,提高种群质量,引入精英保留策略,保留进化过程中的优质染色体,通过精细设计强化学习的状态空间、动作设置、奖励机制和基于算法性能的自适应探索率衰减机制,实现对遗传算法关键参数的快速自适应调优,在全局搜索和局部利用之间实现更为精细的平衡。最后,通过Brandimarte的10个基准算例进行仿真实验,与3种不同的算法对比,该方法表现出了较好的寻优能力,证实了算法的有效性。 展开更多
关键词 柔性作业车间调度 q-learning 遗传算法 自适应
在线阅读 下载PDF
融合Q-learning的A^(*)预引导蚁群路径规划算法 被引量:1
4
作者 殷笑天 杨丽英 +1 位作者 刘干 何玉庆 《传感器与微系统》 北大核心 2025年第8期143-147,153,共6页
针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素... 针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素,引导初始路径快速逼近最优解;其次,构建全局-局部双层信息素协同模型,利用全局层保留历史精英路径经验、局部层实时响应环境变化;最后,引入Q-learning方向性奖励函数优化决策过程,在路径拐点与障碍边缘施加强化引导信号。实验表明:在25×24中等复杂度地图中,QHACO算法较传统ACO算法最优路径缩短22.7%,收敛速度提升98.7%;在50×50高密度障碍环境中,最优路径长度优化16.9%,迭代次数减少95.1%。相比传统ACO算法,QHACO算法在最优性、收敛速度与避障能力上均有显著提升,展现出较强环境适应性。 展开更多
关键词 蚁群优化算法 路径规划 局部最优 收敛速度 q-learning 分层信息素 A^(*)算法
在线阅读 下载PDF
基于Double Q-Learning的改进蝗虫算法求解分布式柔性作业车间逆调度问题
5
作者 胡旭伦 唐红涛 《机床与液压》 北大核心 2025年第20期52-63,共12页
针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合... 针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合三层编码方式;提出一种基于逆调度特点的种群初始化方式以提高种群质量;引入权重平衡因子来提高非支配解存档中解集的多样性;将强化学习中的Double Q-Learning机制融入非支配解的选择过程,通过动态动作策略优化目标解的选取,提升调度方案的全局搜索能力与局部优化效率。最后构建26组算例,通过策略有效性分析证明了所提策略可显著提升DQIGOA算法的性能,并通过与NSGA-II、DE和SPEA-II算法进行对比证明DQIGOA算法的有效性。结果表明:相比NSGA-II、DE和SPEA-II算法,DQIGOA算法在HV、IGD、SP指标上均有优势,证明了DQIGOA能够有效提升解的收敛速度和多样性分布,在动态扰动条件下表现出更强的鲁棒性。 展开更多
关键词 分布式柔性作业车间 逆调度 蝗虫算法 Double q-learning机制
在线阅读 下载PDF
基于改进Q-learning算法智能仓储AGV路径规划 被引量:2
6
作者 耿华 冯涛 《现代信息科技》 2025年第2期171-175,共5页
作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用... 作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用不平衡的问题,提出一种结合引力势场改进Q-learning的算法,同时对贪婪系数进行动态调整。首先,针对传统的Q-learning算法规划时学习效率低问题,构建从AGV到目标点的引力场,引导AGV始终朝着目标点方向移动,减少算法初期盲目性,加强初始阶段的目标性。然后,解决算法探索利用平衡问题,对贪婪系数进行动态改进。仿真实验表明,探索速率提升的同时,算法稳定性也有一定的提升。 展开更多
关键词 q-learning算法 强化学习 人工势场算法 AGV 路径规划
在线阅读 下载PDF
面向生物安全实验室的融合改进Q-learning和PSO算法的机械臂轨迹规划与避障算法研究
7
作者 郝天腾 杜漫漫 +6 位作者 岳文渤 陈佩蓉 魏馨玲 杜耀华 程智 谢新武 周卫斌 《医疗卫生装备》 2025年第12期15-23,共9页
目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO... 目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO。方法:QPSO算法采用双层优化架构,上层利用改进的Q-learning算法实现路径决策,通过非线性动态温度玻尔兹曼探索策略平衡探索与利用;下层采用含动态权重和学习因子的PSO算法优化轨迹,并结合余弦定理碰撞检测策略保障避障安全性。为验证提出算法的可行性,进行算法性能分析和避障性能测试,并与标准PSO算法、遗传算法、萤火虫算法、改进快速扩展随机树(rapidly-exploring random tree star,RRT*)算法进行对比。结果:相比标准PSO算法、遗传算法、萤火虫算法和RRT*算法,提出的QPSO算法在收敛性能、轨迹长度和避障成功率方面均有显著优势,且在确保最短路径的同时可实现最大安全距离。结论:提出的QPSO算法能有效提升复杂环境下机械臂的轨迹规划和避障效果,可为生物安全实验室等类似环境的自动化实验操作提供可靠的技术支撑。 展开更多
关键词 生物安全实验室 机械臂 轨迹规划 避障算法 q-learning算法 粒子群优化算法
在线阅读 下载PDF
面向物流机器人的改进Q-Learning动态避障算法研究 被引量:1
8
作者 王力 赵全海 黄石磊 《计算机测量与控制》 2025年第3期267-274,共8页
为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并... 为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并为平衡好Q-Learning算法的探索和利用问题,提出以贪婪法优化搜索策略,并借助改进动态窗口法对进行路径节点和平滑加速改进,实现局部路径规划,以提高改进Q-Learning算法在AMR动态避障中的搜索性能和效率;结果表明,改进Q-Learning算法能有效优化搜索路径,能较好避开动态障碍物和静态障碍物,与其他算法的距离差幅至少大于1 m;改进算法在局部路径中的避障轨迹更趋近于期望值,最大搜索时间不超过3 s,优于其他算法,且其在不同场景下的避障路径长度和运动时间减少幅度均超过10%,避障成功率超过90%;研究方法能满足智慧仓储、智能制造等工程领域对物流机器人高效、安全作业的需求。 展开更多
关键词 物流机器人 q-learning算法 DWA 多目标规划 障碍物 避障
在线阅读 下载PDF
改进Q-learning遗传算法在路径规划中的应用研究
9
作者 张泽宇 王雷 +1 位作者 蔡劲草 夏强强 《智能系统学报》 北大核心 2025年第6期1493-1504,共12页
针对传统遗传算法在路径规划中存在转向角度过大、转向次数过多、易陷入局部最优等问题,提出一种改进遗传算法。首先,提出一种改进种群初始化策略,即先确定一个过渡点,生成一条从起点到过渡点的路径和一条从过渡点到终点的路径,再将两... 针对传统遗传算法在路径规划中存在转向角度过大、转向次数过多、易陷入局部最优等问题,提出一种改进遗传算法。首先,提出一种改进种群初始化策略,即先确定一个过渡点,生成一条从起点到过渡点的路径和一条从过渡点到终点的路径,再将两条路径首尾相连成一条从起点到终点的路径,以生成优秀初始种群,提高前期搜索效率;其次,采用模拟退火算法与区域划分种群相结合的改进锦标赛选择策略,增加种群多样性,防止陷入局部最优;最后,设计一种Q-learning算法与交叉和变异相结合的策略,通过与环境交互,不断学习并优化动作选择策略以此提高算法的全局搜索能力,得到更优种群。路径规划仿真结果表明:相比传统遗传算法、改进自适应遗传算法和改进灾变遗传算法,本文所提改进遗传算法能减少路径长度和转向角度,降低转向次数,从而搜索到更优的路径。 展开更多
关键词 路径规划 遗传算法 种群初始化 模拟退火算法 q-learning算法 适应度函数 选择性交叉变异 精英保留
在线阅读 下载PDF
基于Q-learning的移动群智感知任务分配算法 被引量:11
10
作者 胡华 张强 +2 位作者 胡海洋 陈洁 李忠金 《计算机集成制造系统》 EI CSCD 北大核心 2018年第7期1774-1783,共10页
移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层... 移动群智感知环境中的任务分配是工作流研究领域中一个新方向,为解决应用任务在移动智能用户间的合理调度与分配,本文将机器学习中的Q-learning方法引入到工作流任务分配问题中,提出一种针对多目标的强化贪婪迭代方法。该算法从宏观层面上通过强化学习的每一次探索进行学习优化,微观层面上通过贪心算法为每一次迭代选择局部最优解,增强了算法的性能。对比其他3种算法,所提算法不但能降低时间和能耗开销,而且收敛速度较快,能够提高感知效率,可作为移动群体感知的工作流调度问题走向智能化的一种尝试。 展开更多
关键词 移动群智感知 q-learning方法 任务分配 算法
在线阅读 下载PDF
改进Q-Learning的路径规划算法研究 被引量:7
11
作者 宋丽君 周紫瑜 +2 位作者 李云龙 侯佳杰 何星 《小型微型计算机系统》 CSCD 北大核心 2024年第4期823-829,共7页
针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在... 针对Q-Learning算法学习效率低、收敛速度慢且在动态障碍物的环境下路径规划效果不佳的问题,本文提出一种改进Q-Learning的移动机器人路径规划算法.针对该问题,算法根据概率的突变性引入探索因子来平衡探索和利用以加快学习效率;通过在更新函数中设计深度学习因子以保证算法探索概率;融合遗传算法,避免陷入局部路径最优同时按阶段探索最优迭代步长次数,以减少动态地图探索重复率;最后提取输出的最优路径关键节点采用贝塞尔曲线进行平滑处理,进一步保证路径平滑度和可行性.实验通过栅格法构建地图,对比实验结果表明,改进后的算法效率相较于传统算法在迭代次数和路径上均有较大优化,且能够较好的实现动态地图下的路径规划,进一步验证所提方法的有效性和实用性. 展开更多
关键词 移动机器人 路径规划 q-learning算法 平滑处理 动态避障
在线阅读 下载PDF
改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断 被引量:9
12
作者 徐凯 郑浩 +1 位作者 涂永超 吴仕勋 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第11期4426-4437,共12页
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻... 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和Q-Learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习Q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。 展开更多
关键词 无绝缘轨道电路 故障诊断 集成学习 改进麻雀算法 q-learning 误差修正
在线阅读 下载PDF
基于Q-learning的轻量化填充结构3D打印路径规划 被引量:2
13
作者 徐文鹏 王东晓 +3 位作者 付林朋 张鹏 侯守明 曾艳阳 《传感器与微系统》 CSCD 北大核心 2023年第12期44-47,共4页
针对轻量化填充结构模型,提出了一种基于Q-learning算法的3D打印路径规划方法,来改善该结构路径规划中转弯与启停次数较多的问题。首先对填充和分层处理后的模型切片进行预处理,然后以减少打印头转弯和启停动作为目标,构建相对应的马尔... 针对轻量化填充结构模型,提出了一种基于Q-learning算法的3D打印路径规划方法,来改善该结构路径规划中转弯与启停次数较多的问题。首先对填充和分层处理后的模型切片进行预处理,然后以减少打印头转弯和启停动作为目标,构建相对应的马尔可夫决策过程数学模型,多次迭代动作价值函数至其收敛,求解出一组取得最大回报值的动作策略,按照所设定的数学模型将该策略转义输出为打印路径,最后通过对比实验进行验证。实验结果表明:该方法能有效减少打印头的转弯和启停次数,增加打印路径的连续性,节省打印时间,同时可以在一定程度上提升打印质量。 展开更多
关键词 3D打印 路径规划 q-learning算法 轻量化填充结构
在线阅读 下载PDF
基于情绪认知评价理论和Q-learning的人机交互中情感决策 被引量:2
14
作者 赵涓涓 杨建峰 +1 位作者 陈俊杰 王玉友 《太原理工大学学报》 CAS 北大核心 2012年第6期710-714,共5页
在情感认知的学习与决策中引入了情绪认知评价理论,提出了基于情绪认知评价理论的人机交互情感决策,对情感行为的选取进行了优化;在情感迷宫模型中,对该决策算法进行了Matlab仿真试验,试验结果表明使用BpQ-learning算法的智能体在寻找... 在情感认知的学习与决策中引入了情绪认知评价理论,提出了基于情绪认知评价理论的人机交互情感决策,对情感行为的选取进行了优化;在情感迷宫模型中,对该决策算法进行了Matlab仿真试验,试验结果表明使用BpQ-learning算法的智能体在寻找目标情感过程中得到的平均奖励值高、试探的次数少,达到了预期的试验目标。 展开更多
关键词 情感计算 q-learning算法 情绪认知评价 情感决策
在线阅读 下载PDF
基于GA-Q-learning算法的虚拟维修作业规划模型 被引量:1
15
作者 焦玉民 王强 +2 位作者 徐婷 谢庆华 王海涛 《兵工学报》 EI CAS CSCD 北大核心 2013年第5期627-633,共7页
针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题... 针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题,并将任务特征匹配机制和顺序约束机制作为启发机制,保证策略学习过程中持续进化可行策略;在进化过程中,将动作因子赋予概率值,并采用遗传算法(GA)进化动作因子的概率分布,避免了策略学习过程中强化早期Q值较高的动作,为求解虚拟维修的最佳作业流程提供了一种行之有效的解决方法。将该方法应用于轮式挖掘机虚拟维修训练系统中,仿真结果表明,正确的动作在作业策略迭代过程中均能够获得较高的Q值,验证了方法的可行性和实用性。 展开更多
关键词 人工智能 虚拟维修 q学习 遗传算法 作业规划
在线阅读 下载PDF
离散四水库问题基准下基于n步Q-learning的水库群优化调度 被引量:5
16
作者 胡鹤轩 钱泽宇 +1 位作者 胡强 张晔 《中国水利水电科学研究院学报(中英文)》 北大核心 2023年第2期138-147,共10页
水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出... 水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出一种离散四水库问题基准下基于n步Q-learning的水库群优化调度方法。该算法基于n步Q-learning算法,对离散四水库问题基准构建一种水库群优化调度的强化学习模型,通过探索经验优化,最终生成水库群最优调度方案。试验分析结果表明,当有足够的探索经验进行学习时,结合惩罚函数的一步Q-learning算法能够达到理论上的最优解。用可行方向法取代惩罚函数实现约束,依据离散四水库问题基准约束建立时刻可行状态表和时刻状态可选动作哈希表,有效的对状态动作空间进行降维,使算法大幅度缩短优化时间。不同的探索策略决定探索经验的有效性,从而决定优化效率,尤其对于复杂的水库群优化调度问题,提出了一种改进的ε-greedy策略,并与传统的ε-greedy、置信区间上限UCB、Boltzmann探索三种策略进行对比,验证了其有效性,在其基础上引入n步回报改进为n步Q-learning,确定合适的n步和学习率等超参数,进一步改进算法优化效率。 展开更多
关键词 水库优化调度 强化学习 q学习 惩罚函数 可行方向法
在线阅读 下载PDF
改进Q-Learning算法在路径规划中的应用 被引量:22
17
作者 高乐 马天录 +1 位作者 刘凯 张宇轩 《吉林大学学报(信息科学版)》 CAS 2018年第4期439-443,共5页
针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下... 针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下移动机器人路径规划,结果证明了算法的可行性。改进Q-Learning算法以更快的速度收敛,学习次数明显减少,效率最大可提高20%。同时,该算法框架对解决同类问题具有较强的通用性。 展开更多
关键词 路径规划 改进q-learning算法 强化学习 栅格法 机器人
在线阅读 下载PDF
Q-learning算法下的机械臂轨迹规划与避障行为研究 被引量:13
18
作者 郭新兰 《机床与液压》 北大核心 2021年第9期57-61,66,共6页
机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,... 机械臂运动和避障中存在轨迹偏差,要通过适当控制算法加以纠正确保实际轨迹趋近于理想轨迹。提出基于改进Q-learning算法的轨迹规划与避障方案,分别构建状态向量集合和每种状态下的动作集合,利用BP神经网络算法提高模型的连续逼近能力,并在迭代中不断更新Q函数值;路径规划中按照关节旋转角度及连杆空间移动距离最小原则,实现在合理避障同时轨迹偏差度最低。仿真结果表明:提出的控制算法收敛性速度快,路径规划效果优于传统规划方案,偏移成本最低。 展开更多
关键词 q-learning算法 机械臂 轨迹规划与避障方案 状态向量集合
在线阅读 下载PDF
基于改进Q-Learning的移动机器人路径规划算法 被引量:5
19
作者 王立勇 王弘轩 +2 位作者 苏清华 王绅同 张鹏博 《电子测量技术》 北大核心 2024年第9期85-92,共8页
随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的... 随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的问题,本研究提出一种改进的Q-Learning算法。该算法改进Q矩阵赋值方法,使迭代前期探索过程具有指向性,并降低碰撞的情况;改进Q矩阵迭代方法,使Q矩阵更新具有前瞻性,避免在一个小区域中反复探索;改进随机探索策略,在迭代前期全面利用环境信息,后期向目标点靠近。在不同栅格地图仿真验证结果表明,本文算法在Q-Learning算法的基础上,通过上述改进降低探索过程中的路径长度、减少抖动并提高收敛的速度,具有更高的计算效率。 展开更多
关键词 路径规划 强化学习 移动机器人 q-learning算法 ε-decreasing策略
原文传递
基于n步Q-learning算法的风电抽水蓄能联合系统日随机优化调度研究 被引量:7
20
作者 李文武 马浩云 +1 位作者 贺中豪 徐康 《水电能源科学》 北大核心 2022年第1期206-210,共5页
针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分... 针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分析n步Q-learning算法应用于优化调度模型中的优势;最后按照应用流程求解优化调度模型。算例表明,n步Q-learning算法的优化结果与n步和学习率取值有关,当两个参数取值适中时能得到最优功率偏差结果,在求解该问题上对比n步Q-learning与Q-learning算法,前者能更快收敛且较后者功率偏差降低7.4%、求解时间降低10.4%,验证了n步Q-learning算法的求解优越性。 展开更多
关键词 风蓄随机优化调度 强化学习 q-learning算法 n步自举法
原文传递
上一页 1 2 32 下一页 到第
使用帮助 返回顶部