期刊文献+
共找到599篇文章
< 1 2 30 >
每页显示 20 50 100
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:3
1
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:2
2
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DqN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于改进Q-learning算法的XGBoost模型智能预测页岩断裂韧性
3
作者 张艳 王宗勇 +3 位作者 张豪 吴建成 祝春波 吴高平 《长江大学学报(自然科学版)》 2025年第5期58-65,共8页
岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断... 岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断裂韧性实验,分析了页岩断裂韧性与其他物理力学参数之间的关系,建立了断裂韧性拟合公式,同时采用XGBoost模型,利用地球物理测井数据,通过改进的Q-learning算法优化XGBoost模型超参数,实现了岩石断裂韧性的预测。研究结果表明,Ⅰ型断裂韧性与抗拉强度、声波速度相关性较高,与密度相关性较低,与纵波速度、横波速度、抗拉强度、岩石密度均成正相关。基于改进的Q-learning优化断裂韧性智能预测的XGBoost模型预测准确性较高,预测断裂韧性与拟合断裂韧性相关度高达0.981,所提出的岩石断裂韧性预测模型是可靠的,可为压裂工程设计提供参考。 展开更多
关键词 断裂韧性 测井数据 智能算法 q-LEARNING XGBoost 压裂设计
在线阅读 下载PDF
一种零中频I/Q盲校准算法的设计与FPGA实现
4
作者 廖永波 李琅 +6 位作者 李林翰 梁江山 李孟优 陈蕊 陈雄飞 王盟皓 文武 《微电子学与计算机》 2025年第11期120-129,共10页
旨在硬件上验证实现一种基于FastICA算法的数字域校正方法,该算法通过分离混合信号中的独立成分,以补偿零中频的I/Q不平衡,同时引入微分思想,实时调整校正参数,以适应流信号的处理。通过仿真和硬件测试,验证了所提算法的有效性,结果表明... 旨在硬件上验证实现一种基于FastICA算法的数字域校正方法,该算法通过分离混合信号中的独立成分,以补偿零中频的I/Q不平衡,同时引入微分思想,实时调整校正参数,以适应流信号的处理。通过仿真和硬件测试,验证了所提算法的有效性,结果表明:在1MHz单音信号输入以及100MHz采样频率下,算法校正后镜像抑制比从13.5dB提升至55.8dB,硬件测试中提升至51.4dB。可见,该研究中设计的镜像抑制模块能有效抑制直流偏移和镜像干扰,提高零中频收发机的性能,证实了一种有效的I/Q不平衡校正方法。 展开更多
关键词 零中频 I/q不平衡 FASTICA算法 FPGA实现
在线阅读 下载PDF
基于改进APF-QRRT^(*)策略的移动机器人路径规划 被引量:1
5
作者 刘文浩 余胜东 +4 位作者 吴鸿源 胡文科 李小鹏 蔡博凡 马金玉 《电光与控制》 北大核心 2025年第1期21-26,33,共7页
针对Q-RRT^(*)算法在路径规划过程中无法兼顾可达性和安全性的问题,提出一种改进APF-QRRT^(*)(IAPF-QRRT^(*))路径规划策略。IAPF-QRRT^(*)策略通过Q-RRT^(*)算法获得一组连接起点到终点的离散关键路径点,较传统的快速搜索随机树(RRT^(... 针对Q-RRT^(*)算法在路径规划过程中无法兼顾可达性和安全性的问题,提出一种改进APF-QRRT^(*)(IAPF-QRRT^(*))路径规划策略。IAPF-QRRT^(*)策略通过Q-RRT^(*)算法获得一组连接起点到终点的离散关键路径点,较传统的快速搜索随机树(RRT^(*))算法具备更好的初始解和更快的收敛速度。改进传统人工势场(APF)方法获得一种新的无势正交向量场,在一定条件下使整体排斥向量场与吸引向量场正交,并将其作用于关键路径点,从而提高路径的安全性。将IAPF-QRRT^(*)策略与其他算法比较,通过数值模拟实验证明了所提策略的有效性。 展开更多
关键词 移动机器人 路径规划 人工势场法 q-RRT^(*)算法 安全性
在线阅读 下载PDF
基于修正q-威布尔分布的矿用卡车可靠性分析
6
作者 刘威 高琪 +2 位作者 刘光伟 白润才 朱乙鑫 《辽宁工程技术大学学报(自然科学版)》 北大核心 2025年第2期237-246,共10页
为了更加准确地描述露天矿矿用卡车的失效规律,提高可靠性分析的准确性,构建了一种新的alpha变换。在此基础上,提出了一种四参数修正q-威布尔分布模型,并采用蜣螂优化算法与极大似然估计相结合的方式对模型的参数进行估计。通过实例对... 为了更加准确地描述露天矿矿用卡车的失效规律,提高可靠性分析的准确性,构建了一种新的alpha变换。在此基础上,提出了一种四参数修正q-威布尔分布模型,并采用蜣螂优化算法与极大似然估计相结合的方式对模型的参数进行估计。通过实例对比验证了使用修正q-威布尔分布模型评估矿用卡车可靠性的合理性和有效性。数值试验结果表明,利用修正q-威布尔分布模型对矿用卡车故障间隔时间进行分析,制定相应的预防性维修周期能够更好地保障矿用卡车安全、稳定运行。 展开更多
关键词 矿用卡车 可靠性分析 修正q-威布尔分布 蜣螂优化算法 预防性维修周期 极大似然估计
原文传递
基于Q学习与粒子群优化算法的工控系统安全防护策略选择模型
7
作者 王靖夫 秦卫丽 《科技创新与应用》 2025年第18期5-8,16,共5页
为提高工控系统的安全程度,降低网络攻击带来的威胁,研究提出结合Q学习和粒子群优化算法的防护策略选择算法。实验结果显示,在未实行防护策略时,攻击可获得的收益高达547.3。而在实行粒子群优化算法和贝叶斯攻击图选择的防护策略后,攻... 为提高工控系统的安全程度,降低网络攻击带来的威胁,研究提出结合Q学习和粒子群优化算法的防护策略选择算法。实验结果显示,在未实行防护策略时,攻击可获得的收益高达547.3。而在实行粒子群优化算法和贝叶斯攻击图选择的防护策略后,攻击可获得的收益分别下降至432.5和398.7。在实行Q学习的改进粒子群优化算法选择的防护策略时,攻击收益下降至325.6。上述结果表明,基于Q学习的改进粒子群优化算法选择的防护策略能显著降低攻击收益,有效保护工控系统不受网络攻击的侵害。 展开更多
关键词 工控系统 安全风险 q学习 粒子群优化算法 防护策略
在线阅读 下载PDF
基于改进Q学习的复杂环境下AGV路径规划研究 被引量:2
8
作者 刘光印 钱东海 +1 位作者 王志国 肖子鸣 《计量与测试技术》 2025年第3期84-88,94,共6页
针对传统Q-learning算法中存在的搜索效率低、学习速度慢、收敛条件难以有效确定等问题,本文提出一种改进算法,并基于Python tkinter组件,在复杂环境下的栅格地图进行仿真实验。结果表明:该算法能在复杂环境的AGV路径规划条件下找到最... 针对传统Q-learning算法中存在的搜索效率低、学习速度慢、收敛条件难以有效确定等问题,本文提出一种改进算法,并基于Python tkinter组件,在复杂环境下的栅格地图进行仿真实验。结果表明:该算法能在复杂环境的AGV路径规划条件下找到最优或次优路径,提高了学习效率和收敛速度。 展开更多
关键词 q-learning算法 路径规划 AGV 强化学习 栅格地图
在线阅读 下载PDF
复杂环境下基于TCP-DQN算法的低空飞行器动态航路规划
9
作者 许振阳 陈谋 +1 位作者 韩增亮 邵书义 《机器人》 北大核心 2025年第3期383-393,共11页
针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入... 针对深度强化学习算法在解决低空飞行器动态航路规划时出现的训练效率低、收敛速度慢以及航路可飞性差等问题,提出了一种基于目标导向课程学习和优先经验回放策略的深度Q网络(TCP-DQN)动态航路规划算法。首先,在强化学习算法框架中引入课程学习机制,通过设置目标引导机动策略,在提高算法训练速度的同时优化所规划航路的可飞性。其次,构建训练组合奖励函数以解决DQN奖励值稀疏问题,并通过优先回放低空飞行器避障经验来提高算法的学习效果。最后,给出了TCP-DQN算法在3维低空动态环境下的航路规划仿真结果。仿真结果表明,该算法能够快速地为低空飞行器在动态未知威胁环境中规划出安全高效的飞行航路。 展开更多
关键词 低空飞行器 深度强化学习 动态航路规划 DqN算法
原文传递
一种面向博弈场景的PPO-Dueling DQN策略优化方法
10
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度q网络 PPO算法 网络攻防博弈 效能评估
在线阅读 下载PDF
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
11
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度q网络算法 资源优化
在线阅读 下载PDF
基于双Q学习的温差发电系统电压动态补偿
12
作者 张子健 杨博 +2 位作者 李鸿彪 郜登科 陆海 《电网技术》 北大核心 2025年第8期3354-3361,I0097-I0104,共16页
针对温差发电系统在非均匀温度条件下的输出功率下降问题,提出了一种基于双Q学习的温差发电系统电压动态补偿方法。通过引入双Q学习机制和自适应探索率与学习率设计,有效降低了传统Q学习算法因Q值高估导致效率下降的问题,同时结合启发... 针对温差发电系统在非均匀温度条件下的输出功率下降问题,提出了一种基于双Q学习的温差发电系统电压动态补偿方法。通过引入双Q学习机制和自适应探索率与学习率设计,有效降低了传统Q学习算法因Q值高估导致效率下降的问题,同时结合启发式动作策略提升了搜索效率,使算法能够更准确地找到最优电压补偿方案。在10×15模型的仿真中,双Q学习算法在对角线、外部、内部及随机4种温差分布条件下,分别实现了43.00、62.29、47.59和58.89W的功率提升,相比初始功率提升了8.11%~15.79%。在15×15模型中,双Q学习算法在上述4种条件下分别提升了59.97、48.69、59.18和73.22W,功率提升幅度达6.26%~11.38%。所有仿真均通过MATLAB/Simulink及SimuNPS软件实现。仿真结果表明,该方法在多种温差条件下显著提高了发电效率,且优于其他对比算法及动态重构方法。 展开更多
关键词 温差发电 电压补偿 q学习 不均匀温度分布 SimuNPS
原文传递
融合Q-learning的A^(*)预引导蚁群路径规划算法
13
作者 殷笑天 杨丽英 +1 位作者 刘干 何玉庆 《传感器与微系统》 北大核心 2025年第8期143-147,153,共6页
针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素... 针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素,引导初始路径快速逼近最优解;其次,构建全局-局部双层信息素协同模型,利用全局层保留历史精英路径经验、局部层实时响应环境变化;最后,引入Q-learning方向性奖励函数优化决策过程,在路径拐点与障碍边缘施加强化引导信号。实验表明:在25×24中等复杂度地图中,QHACO算法较传统ACO算法最优路径缩短22.7%,收敛速度提升98.7%;在50×50高密度障碍环境中,最优路径长度优化16.9%,迭代次数减少95.1%。相比传统ACO算法,QHACO算法在最优性、收敛速度与避障能力上均有显著提升,展现出较强环境适应性。 展开更多
关键词 蚁群优化算法 路径规划 局部最优 收敛速度 q-LEARNING 分层信息素 A^(*)算法
在线阅读 下载PDF
混合邻域结构DQL算法求解柔性作业车间调度
14
作者 左李楠 袁杰 《组合机床与自动化加工技术》 北大核心 2025年第11期189-194,200,共7页
针对柔性作业车间机器设备利用率不高、工序安排不合理导致生产效率低的问题,提出了一种混合邻域结构的Double Q-learning算法,旨在实现最小化最大完工时间的优化目标。为此,引入了Double Q-learning算法,以减小估计偏差、提高决策精确... 针对柔性作业车间机器设备利用率不高、工序安排不合理导致生产效率低的问题,提出了一种混合邻域结构的Double Q-learning算法,旨在实现最小化最大完工时间的优化目标。为此,引入了Double Q-learning算法,以减小估计偏差、提高决策精确性,并结合多种邻域结构,在算法每一次迭代后选取不同邻域结构进行工序扰动,帮助算法跳出局部最优。实验结果表明,与Q-learning算法及其他传统算法相比,所提的混合邻域结构的Double Q-learning算法在多个算例集上均获得更高效的调度方案,有效减少了最大完工时间,提高了机器利用率,验证了该算法在柔性作业车间调度中的有效性。 展开更多
关键词 柔性作业车间 强化学习 Double q-learning算法 邻域结构
在线阅读 下载PDF
基于Q学习的源荷扰动下交直流微电网负荷频率控制方法
15
作者 邹玉意 陈勇 +2 位作者 刘越智 AHMED Lotfy Haridy ESAM HAbdelhameed 《西南大学学报(自然科学版)》 北大核心 2025年第5期188-198,共11页
交直流微电网是实现可再生能源高效利用的有效手段,为了保证电能质量,交直流微电网系统的频率应该在源荷扰动的条件下保持稳定。常见的负荷频率控制方法存在易受模型精度影响和对扰动考虑不完善等问题,控制效果不容易达到预期。提出了基... 交直流微电网是实现可再生能源高效利用的有效手段,为了保证电能质量,交直流微电网系统的频率应该在源荷扰动的条件下保持稳定。常见的负荷频率控制方法存在易受模型精度影响和对扰动考虑不完善等问题,控制效果不容易达到预期。提出了基于Q学习的交直流微电网负荷频率控制方法:在微电网模型上,分析了交直流微电网的特点,并建立了交直流微电网基准系统;在控制方法上,采用的Q学习算法能够无需系统动力学知识而求解系统的控制问题,提高了方法的实用性;仿真表明,通过所提方法,在源荷扰动下交直流微电网系统的频率可达到期望的扰动抑制效果,从而保证自身的安全运行。 展开更多
关键词 交直流微电网 q学习算法 负荷频率控制 源荷扰动
原文传递
面向生物安全实验室的融合改进Q-learning和PSO算法的机械臂轨迹规划与避障算法研究
16
作者 郝天腾 杜漫漫 +6 位作者 岳文渤 陈佩蓉 魏馨玲 杜耀华 程智 谢新武 周卫斌 《医疗卫生装备》 2025年第12期15-23,共9页
目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO... 目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO。方法:QPSO算法采用双层优化架构,上层利用改进的Q-learning算法实现路径决策,通过非线性动态温度玻尔兹曼探索策略平衡探索与利用;下层采用含动态权重和学习因子的PSO算法优化轨迹,并结合余弦定理碰撞检测策略保障避障安全性。为验证提出算法的可行性,进行算法性能分析和避障性能测试,并与标准PSO算法、遗传算法、萤火虫算法、改进快速扩展随机树(rapidly-exploring random tree star,RRT*)算法进行对比。结果:相比标准PSO算法、遗传算法、萤火虫算法和RRT*算法,提出的QPSO算法在收敛性能、轨迹长度和避障成功率方面均有显著优势,且在确保最短路径的同时可实现最大安全距离。结论:提出的QPSO算法能有效提升复杂环境下机械臂的轨迹规划和避障效果,可为生物安全实验室等类似环境的自动化实验操作提供可靠的技术支撑。 展开更多
关键词 生物安全实验室 机械臂 轨迹规划 避障算法 q-learning算法 粒子群优化算法
在线阅读 下载PDF
面向物流机器人的改进Q-Learning动态避障算法研究 被引量:1
17
作者 王力 赵全海 黄石磊 《计算机测量与控制》 2025年第3期267-274,共8页
为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并... 为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并为平衡好Q-Learning算法的探索和利用问题,提出以贪婪法优化搜索策略,并借助改进动态窗口法对进行路径节点和平滑加速改进,实现局部路径规划,以提高改进Q-Learning算法在AMR动态避障中的搜索性能和效率;结果表明,改进Q-Learning算法能有效优化搜索路径,能较好避开动态障碍物和静态障碍物,与其他算法的距离差幅至少大于1 m;改进算法在局部路径中的避障轨迹更趋近于期望值,最大搜索时间不超过3 s,优于其他算法,且其在不同场景下的避障路径长度和运动时间减少幅度均超过10%,避障成功率超过90%;研究方法能满足智慧仓储、智能制造等工程领域对物流机器人高效、安全作业的需求。 展开更多
关键词 物流机器人 q-Learning算法 DWA 多目标规划 障碍物 避障
在线阅读 下载PDF
基于改进Q-learning算法智能仓储AGV路径规划 被引量:1
18
作者 耿华 冯涛 《现代信息科技》 2025年第2期171-175,共5页
作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用... 作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用不平衡的问题,提出一种结合引力势场改进Q-learning的算法,同时对贪婪系数进行动态调整。首先,针对传统的Q-learning算法规划时学习效率低问题,构建从AGV到目标点的引力场,引导AGV始终朝着目标点方向移动,减少算法初期盲目性,加强初始阶段的目标性。然后,解决算法探索利用平衡问题,对贪婪系数进行动态改进。仿真实验表明,探索速率提升的同时,算法稳定性也有一定的提升。 展开更多
关键词 q-learning算法 强化学习 人工势场算法 AGV 路径规划
在线阅读 下载PDF
基于Double Q-Learning的改进蝗虫算法求解分布式柔性作业车间逆调度问题
19
作者 胡旭伦 唐红涛 《机床与液压》 北大核心 2025年第20期52-63,共12页
针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合... 针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合三层编码方式;提出一种基于逆调度特点的种群初始化方式以提高种群质量;引入权重平衡因子来提高非支配解存档中解集的多样性;将强化学习中的Double Q-Learning机制融入非支配解的选择过程,通过动态动作策略优化目标解的选取,提升调度方案的全局搜索能力与局部优化效率。最后构建26组算例,通过策略有效性分析证明了所提策略可显著提升DQIGOA算法的性能,并通过与NSGA-II、DE和SPEA-II算法进行对比证明DQIGOA算法的有效性。结果表明:相比NSGA-II、DE和SPEA-II算法,DQIGOA算法在HV、IGD、SP指标上均有优势,证明了DQIGOA能够有效提升解的收敛速度和多样性分布,在动态扰动条件下表现出更强的鲁棒性。 展开更多
关键词 分布式柔性作业车间 逆调度 蝗虫算法 Double q-Learning机制
在线阅读 下载PDF
基于蚁群优化算法引导深度Q网络的移动机器人路径规划算法
20
作者 李海亮 李宗刚 +1 位作者 宁小刚 杜亚江 《兵工学报》 北大核心 2025年第11期63-76,共14页
针对移动机器人深度Q网络(Deep Q-Network,DQN)路径规划算法在处理大规模复杂未知环境时收敛速度慢、规划路径差等问题,提出一种结合蚁群优化(Ant Colony Optimization,ACO)算法与DQN的路径规划(Ant Colony Optimization Guide DQN,ACOG... 针对移动机器人深度Q网络(Deep Q-Network,DQN)路径规划算法在处理大规模复杂未知环境时收敛速度慢、规划路径差等问题,提出一种结合蚁群优化(Ant Colony Optimization,ACO)算法与DQN的路径规划(Ant Colony Optimization Guide DQN,ACOG-DQN)算法。引入ACO的信息素机制,以有利于到达终点为目标对当前可能路径进行选择,在降低对环境无效探索次数的基础上确定最优路径;对先前路径选择经验利用阈值筛选,形成样本集对Q-network进行训练,利用Q-network确定当前环境下的移动机器人最优路径。以ACO和Q-network分别确定的最优路径以及随机探索确定的最优路径为候选,设计Q-network最优路径权重随时间增大的路径选择机制进行决策,遴选出当前动作,达到路径最终由Q-network完全决策的目标。3组不同复杂环境下的仿真与实体试验结果均表明,新的ACOG-DQN算法相对于DQN算法,在收敛速度、路径质量和算法稳定性方面表现出更优的性能,表明了新算法的有效性。 展开更多
关键词 移动机器人 路径规划 深度q网络算法 蚁群优化算法 强化学习 算法优化
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部