期刊文献+
共找到280,647篇文章
< 1 2 250 >
每页显示 20 50 100
Antenna Selection in Energy Harvesting Relaying Networks Using Q-Learning Algorithm 被引量:1
1
作者 Daliang Ouyang Rui Zhao +2 位作者 Yuanjian Li Rongxin Guo Yi Wang 《China Communications》 SCIE CSCD 2021年第4期64-75,共12页
In this paper,a novel opportunistic scheduling(OS)scheme with antenna selection(AS)for the energy harvesting(EH)cooperative communication system where the relay can harvest energy from the source transmission is propo... In this paper,a novel opportunistic scheduling(OS)scheme with antenna selection(AS)for the energy harvesting(EH)cooperative communication system where the relay can harvest energy from the source transmission is proposed.In this considered scheme,we take into both traditional mathematical analysis and reinforcement learning(RL)scenarios with the power splitting(PS)factor constraint.For the case of traditional mathematical analysis of a fixed-PS factor,we derive an exact closed-form expressions for the ergodic capacity and outage probability in general signal-to-noise ratio(SNR)regime.Then,we combine the optimal PS factor with performance metrics to achieve the optimal transmission performance.Subsequently,based on the optimized PS factor,a RL technique called as Q-learning(QL)algorithm is proposed to derive the optimal antenna selection strategy.To highlight the performance advantage of the proposed QL with training the received SNR at the destination,we also examine the scenario of QL scheme with training channel between the relay and the destination.The results illustrate that,the optimized scheme is always superior to the fixed-PS factor scheme.In addition,a better system parameter setting with QL significantly outperforms the traditional mathematical analysis scheme. 展开更多
关键词 q-learning optimal PS factor outage probability ergodic capacity antenna selection
在线阅读 下载PDF
Double BP Q-Learning Algorithm for Local Path Planning of Mobile Robot 被引量:1
2
作者 Guoming Liu Caihong Li +2 位作者 Tengteng Gao Yongdi Li Xiaopei He 《Journal of Computer and Communications》 2021年第6期138-157,共20页
Aiming at the dimension disaster problem, poor model generalization ability and deadlock problem in special obstacles environment caused by the increase of state information in the local path planning process of mobil... Aiming at the dimension disaster problem, poor model generalization ability and deadlock problem in special obstacles environment caused by the increase of state information in the local path planning process of mobile robot, this paper proposed a Double BP Q-learning algorithm based on the fusion of Double Q-learning algorithm and BP neural network. In order to solve the dimensional disaster problem, two BP neural network fitting value functions with the same network structure were used to replace the two <i>Q</i> value tables in Double Q-Learning algorithm to solve the problem that the <i>Q</i> value table cannot store excessive state information. By adding the mechanism of priority experience replay and using the parameter transfer to initialize the model parameters in different environments, it could accelerate the convergence rate of the algorithm, improve the learning efficiency and the generalization ability of the model. By designing specific action selection strategy in special environment, the deadlock state could be avoided and the mobile robot could reach the target point. Finally, the designed Double BP Q-learning algorithm was simulated and verified, and the probability of mobile robot reaching the target point in the parameter update process was compared with the Double Q-learning algorithm under the same condition of the planned path length. The results showed that the model trained by the improved Double BP Q-learning algorithm had a higher success rate in finding the optimal or sub-optimal path in the dense discrete environment, besides, it had stronger model generalization ability, fewer redundant sections, and could reach the target point without entering the deadlock zone in the special obstacles environment. 展开更多
关键词 Mobile Robot Local Path Planning Double BP q-learning BP Neural Network Transfer Learning
在线阅读 下载PDF
Multi-agent reinforcement learning using modular neural network Q-learning algorithms
3
作者 杨银贤 《Journal of Chongqing University》 CAS 2005年第1期50-54,共5页
Reinforcement learning is an excellent approach which is used in artificial intelligence,automatic control, etc. However, ordinary reinforcement learning algorithm, such as Q-learning with lookup table cannot cope wit... Reinforcement learning is an excellent approach which is used in artificial intelligence,automatic control, etc. However, ordinary reinforcement learning algorithm, such as Q-learning with lookup table cannot cope with extremely complex and dynamic environment due to the huge state space. To reduce the state space, modular neural network Q-learning algorithm is proposed, which combines Q-learning algorithm with neural network and module method. Forward feedback neural network, Elman neural network and radius-basis neural network are separately employed to construct such algorithm. It is revealed that Elman neural network Q-learning algorithm has the best performance under the condition that the same neural network training method, i.e. gradient descent error back-propagation algorithm is applied. 展开更多
关键词 reinforcement learning q-learning neural network artificial intelligence
在线阅读 下载PDF
Bayes-Q-Learning Algorithm in Edge Computing for Waste Tracking
4
作者 D.Palanikkumar R.Ramesh Kumar +2 位作者 Mehedi Masud Mrim M.Alnfiai Mohamed Abouhawwash 《Intelligent Automation & Soft Computing》 SCIE 2023年第5期2425-2440,共16页
The major environmental hazard in this pandemic is the unhygienic dis-posal of medical waste.Medical wastage is not properly managed it will become a hazard to the environment and humans.Managing medical wastage is a ... The major environmental hazard in this pandemic is the unhygienic dis-posal of medical waste.Medical wastage is not properly managed it will become a hazard to the environment and humans.Managing medical wastage is a major issue in the city,municipalities in the aspects of the environment,and logistics.An efficient supply chain with edge computing technology is used in managing medical waste.The supply chain operations include processing of waste collec-tion,transportation,and disposal of waste.Many research works have been applied to improve the management of wastage.The main issues in the existing techniques are ineffective and expensive and centralized edge computing which leads to failure in providing security,trustworthiness,and transparency.To over-come these issues,in this paper we implement an efficient Naive Bayes classifier algorithm and Q-Learning algorithm in decentralized edge computing technology with a binary bat optimization algorithm(NBQ-BBOA).This proposed work is used to track,detect,and manage medical waste.To minimize the transferring cost of medical wastage from various nodes,the Q-Learning algorithm is used.The accuracy obtained for the Naïve Bayes algorithm is 88%,the Q-Learning algo-rithm is 82%and NBQ-BBOA is 98%.The error rate of Root Mean Square Error(RMSE)and Mean Error(MAE)for the proposed work NBQ-BBOA are 0.012 and 0.045. 展开更多
关键词 Binary bat algorithm naïve bayes supply chain EDGE medical wastage
在线阅读 下载PDF
A Q-Learning-Assisted Co-Evolutionary Algorithm for Distributed Assembly Flexible Job Shop Scheduling Problems
5
作者 Song Gao Shixin Liu 《Computers, Materials & Continua》 2025年第6期5623-5641,共19页
With the development of economic globalization,distributedmanufacturing is becomingmore andmore prevalent.Recently,integrated scheduling of distributed production and assembly has captured much concern.This research s... With the development of economic globalization,distributedmanufacturing is becomingmore andmore prevalent.Recently,integrated scheduling of distributed production and assembly has captured much concern.This research studies a distributed flexible job shop scheduling problem with assembly operations.Firstly,a mixed integer programming model is formulated to minimize the maximum completion time.Secondly,a Q-learning-assisted coevolutionary algorithmis presented to solve themodel:(1)Multiple populations are developed to seek required decisions simultaneously;(2)An encoding and decoding method based on problem features is applied to represent individuals;(3)A hybrid approach of heuristic rules and random methods is employed to acquire a high-quality population;(4)Three evolutionary strategies having crossover and mutation methods are adopted to enhance exploration capabilities;(5)Three neighborhood structures based on problem features are constructed,and a Q-learning-based iterative local search method is devised to improve exploitation abilities.The Q-learning approach is applied to intelligently select better neighborhood structures.Finally,a group of instances is constructed to perform comparison experiments.The effectiveness of the Q-learning approach is verified by comparing the developed algorithm with its variant without the Q-learning method.Three renowned meta-heuristic algorithms are used in comparison with the developed algorithm.The comparison results demonstrate that the designed method exhibits better performance in coping with the formulated problem. 展开更多
关键词 Distributed manufacturing flexible job shop scheduling problem assembly operation co-evolutionary algorithm q-learning method
在线阅读 下载PDF
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:3
6
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
无监督环境下改进Q-learning算法在网络异常诊断中的应用
7
作者 梁西陈 《六盘水师范学院学报》 2025年第3期89-97,共9页
针对无监督环境下传统网络异常诊断算法存在异常点定位和异常数据分类准确率低等不足,通过设计一种基于改进Q-learning算法的无线网络异常诊断方法:首先基于ADU(Asynchronous Data Unit异步数据单元)单元采集无线网络的数据流,并提取数... 针对无监督环境下传统网络异常诊断算法存在异常点定位和异常数据分类准确率低等不足,通过设计一种基于改进Q-learning算法的无线网络异常诊断方法:首先基于ADU(Asynchronous Data Unit异步数据单元)单元采集无线网络的数据流,并提取数据包特征;然后构建Q-learning算法模型探索状态值和奖励值的平衡点,利用SA(Simulated Annealing模拟退火)算法从全局视角对下一时刻状态进行精确识别;最后确定训练样本的联合分布概率,提升输出值的逼近性能以达到平衡探索与代价之间的均衡。测试结果显示:改进Q-learning算法的网络异常定位准确率均值达99.4%,在不同类型网络异常的分类精度和分类效率等方面,也优于三种传统网络异常诊断方法。 展开更多
关键词 无监督 改进q-learning ADU单元 状态值 联合分布概率
在线阅读 下载PDF
融合Q-learning的A^(*)预引导蚁群路径规划算法
8
作者 殷笑天 杨丽英 +1 位作者 刘干 何玉庆 《传感器与微系统》 北大核心 2025年第8期143-147,153,共6页
针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素... 针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素,引导初始路径快速逼近最优解;其次,构建全局-局部双层信息素协同模型,利用全局层保留历史精英路径经验、局部层实时响应环境变化;最后,引入Q-learning方向性奖励函数优化决策过程,在路径拐点与障碍边缘施加强化引导信号。实验表明:在25×24中等复杂度地图中,QHACO算法较传统ACO算法最优路径缩短22.7%,收敛速度提升98.7%;在50×50高密度障碍环境中,最优路径长度优化16.9%,迭代次数减少95.1%。相比传统ACO算法,QHACO算法在最优性、收敛速度与避障能力上均有显著提升,展现出较强环境适应性。 展开更多
关键词 蚁群优化算法 路径规划 局部最优 收敛速度 q-learning 分层信息素 A^(*)算法
在线阅读 下载PDF
基于Q-learning算法的机场航班延误预测 被引量:1
9
作者 刘琪 乐美龙 《航空计算技术》 2025年第1期28-32,共5页
将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延... 将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延误时间的最终解释变量输入Q-learning算法中,从而实现对航班延误的实时预测。使用北京首都国际机场航班数据进行测试实验,实验结果表明,所提出的模型可以有效预测航班延误,平均误差为4.05 min。将提出的组合算法性能与4种基准方法进行比较,基于DBN的Q-learning算法的延误预测准确性高于另外四种算法,具有较高的预测精度。 展开更多
关键词 航空运输 航班延误预测 深度信念网络 q-learning 航班延误
在线阅读 下载PDF
基于天球网格的大规模LEO星座Q-Learning QoS路由算法
10
作者 马伟 肖嵩 +1 位作者 周诠 蔡宇茜 《空间电子技术》 2025年第S1期132-139,共8页
智能化QoS路由是大规模LEO星座的研究热点和难点。文章聚焦LEO星座虚实拓扑漂移、多业务QoS冲突、动态负载失衡等问题,提出了一种基于天球网格的Q-Learning QoS路由算法。通过将非均匀离散化天球与北斗网格编码融合,解决链路频繁切换及... 智能化QoS路由是大规模LEO星座的研究热点和难点。文章聚焦LEO星座虚实拓扑漂移、多业务QoS冲突、动态负载失衡等问题,提出了一种基于天球网格的Q-Learning QoS路由算法。通过将非均匀离散化天球与北斗网格编码融合,解决链路频繁切换及虚实拓扑同步问题。在此基础上结合业务热力图设计了Q-Learning路由算法,以带宽、负载、热力等级、跳数为联合优化目标,构建差异化QoS奖励机制,通过实时学习动态规避拥塞链路。仿真结果表明,本文算法相较HLLMR和Dijkstra算法,丢包率分别降低4%和11%,吞吐量提升7%和15%,时延与HLLMR相当,实现了大规模LEO星座QoS保障与负载均衡的协同优化。 展开更多
关键词 天球网格 热力图 q-learning QOS路由
在线阅读 下载PDF
基于Double Q-Learning的改进蝗虫算法求解分布式柔性作业车间逆调度问题
11
作者 胡旭伦 唐红涛 《机床与液压》 北大核心 2025年第20期52-63,共12页
针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合... 针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合三层编码方式;提出一种基于逆调度特点的种群初始化方式以提高种群质量;引入权重平衡因子来提高非支配解存档中解集的多样性;将强化学习中的Double Q-Learning机制融入非支配解的选择过程,通过动态动作策略优化目标解的选取,提升调度方案的全局搜索能力与局部优化效率。最后构建26组算例,通过策略有效性分析证明了所提策略可显著提升DQIGOA算法的性能,并通过与NSGA-II、DE和SPEA-II算法进行对比证明DQIGOA算法的有效性。结果表明:相比NSGA-II、DE和SPEA-II算法,DQIGOA算法在HV、IGD、SP指标上均有优势,证明了DQIGOA能够有效提升解的收敛速度和多样性分布,在动态扰动条件下表现出更强的鲁棒性。 展开更多
关键词 分布式柔性作业车间 逆调度 蝗虫算法 Double q-learning机制
在线阅读 下载PDF
改进的自校正Q-learning应用于智能机器人路径规划 被引量:1
12
作者 任伟 朱建鸿 《机械科学与技术》 北大核心 2025年第1期126-132,共7页
为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距... 为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距离的倒数代替传统的Q-learning算法中的全零或随机初始化,大大加快了收敛速度;最后,针对传统的Q-learning算法中Q函数的最大化偏差,引入自校正估计器来修正最大化偏差。通过仿真实验对提出的改进思路进行了验证,结果表明:改进的算法能够很大程度的提高算法的学习效率,在各个方面相比传统算法都有了较大的提升。 展开更多
关键词 路径规划 q-learning 贪婪搜索 初始化 自校正
在线阅读 下载PDF
基于非策略Q-learning的欺骗攻击下未知线性离散系统最优跟踪控制
13
作者 宋星星 储昭碧 《控制与决策》 北大核心 2025年第5期1641-1650,共10页
针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性... 针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性二次跟踪框架内将系统的最优跟踪控制表达为欺骗攻击与控制输入同时参与的零和博弈问题.其次,设计一种基于状态数据的非策略Q-learning算法学习系统最优跟踪控制增益,解决应用中控制增益不能按照给定要求更新的问题,并证明在满足持续激励条件的探测噪声下该算法的求解不存在偏差.同时考虑系统状态不可测的情况,设计基于输出数据的非策略Q-learning算法.最后,通过对F-16飞机自动驾驶仪的跟踪控制仿真,验证所设计非策略Q-learning算法的有效性以及对探测噪声影响的无偏性. 展开更多
关键词 欺骗攻击 最优跟踪 非策略q-learning 零和博弈
原文传递
基于Q-learning的改进NSGA-Ⅲ求解高维多目标柔性作业车间调度问题
14
作者 张小培 陈勇 +1 位作者 王宸 袁春辉 《湖北汽车工业学院学报》 2025年第3期56-63,共8页
针对机械加工车间多品种、小批量的生产模式,以最小化总能耗、最大完工时间、机器负载和总拖期为优化目标建立高维多目标柔性作业车间调度模型,并利用改进NSGA-Ⅲ进行求解。采用机器、工序和批量的三重编码方式进行编码,通过Logistic映... 针对机械加工车间多品种、小批量的生产模式,以最小化总能耗、最大完工时间、机器负载和总拖期为优化目标建立高维多目标柔性作业车间调度模型,并利用改进NSGA-Ⅲ进行求解。采用机器、工序和批量的三重编码方式进行编码,通过Logistic映射生成初始混沌序列初始化种群,根据目标解的质量指标构建强化学习状态空间,通过Q-learning训练调整邻域搜索策略。最后通过对比基准算例及实例验证了模型的有效性和优越性。 展开更多
关键词 柔性作业 目标优化 批量调度 q-learning 邻域搜索
在线阅读 下载PDF
面向物流机器人的改进Q-Learning动态避障算法研究 被引量:1
15
作者 王力 赵全海 黄石磊 《计算机测量与控制》 2025年第3期267-274,共8页
为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并... 为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并为平衡好Q-Learning算法的探索和利用问题,提出以贪婪法优化搜索策略,并借助改进动态窗口法对进行路径节点和平滑加速改进,实现局部路径规划,以提高改进Q-Learning算法在AMR动态避障中的搜索性能和效率;结果表明,改进Q-Learning算法能有效优化搜索路径,能较好避开动态障碍物和静态障碍物,与其他算法的距离差幅至少大于1 m;改进算法在局部路径中的避障轨迹更趋近于期望值,最大搜索时间不超过3 s,优于其他算法,且其在不同场景下的避障路径长度和运动时间减少幅度均超过10%,避障成功率超过90%;研究方法能满足智慧仓储、智能制造等工程领域对物流机器人高效、安全作业的需求。 展开更多
关键词 物流机器人 q-learning算法 DWA 多目标规划 障碍物 避障
在线阅读 下载PDF
基于Q-learning的广域物联网热点地区MAC层机制设计
16
作者 雷迪 刘向 +4 位作者 孙文彬 杨欣 许茜 陈丽丽 易波 《移动通信》 2025年第8期90-95,共6页
在广域物联网应用中,热点地区由于终端密集接入、业务负载波动大,存在接入冲突频发、信道资源利用率低下等问题。作为共享无线信道管理重要一环,MAC层协议在提升系统吞吐量与接入效率方面发挥着核心作用。分析了热点地区MAC层协议所需特... 在广域物联网应用中,热点地区由于终端密集接入、业务负载波动大,存在接入冲突频发、信道资源利用率低下等问题。作为共享无线信道管理重要一环,MAC层协议在提升系统吞吐量与接入效率方面发挥着核心作用。分析了热点地区MAC层协议所需特征,提出基于Q-learning算法的优化方案,在节点侧引入强化学习模型以实现参数自适应调整。在传统CSMA/CA协议基础上,设计了结合动态RTS/CTS机制与动态退避窗口的接入机制。仿真结果表明,所提出的优化方案在系统吞吐量、平衡信道冲突率与利用率方面有一定提升。 展开更多
关键词 物联网 MAC层协议 CSMA/CA q-learning
在线阅读 下载PDF
基于改进Q-Learning算法的机器人路径规划 被引量:1
17
作者 潘琦涛 赵岳生 甘育国 《物联网技术》 2025年第3期82-86,共5页
移动机器人的路径规划问题受到了广大学者的关注。当机器人在未知环境中进行路径规划时,为了提高规划的效率,通常需要获取相关的先验知识。在强化学习路径规划中,先验知识可以通过多种方式融入到算法中,其中Q-Learning算法是一种常用的... 移动机器人的路径规划问题受到了广大学者的关注。当机器人在未知环境中进行路径规划时,为了提高规划的效率,通常需要获取相关的先验知识。在强化学习路径规划中,先验知识可以通过多种方式融入到算法中,其中Q-Learning算法是一种常用的方法。传统的Q-Learning算法路径规划存在拐点多、路径长、训练轮次多等问题。因此,提出一种改进算法,针对原Q-Learning算法在机器人路径规划中存在的学习速度慢、探索效率低、规划路径长等突出问题进行了优化。首先,基于栅格地图,在传统算法的基础上采用径向基函数(RBF)网络对Q-Learning算法的动作值函数进行逼近;其次,为了平衡探索与利用的比例,采用了动态调整贪婪因子的方法;最后,增加了机器人可选择的动作,扩充了动作集,改进为八方向探索。仿真结果表明,与Q-Learning算法相比,改进后的Q-Learning算法可将最优路径长度缩短23.33%,拐点个数减少63.16%,算法训练轮次减少31.22%。 展开更多
关键词 q-learning ROS机器人 强化学习 路径规划 径向基函数 探索策略
在线阅读 下载PDF
基于改进Q-learning算法智能仓储AGV路径规划
18
作者 耿华 冯涛 《现代信息科技》 2025年第2期171-175,共5页
作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用... 作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用不平衡的问题,提出一种结合引力势场改进Q-learning的算法,同时对贪婪系数进行动态调整。首先,针对传统的Q-learning算法规划时学习效率低问题,构建从AGV到目标点的引力场,引导AGV始终朝着目标点方向移动,减少算法初期盲目性,加强初始阶段的目标性。然后,解决算法探索利用平衡问题,对贪婪系数进行动态改进。仿真实验表明,探索速率提升的同时,算法稳定性也有一定的提升。 展开更多
关键词 q-learning算法 强化学习 人工势场算法 AGV 路径规划
在线阅读 下载PDF
基于Q-learning分布式训练的无人机自组织网络AODV路由协议
19
作者 孙晨 王宇昆 +1 位作者 万家梅 侯亮 《现代电子技术》 北大核心 2025年第15期103-109,共7页
针对无人机自组织网络节点的高度动态性和拓扑稀疏性,现有的结合Q学习的路由协议暴露出Q值更新滞后、难以迅速适应网络拓扑快速变动的问题,文中提出一种基于Q-learning分布式训练的AODV(DQL-AODV)路由协议。该协议中将每个节点视为一个... 针对无人机自组织网络节点的高度动态性和拓扑稀疏性,现有的结合Q学习的路由协议暴露出Q值更新滞后、难以迅速适应网络拓扑快速变动的问题,文中提出一种基于Q-learning分布式训练的AODV(DQL-AODV)路由协议。该协议中将每个节点视为一个智能体,依据分布式训练的Q值对需转发的数据包进行下一跳选择,每个节点的Q值进行局部更新和全局更新。首先,根据节点间链路的寿命和节点负载能力计算局部奖励值,每次Hello消息接收将更稳定的下一跳链路更新为较高的Q值;其次,路由请求消息到达目标节点后将执行一次全局Q值更新,根据数据包的转发跳数和平均端到端延迟计算全局奖励值;最后,结合Q-learning算法优化Hello消息发送机制,有效地平衡网络拓扑感知程度与路由开销。仿真结果证明,相比于QL-AODV,所提方法在平均端到端时延、数据吞吐量、包到达率和路由开销4个网络性能指标总体上分别优化了19.93%、15.48%、6.24%、11.76%,且收敛能力更强,验证了该协议的有效性。 展开更多
关键词 无人机自组网 AODV路由协议 q-learning分布式训练 链路质量 Hello消息 路由决策
在线阅读 下载PDF
Adaptive dwell scheduling based on Q-learning for multifunctional radar system
20
作者 HENG Siyu CHENG Ting +2 位作者 HE Zishu WANG Yuanqing LIU Luqing 《Journal of Systems Engineering and Electronics》 2025年第4期985-993,共9页
The dwell scheduling problem for a multifunctional radar system is led to the formation of corresponding optimiza-tion problem.In order to solve the resulting optimization prob-lem,the dwell scheduling process in a sc... The dwell scheduling problem for a multifunctional radar system is led to the formation of corresponding optimiza-tion problem.In order to solve the resulting optimization prob-lem,the dwell scheduling process in a scheduling interval(SI)is formulated as a Markov decision process(MDP),where the state,action,and reward are specified for this dwell scheduling problem.Specially,the action is defined as scheduling the task on the left side,right side or in the middle of the radar idle time-line,which reduces the action space effectively and accelerates the convergence of the training.Through the above process,a model-free reinforcement learning framework is established.Then,an adaptive dwell scheduling method based on Q-learn-ing is proposed,where the converged Q value table after train-ing is utilized to instruct the scheduling process.Simulation results demonstrate that compared with existing dwell schedul-ing algorithms,the proposed one can achieve better scheduling performance considering the urgency criterion,the importance criterion and the desired execution time criterion comprehen-sively.The average running time shows the proposed algorithm has real-time performance. 展开更多
关键词 multifunctional radar dwell scheduling reinforce-ment learning q-learning.
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部