期刊文献+
共找到430篇文章
< 1 2 22 >
每页显示 20 50 100
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:4
1
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
基于改进Q-learning算法的XGBoost模型智能预测页岩断裂韧性
2
作者 张艳 王宗勇 +3 位作者 张豪 吴建成 祝春波 吴高平 《长江大学学报(自然科学版)》 2025年第5期58-65,共8页
岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断... 岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断裂韧性实验,分析了页岩断裂韧性与其他物理力学参数之间的关系,建立了断裂韧性拟合公式,同时采用XGBoost模型,利用地球物理测井数据,通过改进的Q-learning算法优化XGBoost模型超参数,实现了岩石断裂韧性的预测。研究结果表明,Ⅰ型断裂韧性与抗拉强度、声波速度相关性较高,与密度相关性较低,与纵波速度、横波速度、抗拉强度、岩石密度均成正相关。基于改进的Q-learning优化断裂韧性智能预测的XGBoost模型预测准确性较高,预测断裂韧性与拟合断裂韧性相关度高达0.981,所提出的岩石断裂韧性预测模型是可靠的,可为压裂工程设计提供参考。 展开更多
关键词 断裂韧性 测井数据 智能算法 q-learning XGBoost 压裂设计
在线阅读 下载PDF
无监督环境下改进Q-learning算法在网络异常诊断中的应用
3
作者 梁西陈 《六盘水师范学院学报》 2025年第3期89-97,共9页
针对无监督环境下传统网络异常诊断算法存在异常点定位和异常数据分类准确率低等不足,通过设计一种基于改进Q-learning算法的无线网络异常诊断方法:首先基于ADU(Asynchronous Data Unit异步数据单元)单元采集无线网络的数据流,并提取数... 针对无监督环境下传统网络异常诊断算法存在异常点定位和异常数据分类准确率低等不足,通过设计一种基于改进Q-learning算法的无线网络异常诊断方法:首先基于ADU(Asynchronous Data Unit异步数据单元)单元采集无线网络的数据流,并提取数据包特征;然后构建Q-learning算法模型探索状态值和奖励值的平衡点,利用SA(Simulated Annealing模拟退火)算法从全局视角对下一时刻状态进行精确识别;最后确定训练样本的联合分布概率,提升输出值的逼近性能以达到平衡探索与代价之间的均衡。测试结果显示:改进Q-learning算法的网络异常定位准确率均值达99.4%,在不同类型网络异常的分类精度和分类效率等方面,也优于三种传统网络异常诊断方法。 展开更多
关键词 无监督 改进q-learning ADU单元 状态值 联合分布概率
在线阅读 下载PDF
基于Q-Learning反馈机制的短距离无线通信网络多信道调度方法
4
作者 李忠 严莉 《计算机与网络》 2025年第5期470-479,共10页
由于传统信道调度方法受传统固定规则影响,导致出现信道资源利用率低下、数据通信不稳定等问题。为解决这一问题,提出基于Q-Learning反馈机制的短距离无线通信网络多信道调度方法。深入核心网系统架构与无线接入网系统架构的拓扑架构与... 由于传统信道调度方法受传统固定规则影响,导致出现信道资源利用率低下、数据通信不稳定等问题。为解决这一问题,提出基于Q-Learning反馈机制的短距离无线通信网络多信道调度方法。深入核心网系统架构与无线接入网系统架构的拓扑架构与底层逻辑,分析短距离无线通信网络架构;基于Dijkstra算法,结合短距离无线通信网络通信节点无向图进行网络信道节点优化部署;计算多信道状态特征参数,构建信道状态预估模型,预估短距离无线通信网络多信道状态;创新性地基于Q-Learning反馈机制,利用Q-Learning算法的强化学习能力,将强化学习过程视为马尔可夫决策过程,实现短距离无线通信网络多信道调度。实验结果表明:利用设计方法获取的平均丢包率最大值为0.03、网络吞吐量最大值为4.5 Mb/s,能够在维持较低丢包率的同时,保持较高的吞吐量,具有较高的信道资源利用效率。在低流量负载区,通信延迟均低于0.4 s、在高流量负载区通信延迟最高为0.4 s,最低值为0.26 s,可以有效实现通信数据高效、稳定传输。 展开更多
关键词 q-learning反馈机制 短距离 无线通信网络 多信道调度 信道状态 马尔可夫决策
在线阅读 下载PDF
融合改进Q-learning的遗传算法求解柔性作业车间调度问题
5
作者 陈涛 赵厚安 《常州工学院学报》 2025年第5期17-24,82,共9页
传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性... 传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性作业车间调度模型。采用混合策略初始化种群,提高种群质量,引入精英保留策略,保留进化过程中的优质染色体,通过精细设计强化学习的状态空间、动作设置、奖励机制和基于算法性能的自适应探索率衰减机制,实现对遗传算法关键参数的快速自适应调优,在全局搜索和局部利用之间实现更为精细的平衡。最后,通过Brandimarte的10个基准算例进行仿真实验,与3种不同的算法对比,该方法表现出了较好的寻优能力,证实了算法的有效性。 展开更多
关键词 柔性作业车间调度 q-learning 遗传算法 自适应
在线阅读 下载PDF
融合Q-learning的A^(*)预引导蚁群路径规划算法 被引量:1
6
作者 殷笑天 杨丽英 +1 位作者 刘干 何玉庆 《传感器与微系统》 北大核心 2025年第8期143-147,153,共6页
针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素... 针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素,引导初始路径快速逼近最优解;其次,构建全局-局部双层信息素协同模型,利用全局层保留历史精英路径经验、局部层实时响应环境变化;最后,引入Q-learning方向性奖励函数优化决策过程,在路径拐点与障碍边缘施加强化引导信号。实验表明:在25×24中等复杂度地图中,QHACO算法较传统ACO算法最优路径缩短22.7%,收敛速度提升98.7%;在50×50高密度障碍环境中,最优路径长度优化16.9%,迭代次数减少95.1%。相比传统ACO算法,QHACO算法在最优性、收敛速度与避障能力上均有显著提升,展现出较强环境适应性。 展开更多
关键词 蚁群优化算法 路径规划 局部最优 收敛速度 q-learning 分层信息素 A^(*)算法
在线阅读 下载PDF
基于Q-learning算法的机场航班延误预测 被引量:2
7
作者 刘琪 乐美龙 《航空计算技术》 2025年第1期28-32,共5页
将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延... 将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延误时间的最终解释变量输入Q-learning算法中,从而实现对航班延误的实时预测。使用北京首都国际机场航班数据进行测试实验,实验结果表明,所提出的模型可以有效预测航班延误,平均误差为4.05 min。将提出的组合算法性能与4种基准方法进行比较,基于DBN的Q-learning算法的延误预测准确性高于另外四种算法,具有较高的预测精度。 展开更多
关键词 航空运输 航班延误预测 深度信念网络 q-learning 航班延误
在线阅读 下载PDF
改进的自校正Q-learning应用于智能机器人路径规划 被引量:3
8
作者 任伟 朱建鸿 《机械科学与技术》 北大核心 2025年第1期126-132,共7页
为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距... 为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距离的倒数代替传统的Q-learning算法中的全零或随机初始化,大大加快了收敛速度;最后,针对传统的Q-learning算法中Q函数的最大化偏差,引入自校正估计器来修正最大化偏差。通过仿真实验对提出的改进思路进行了验证,结果表明:改进的算法能够很大程度的提高算法的学习效率,在各个方面相比传统算法都有了较大的提升。 展开更多
关键词 路径规划 q-learning 贪婪搜索 初始化 自校正
在线阅读 下载PDF
基于天球网格的大规模LEO星座Q-Learning QoS路由算法
9
作者 马伟 肖嵩 +1 位作者 周诠 蔡宇茜 《空间电子技术》 2025年第S1期132-139,共8页
智能化QoS路由是大规模LEO星座的研究热点和难点。文章聚焦LEO星座虚实拓扑漂移、多业务QoS冲突、动态负载失衡等问题,提出了一种基于天球网格的Q-Learning QoS路由算法。通过将非均匀离散化天球与北斗网格编码融合,解决链路频繁切换及... 智能化QoS路由是大规模LEO星座的研究热点和难点。文章聚焦LEO星座虚实拓扑漂移、多业务QoS冲突、动态负载失衡等问题,提出了一种基于天球网格的Q-Learning QoS路由算法。通过将非均匀离散化天球与北斗网格编码融合,解决链路频繁切换及虚实拓扑同步问题。在此基础上结合业务热力图设计了Q-Learning路由算法,以带宽、负载、热力等级、跳数为联合优化目标,构建差异化QoS奖励机制,通过实时学习动态规避拥塞链路。仿真结果表明,本文算法相较HLLMR和Dijkstra算法,丢包率分别降低4%和11%,吞吐量提升7%和15%,时延与HLLMR相当,实现了大规模LEO星座QoS保障与负载均衡的协同优化。 展开更多
关键词 天球网格 热力图 q-learning QOS路由
在线阅读 下载PDF
基于非策略Q-learning的欺骗攻击下未知线性离散系统最优跟踪控制
10
作者 宋星星 储昭碧 《控制与决策》 北大核心 2025年第5期1641-1650,共10页
针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性... 针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性二次跟踪框架内将系统的最优跟踪控制表达为欺骗攻击与控制输入同时参与的零和博弈问题.其次,设计一种基于状态数据的非策略Q-learning算法学习系统最优跟踪控制增益,解决应用中控制增益不能按照给定要求更新的问题,并证明在满足持续激励条件的探测噪声下该算法的求解不存在偏差.同时考虑系统状态不可测的情况,设计基于输出数据的非策略Q-learning算法.最后,通过对F-16飞机自动驾驶仪的跟踪控制仿真,验证所设计非策略Q-learning算法的有效性以及对探测噪声影响的无偏性. 展开更多
关键词 欺骗攻击 最优跟踪 非策略q-learning 零和博弈
原文传递
基于Double Q-Learning的改进蝗虫算法求解分布式柔性作业车间逆调度问题
11
作者 胡旭伦 唐红涛 《机床与液压》 北大核心 2025年第20期52-63,共12页
针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合... 针对分布式柔性作业车间中存在的资源分配不均和调度稳定性不足问题,构建以最小化最大完工时间、机器总能耗和偏离度为目标的逆调度数学模型,提出一种基于Double Q-Learning的改进多目标蝗虫优化算法(DQIGOA)。针对该问题设计一种混合三层编码方式;提出一种基于逆调度特点的种群初始化方式以提高种群质量;引入权重平衡因子来提高非支配解存档中解集的多样性;将强化学习中的Double Q-Learning机制融入非支配解的选择过程,通过动态动作策略优化目标解的选取,提升调度方案的全局搜索能力与局部优化效率。最后构建26组算例,通过策略有效性分析证明了所提策略可显著提升DQIGOA算法的性能,并通过与NSGA-II、DE和SPEA-II算法进行对比证明DQIGOA算法的有效性。结果表明:相比NSGA-II、DE和SPEA-II算法,DQIGOA算法在HV、IGD、SP指标上均有优势,证明了DQIGOA能够有效提升解的收敛速度和多样性分布,在动态扰动条件下表现出更强的鲁棒性。 展开更多
关键词 分布式柔性作业车间 逆调度 蝗虫算法 Double q-learning机制
在线阅读 下载PDF
基于改进Q-Learning算法的机器人路径规划 被引量:4
12
作者 潘琦涛 赵岳生 甘育国 《物联网技术》 2025年第3期82-86,共5页
移动机器人的路径规划问题受到了广大学者的关注。当机器人在未知环境中进行路径规划时,为了提高规划的效率,通常需要获取相关的先验知识。在强化学习路径规划中,先验知识可以通过多种方式融入到算法中,其中Q-Learning算法是一种常用的... 移动机器人的路径规划问题受到了广大学者的关注。当机器人在未知环境中进行路径规划时,为了提高规划的效率,通常需要获取相关的先验知识。在强化学习路径规划中,先验知识可以通过多种方式融入到算法中,其中Q-Learning算法是一种常用的方法。传统的Q-Learning算法路径规划存在拐点多、路径长、训练轮次多等问题。因此,提出一种改进算法,针对原Q-Learning算法在机器人路径规划中存在的学习速度慢、探索效率低、规划路径长等突出问题进行了优化。首先,基于栅格地图,在传统算法的基础上采用径向基函数(RBF)网络对Q-Learning算法的动作值函数进行逼近;其次,为了平衡探索与利用的比例,采用了动态调整贪婪因子的方法;最后,增加了机器人可选择的动作,扩充了动作集,改进为八方向探索。仿真结果表明,与Q-Learning算法相比,改进后的Q-Learning算法可将最优路径长度缩短23.33%,拐点个数减少63.16%,算法训练轮次减少31.22%。 展开更多
关键词 q-learning ROS机器人 强化学习 路径规划 径向基函数 探索策略
在线阅读 下载PDF
基于Q-learning的改进NSGA-Ⅲ求解高维多目标柔性作业车间调度问题
13
作者 张小培 陈勇 +1 位作者 王宸 袁春辉 《湖北汽车工业学院学报》 2025年第3期56-63,共8页
针对机械加工车间多品种、小批量的生产模式,以最小化总能耗、最大完工时间、机器负载和总拖期为优化目标建立高维多目标柔性作业车间调度模型,并利用改进NSGA-Ⅲ进行求解。采用机器、工序和批量的三重编码方式进行编码,通过Logistic映... 针对机械加工车间多品种、小批量的生产模式,以最小化总能耗、最大完工时间、机器负载和总拖期为优化目标建立高维多目标柔性作业车间调度模型,并利用改进NSGA-Ⅲ进行求解。采用机器、工序和批量的三重编码方式进行编码,通过Logistic映射生成初始混沌序列初始化种群,根据目标解的质量指标构建强化学习状态空间,通过Q-learning训练调整邻域搜索策略。最后通过对比基准算例及实例验证了模型的有效性和优越性。 展开更多
关键词 柔性作业 目标优化 批量调度 q-learning 邻域搜索
在线阅读 下载PDF
基于改进Q-learning算法智能仓储AGV路径规划 被引量:2
14
作者 耿华 冯涛 《现代信息科技》 2025年第2期171-175,共5页
作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用... 作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用不平衡的问题,提出一种结合引力势场改进Q-learning的算法,同时对贪婪系数进行动态调整。首先,针对传统的Q-learning算法规划时学习效率低问题,构建从AGV到目标点的引力场,引导AGV始终朝着目标点方向移动,减少算法初期盲目性,加强初始阶段的目标性。然后,解决算法探索利用平衡问题,对贪婪系数进行动态改进。仿真实验表明,探索速率提升的同时,算法稳定性也有一定的提升。 展开更多
关键词 q-learning算法 强化学习 人工势场算法 AGV 路径规划
在线阅读 下载PDF
面向物流机器人的改进Q-Learning动态避障算法研究 被引量:1
15
作者 王力 赵全海 黄石磊 《计算机测量与控制》 2025年第3期267-274,共8页
为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并... 为提升物流机器人(AMR)在复杂环境中的自主导航与避障能力,改善传统Q-Learning算法在动态环境中的收敛速度慢、路径规划不够优化等问题;研究引入模糊退火算法对Q-Learning算法进行路径节点和搜索路径优化,删除多余节点和非必要转折;并为平衡好Q-Learning算法的探索和利用问题,提出以贪婪法优化搜索策略,并借助改进动态窗口法对进行路径节点和平滑加速改进,实现局部路径规划,以提高改进Q-Learning算法在AMR动态避障中的搜索性能和效率;结果表明,改进Q-Learning算法能有效优化搜索路径,能较好避开动态障碍物和静态障碍物,与其他算法的距离差幅至少大于1 m;改进算法在局部路径中的避障轨迹更趋近于期望值,最大搜索时间不超过3 s,优于其他算法,且其在不同场景下的避障路径长度和运动时间减少幅度均超过10%,避障成功率超过90%;研究方法能满足智慧仓储、智能制造等工程领域对物流机器人高效、安全作业的需求。 展开更多
关键词 物流机器人 q-learning算法 DWA 多目标规划 障碍物 避障
在线阅读 下载PDF
面向生物安全实验室的融合改进Q-learning和PSO算法的机械臂轨迹规划与避障算法研究
16
作者 郝天腾 杜漫漫 +6 位作者 岳文渤 陈佩蓉 魏馨玲 杜耀华 程智 谢新武 周卫斌 《医疗卫生装备》 2025年第12期15-23,共9页
目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO... 目的:针对生物安全实验室空间密闭、障碍物形态多(球形、立方体、圆柱体、椭球体等)及精确操作要求极高的复杂环境特性,提出一种融合改进Q-learning和粒子群优化(particle swarm optimization,PSO)算法的机械臂轨迹规划与避障算法QPSO。方法:QPSO算法采用双层优化架构,上层利用改进的Q-learning算法实现路径决策,通过非线性动态温度玻尔兹曼探索策略平衡探索与利用;下层采用含动态权重和学习因子的PSO算法优化轨迹,并结合余弦定理碰撞检测策略保障避障安全性。为验证提出算法的可行性,进行算法性能分析和避障性能测试,并与标准PSO算法、遗传算法、萤火虫算法、改进快速扩展随机树(rapidly-exploring random tree star,RRT*)算法进行对比。结果:相比标准PSO算法、遗传算法、萤火虫算法和RRT*算法,提出的QPSO算法在收敛性能、轨迹长度和避障成功率方面均有显著优势,且在确保最短路径的同时可实现最大安全距离。结论:提出的QPSO算法能有效提升复杂环境下机械臂的轨迹规划和避障效果,可为生物安全实验室等类似环境的自动化实验操作提供可靠的技术支撑。 展开更多
关键词 生物安全实验室 机械臂 轨迹规划 避障算法 q-learning算法 粒子群优化算法
在线阅读 下载PDF
基于改进Q-Learning算法的智能体路径规划研究
17
作者 刘硕 董西松 赵伟 《计算机时代》 2025年第11期1-6,共6页
随着智能体在复杂动态环境中的路径规划需求日益增长,传统Q-Learning算法在收敛速度、避障效率及全局优化能力上的局限性逐渐凸显。针对Q-Learning算法在路径规划中的不足,本文提出一种结合动态学习率、自适应探索率与蒙特卡洛树搜索(Mo... 随着智能体在复杂动态环境中的路径规划需求日益增长,传统Q-Learning算法在收敛速度、避障效率及全局优化能力上的局限性逐渐凸显。针对Q-Learning算法在路径规划中的不足,本文提出一种结合动态学习率、自适应探索率与蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的改进方法。首先,通过引入指数衰减的动态学习率与探索率,以平衡算法在训练初期的探索能力与后期的策略稳定性;其次,将MCTS与Q-Learning结合,利用MCTS的全局搜索特性优化Q值更新过程;此外,融合启发式函数以改进奖励机制,引导智能体更高效地逼近目标。实验结果表明,改进算法的平均步数、收敛速度、稳定性等相较于传统算法提升显著,本研究为复杂环境下的智能体路径规划提供了一种高效、鲁棒的解决方案。 展开更多
关键词 q-learning 路径规划 动态学习率 蒙特卡洛树搜索 启发式奖励
在线阅读 下载PDF
基于Q-learning的广域物联网热点地区MAC层机制设计
18
作者 雷迪 刘向 +4 位作者 孙文彬 杨欣 许茜 陈丽丽 易波 《移动通信》 2025年第8期90-95,共6页
在广域物联网应用中,热点地区由于终端密集接入、业务负载波动大,存在接入冲突频发、信道资源利用率低下等问题。作为共享无线信道管理重要一环,MAC层协议在提升系统吞吐量与接入效率方面发挥着核心作用。分析了热点地区MAC层协议所需特... 在广域物联网应用中,热点地区由于终端密集接入、业务负载波动大,存在接入冲突频发、信道资源利用率低下等问题。作为共享无线信道管理重要一环,MAC层协议在提升系统吞吐量与接入效率方面发挥着核心作用。分析了热点地区MAC层协议所需特征,提出基于Q-learning算法的优化方案,在节点侧引入强化学习模型以实现参数自适应调整。在传统CSMA/CA协议基础上,设计了结合动态RTS/CTS机制与动态退避窗口的接入机制。仿真结果表明,所提出的优化方案在系统吞吐量、平衡信道冲突率与利用率方面有一定提升。 展开更多
关键词 物联网 MAC层协议 CSMA/CA q-learning
在线阅读 下载PDF
改进Q-learning遗传算法在路径规划中的应用研究
19
作者 张泽宇 王雷 +1 位作者 蔡劲草 夏强强 《智能系统学报》 北大核心 2025年第6期1493-1504,共12页
针对传统遗传算法在路径规划中存在转向角度过大、转向次数过多、易陷入局部最优等问题,提出一种改进遗传算法。首先,提出一种改进种群初始化策略,即先确定一个过渡点,生成一条从起点到过渡点的路径和一条从过渡点到终点的路径,再将两... 针对传统遗传算法在路径规划中存在转向角度过大、转向次数过多、易陷入局部最优等问题,提出一种改进遗传算法。首先,提出一种改进种群初始化策略,即先确定一个过渡点,生成一条从起点到过渡点的路径和一条从过渡点到终点的路径,再将两条路径首尾相连成一条从起点到终点的路径,以生成优秀初始种群,提高前期搜索效率;其次,采用模拟退火算法与区域划分种群相结合的改进锦标赛选择策略,增加种群多样性,防止陷入局部最优;最后,设计一种Q-learning算法与交叉和变异相结合的策略,通过与环境交互,不断学习并优化动作选择策略以此提高算法的全局搜索能力,得到更优种群。路径规划仿真结果表明:相比传统遗传算法、改进自适应遗传算法和改进灾变遗传算法,本文所提改进遗传算法能减少路径长度和转向角度,降低转向次数,从而搜索到更优的路径。 展开更多
关键词 路径规划 遗传算法 种群初始化 模拟退火算法 q-learning算法 适应度函数 选择性交叉变异 精英保留
在线阅读 下载PDF
基于Q-learning分布式训练的无人机自组织网络AODV路由协议
20
作者 孙晨 王宇昆 +1 位作者 万家梅 侯亮 《现代电子技术》 北大核心 2025年第15期103-109,共7页
针对无人机自组织网络节点的高度动态性和拓扑稀疏性,现有的结合Q学习的路由协议暴露出Q值更新滞后、难以迅速适应网络拓扑快速变动的问题,文中提出一种基于Q-learning分布式训练的AODV(DQL-AODV)路由协议。该协议中将每个节点视为一个... 针对无人机自组织网络节点的高度动态性和拓扑稀疏性,现有的结合Q学习的路由协议暴露出Q值更新滞后、难以迅速适应网络拓扑快速变动的问题,文中提出一种基于Q-learning分布式训练的AODV(DQL-AODV)路由协议。该协议中将每个节点视为一个智能体,依据分布式训练的Q值对需转发的数据包进行下一跳选择,每个节点的Q值进行局部更新和全局更新。首先,根据节点间链路的寿命和节点负载能力计算局部奖励值,每次Hello消息接收将更稳定的下一跳链路更新为较高的Q值;其次,路由请求消息到达目标节点后将执行一次全局Q值更新,根据数据包的转发跳数和平均端到端延迟计算全局奖励值;最后,结合Q-learning算法优化Hello消息发送机制,有效地平衡网络拓扑感知程度与路由开销。仿真结果证明,相比于QL-AODV,所提方法在平均端到端时延、数据吞吐量、包到达率和路由开销4个网络性能指标总体上分别优化了19.93%、15.48%、6.24%、11.76%,且收敛能力更强,验证了该协议的有效性。 展开更多
关键词 无人机自组网 AODV路由协议 q-learning分布式训练 链路质量 Hello消息 路由决策
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部