期刊文献+
共找到124,836篇文章
< 1 2 250 >
每页显示 20 50 100
A Vision-based Robotic Navigation Method Using an Evolutionary and Fuzzy Q-Learning Approach
1
作者 Roberto Cuesta-Solano Ernesto Moya-Albor +1 位作者 Jorge Brieva Hiram Ponce 《Journal of Artificial Intelligence and Technology》 2024年第4期363-369,共7页
The paper presents a fuzzy Q-learning(FQL)and optical flow-based autonomous navigation approach.The FQL method takes decisions in an unknown environment and without mapping,using motion information and through a reinf... The paper presents a fuzzy Q-learning(FQL)and optical flow-based autonomous navigation approach.The FQL method takes decisions in an unknown environment and without mapping,using motion information and through a reinforcement signal into an evolutionary algorithm.The reinforcement signal is calculated by estimating the optical flow densities in areas of the camera to determine whether they are“dense”or“thin”which has a relationship with the proximity of objects.The results obtained show that the present approach improves the rate of learning compared with a method with a simple reward system and without the evolutionary component.The proposed system was implemented in a virtual robotics system using the CoppeliaSim software and in communication with Python. 展开更多
关键词 CoppeliaSim evolutionary algorithm fuzzy q-learning optical flow reinforced learning vision-based control navigation
在线阅读 下载PDF
A Genetic Based Fuzzy Q-Learning Flow Controller for High-Speed Networks 被引量:2
2
作者 Xin LI Yuanwei JING +1 位作者 Nan JIANG Siying ZHANG 《International Journal of Communications, Network and System Sciences》 2009年第1期84-89,共6页
For the congestion problems in high-speed networks, a genetic based fuzzy Q-learning flow controller is proposed. Because of the uncertainties and highly time-varying, it is not easy to accurately obtain the complete ... For the congestion problems in high-speed networks, a genetic based fuzzy Q-learning flow controller is proposed. Because of the uncertainties and highly time-varying, it is not easy to accurately obtain the complete information for high-speed networks. In this case, the Q-learning, which is independent of mathematic model, and prior-knowledge, has good performance. The fuzzy inference is introduced in order to facilitate generalization in large state space, and the genetic operators are used to obtain the consequent parts of fuzzy rules. Simulation results show that the proposed controller can learn to take the best action to regulate source flow with the features of high throughput and low packet loss ratio, and can avoid the occurrence of congestion effectively. 展开更多
关键词 HIGH-SPEED Network Flow Control fuzzy q-learning GENETIC OPERATOR
暂未订购
基于Q-Learning的多模态自适应光伏功率优化组合预测
3
作者 隗知初 杨苹 +3 位作者 周钱雨凡 陈文皓 万思洋 崔嘉雁 《电力工程技术》 北大核心 2026年第1期115-124,163,共11页
针对光伏功率序列波动性强、随机性高的问题,文中提出一种基于Q-Learning的多模态自适应光伏功率优化组合预测模型。首先,采用鲸鱼优化算法的变分模态分解方法,将原始光伏功率序列分解成不同子模态,并通过集成特征筛选模型,确定各子模... 针对光伏功率序列波动性强、随机性高的问题,文中提出一种基于Q-Learning的多模态自适应光伏功率优化组合预测模型。首先,采用鲸鱼优化算法的变分模态分解方法,将原始光伏功率序列分解成不同子模态,并通过集成特征筛选模型,确定各子模态序列最敏感的气象因素。然后,构建反向传播神经网络、双向长短期记忆网络、门控循环单元网络和时间卷积网络4种基础预测模型。考虑到不同模型对不同频率特征的子序列预测能力不同,利用Q-Learning算法自适应选择各模态对应的最优基础模型组合方式。最后,将不同子模态的预测结果叠加重构,得到最终预测结果,并利用高分辨率光伏气象功率数据集进行验证。结果证明,文中所提出的基于Q-Learning的多模态自适应光伏功率优化组合预测模型,相较于单一模型的预测误差平均绝对误差下降了16.18%,均方误差下降了17.00%。 展开更多
关键词 鲸鱼优化算法 变分模态分解 q-learning 功率预测 组合模型 光伏发电
在线阅读 下载PDF
基于随机森林与Q-learning融合的多元电力数据存储优化决策方法
4
作者 叶学顺 贾东梨 +2 位作者 周俊 唐英 贾梓豪 《科学技术与工程》 北大核心 2026年第3期1065-1074,共10页
大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电... 大规模和多样的电力数据存储面临效率低和内存容量不足的瓶颈问题。数据索引和数据压缩等传统数据存储优化方法各有优劣势,如何有效应用于电力数据存储是目前研究的难点。为了解决这个问题,提出了一种融合随机森林和Q-learning的多元电力数据存储优化决策方法。该方法中的关键技术包括:首先提出了基于改进随机森林算法的存储优化策略决策模型,引入信息增益方法,综合评价数据存储时对数据库的数据访问频率、查询时间、存储速度以及数据冗余率等因素影响,做出数据直接存储、数据索引存储和数据压缩存储的存储优化方法策略决策;其次提出了基于改进Q-learning算法的数据存储算法决策模型,引入多尺度学习机制、优先经验放回机制和正负向奖励机制,决策数据索引存储时适用的索引算法以及数据压缩存储时适用的数据压缩算法。本方法有效融合了数据索引与数据压缩的技术优势,大幅提升数据存储效率并节约存储空间,为大规模多元电力数据管理提供新的解决方案。 展开更多
关键词 随机森林算法 q-learning算法 数据存储优化方法 数据索引算法 数据压缩算法
在线阅读 下载PDF
FAIR-DQL:Fairness-Aware Deep Q-Learning for Enhanced Resource Allocation and RIS Optimization in High-Altitude Platform Networks
5
作者 Muhammad Ejaz Muhammad Asim +1 位作者 Mudasir Ahmad Wani Kashish Ara Shakil 《Computers, Materials & Continua》 2026年第3期758-779,共22页
The integration of High-Altitude Platform Stations(HAPS)with Reconfigurable Intelligent Surfaces(RIS)represents a critical advancement for next-generation wireless networks,offering unprecedented opportunities for ubi... The integration of High-Altitude Platform Stations(HAPS)with Reconfigurable Intelligent Surfaces(RIS)represents a critical advancement for next-generation wireless networks,offering unprecedented opportunities for ubiquitous connectivity.However,existing research reveals significant gaps in dynamic resource allocation,joint optimization,and equitable service provisioning under varying channel conditions,limiting practical deployment of these technologies.This paper addresses these challenges by proposing a novel Fairness-Aware Deep Q-Learning(FAIRDQL)framework for joint resource management and phase configuration in HAPS-RIS systems.Our methodology employs a comprehensive three-tier algorithmic architecture integrating adaptive power control,priority-based user scheduling,and dynamic learning mechanisms.The FAIR-DQL approach utilizes advanced reinforcement learning with experience replay and fairness-aware reward functions to balance competing objectives while adapting to dynamic environments.Key findings demonstrate substantial improvements:9.15 dB SINR gain,12.5 bps/Hz capacity,78%power efficiency,and 0.82 fairness index.The framework achieves rapid 40-episode convergence with consistent delay performance.These contributions establish new benchmarks for fairness-aware resource allocation in aerial communications,enabling practical HAPS-RIS deployments in rural connectivity,emergency communications,and urban networks. 展开更多
关键词 Wireless communication high-altitude platform station reconfigurable intelligent surfaces deep q-learning
在线阅读 下载PDF
A Hybrid Approach to Software Testing Efficiency:Stacked Ensembles and Deep Q-Learning for Test Case Prioritization and Ranking
6
作者 Anis Zarrad Thomas Armstrong Jaber Jemai 《Computers, Materials & Continua》 2026年第3期1726-1746,共21页
Test case prioritization and ranking play a crucial role in software testing by improving fault detection efficiency and ensuring software reliability.While prioritization selects the most relevant test cases for opti... Test case prioritization and ranking play a crucial role in software testing by improving fault detection efficiency and ensuring software reliability.While prioritization selects the most relevant test cases for optimal coverage,ranking further refines their execution order to detect critical faults earlier.This study investigates machine learning techniques to enhance both prioritization and ranking,contributing to more effective and efficient testing processes.We first employ advanced feature engineering alongside ensemble models,including Gradient Boosted,Support Vector Machines,Random Forests,and Naive Bayes classifiers to optimize test case prioritization,achieving an accuracy score of 0.98847 and significantly improving the Average Percentage of Fault Detection(APFD).Subsequently,we introduce a deep Q-learning framework combined with a Genetic Algorithm(GA)to refine test case ranking within priority levels.This approach achieves a rank accuracy of 0.9172,demonstrating robust performance despite the increasing computational demands of specialized variation operators.Our findings highlight the effectiveness of stacked ensemble learning and reinforcement learning in optimizing test case prioritization and ranking.This integrated approach improves testing efficiency,reduces late-stage defects,and improves overall software stability.The study provides valuable information for AI-driven testing frameworks,paving the way for more intelligent and adaptive software quality assurance methodologies. 展开更多
关键词 Software testing test case prioritization test case ranking machine learning reinforcement learning deep q-learning
在线阅读 下载PDF
基于深度Q-learning算法的智能电网管控模型研究
7
作者 王筠 李志鹏 +2 位作者 项旭 张军堂 石雷波 《自动化技术与应用》 2026年第2期54-57,142,共5页
设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任... 设计基于深度Q-learning算法的智能电网管控模型,将可验证声明(verifiable credential, VC)和分布式数字身份(decentralized identity, DID)作为应用程序身份凭证与软件定义网络(software-defined networking, SDN)控制器,结合动态信任评估算法与基于属性的访问控制策略,构建基于区块链的智能电网分布式SDN管控模型。在资源分配、网络拓扑动态变化以及安全威胁不断演变的情况下,实施基于区块链的分布式SDN网络的优化。实验测试结果表明,设计方法在通过深度Q-learning优化模型后累积奖励明显大幅增加,在多种安全性能方面表现出色,能够清除恶意域,确保网络环境的安全。 展开更多
关键词 SDN控制器 分布式SDN网络 深度q-learning算法 区块链 智能电网管控模型
在线阅读 下载PDF
玻尔兹曼优化Q-learning的高速铁路越区切换控制算法 被引量:4
8
作者 陈永 康婕 《控制理论与应用》 北大核心 2025年第4期688-694,共7页
针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误... 针对5G-R高速铁路越区切换使用固定切换阈值,且忽略了同频干扰、乒乓切换等的影响,导致越区切换成功率低的问题,提出了一种玻尔兹曼优化Q-learning的越区切换控制算法.首先,设计了以列车位置–动作为索引的Q表,并综合考虑乒乓切换、误码率等构建Q-learning算法回报函数;然后,提出玻尔兹曼搜索策略优化动作选择,以提高切换算法收敛性能;最后,综合考虑基站同频干扰的影响进行Q表更新,得到切换判决参数,从而控制切换执行.仿真结果表明:改进算法在不同运行速度和不同运行场景下,较传统算法能有效提高切换成功率,且满足无线通信服务质量QoS的要求. 展开更多
关键词 越区切换 5G-R q-learning算法 玻尔兹曼优化策略
在线阅读 下载PDF
多代理Nash Q-Learning模型行动选择策略研究
9
作者 韩松 李璨 《中国管理科学》 北大核心 2025年第12期110-120,共11页
多代理Q-Learning模型的行动选择策略优化是复杂经济学博弈模拟过程中亟待解决的问题之一。本文将强制ε-greedy行动选择策略引入多代理Nash Q-Learning模型中,通过博弈实验对比该行动选择策略与经典ε-greedy策略的效果,探究该行动选... 多代理Q-Learning模型的行动选择策略优化是复杂经济学博弈模拟过程中亟待解决的问题之一。本文将强制ε-greedy行动选择策略引入多代理Nash Q-Learning模型中,通过博弈实验对比该行动选择策略与经典ε-greedy策略的效果,探究该行动选择策略对算法计算速度和收敛情况的影响;同时,根据实验结果进行了算法真实性理论验证,并基于多代理模型的性质给出强制ε-greedy的普适性推论。模拟结果表明,强制ε-greedy适用于更复杂、涉及状态行动更多、回合更多的博弈,此时能有效提升多代理Q-Learning算法运行性能,但由于其本质是初期增加对行动的探索,这会消耗一些回合,导致均衡收敛率下降。因此,强制ε-greedy带来的性能提升与损失的均衡收敛率是使用者在应用该策略时需要权衡的问题。 展开更多
关键词 Nash q-learning 强制ε-greedy 行动选择
原文传递
基于改进Q-learning算法的XGBoost模型智能预测页岩断裂韧性
10
作者 张艳 王宗勇 +3 位作者 张豪 吴建成 祝春波 吴高平 《长江大学学报(自然科学版)》 2025年第5期58-65,共8页
岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断... 岩石的断裂韧性是影响裂缝扩展及延伸的重要因素,同时也是储层可压性评价的关键参数。但目前断裂韧性直接测试较为复杂,且现有的断裂韧性预测方法多基于断裂韧性与其他物理参数之间的拟合关系,难以形成整个井段的连续剖面。通过室内断裂韧性实验,分析了页岩断裂韧性与其他物理力学参数之间的关系,建立了断裂韧性拟合公式,同时采用XGBoost模型,利用地球物理测井数据,通过改进的Q-learning算法优化XGBoost模型超参数,实现了岩石断裂韧性的预测。研究结果表明,Ⅰ型断裂韧性与抗拉强度、声波速度相关性较高,与密度相关性较低,与纵波速度、横波速度、抗拉强度、岩石密度均成正相关。基于改进的Q-learning优化断裂韧性智能预测的XGBoost模型预测准确性较高,预测断裂韧性与拟合断裂韧性相关度高达0.981,所提出的岩石断裂韧性预测模型是可靠的,可为压裂工程设计提供参考。 展开更多
关键词 断裂韧性 测井数据 智能算法 q-learning XGBoost 压裂设计
在线阅读 下载PDF
无监督环境下改进Q-learning算法在网络异常诊断中的应用
11
作者 梁西陈 《六盘水师范学院学报》 2025年第3期89-97,共9页
针对无监督环境下传统网络异常诊断算法存在异常点定位和异常数据分类准确率低等不足,通过设计一种基于改进Q-learning算法的无线网络异常诊断方法:首先基于ADU(Asynchronous Data Unit异步数据单元)单元采集无线网络的数据流,并提取数... 针对无监督环境下传统网络异常诊断算法存在异常点定位和异常数据分类准确率低等不足,通过设计一种基于改进Q-learning算法的无线网络异常诊断方法:首先基于ADU(Asynchronous Data Unit异步数据单元)单元采集无线网络的数据流,并提取数据包特征;然后构建Q-learning算法模型探索状态值和奖励值的平衡点,利用SA(Simulated Annealing模拟退火)算法从全局视角对下一时刻状态进行精确识别;最后确定训练样本的联合分布概率,提升输出值的逼近性能以达到平衡探索与代价之间的均衡。测试结果显示:改进Q-learning算法的网络异常定位准确率均值达99.4%,在不同类型网络异常的分类精度和分类效率等方面,也优于三种传统网络异常诊断方法。 展开更多
关键词 无监督 改进q-learning ADU单元 状态值 联合分布概率
在线阅读 下载PDF
融合改进Q-learning的遗传算法求解柔性作业车间调度问题
12
作者 陈涛 赵厚安 《常州工学院学报》 2025年第5期17-24,82,共9页
传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性... 传统遗传算法求解柔性作业车间调度问题,存在参数敏感性差、容易陷入局部最优等问题。强化学习通过探索、利用的平衡,可以提高解的多样性和精确度,在此基础上,通过融合改进Q-learning的遗传算法来求解以最小化最大完工时间为目标的柔性作业车间调度模型。采用混合策略初始化种群,提高种群质量,引入精英保留策略,保留进化过程中的优质染色体,通过精细设计强化学习的状态空间、动作设置、奖励机制和基于算法性能的自适应探索率衰减机制,实现对遗传算法关键参数的快速自适应调优,在全局搜索和局部利用之间实现更为精细的平衡。最后,通过Brandimarte的10个基准算例进行仿真实验,与3种不同的算法对比,该方法表现出了较好的寻优能力,证实了算法的有效性。 展开更多
关键词 柔性作业车间调度 q-learning 遗传算法 自适应
在线阅读 下载PDF
基于Q-Learning反馈机制的短距离无线通信网络多信道调度方法
13
作者 李忠 严莉 《计算机与网络》 2025年第5期470-479,共10页
由于传统信道调度方法受传统固定规则影响,导致出现信道资源利用率低下、数据通信不稳定等问题。为解决这一问题,提出基于Q-Learning反馈机制的短距离无线通信网络多信道调度方法。深入核心网系统架构与无线接入网系统架构的拓扑架构与... 由于传统信道调度方法受传统固定规则影响,导致出现信道资源利用率低下、数据通信不稳定等问题。为解决这一问题,提出基于Q-Learning反馈机制的短距离无线通信网络多信道调度方法。深入核心网系统架构与无线接入网系统架构的拓扑架构与底层逻辑,分析短距离无线通信网络架构;基于Dijkstra算法,结合短距离无线通信网络通信节点无向图进行网络信道节点优化部署;计算多信道状态特征参数,构建信道状态预估模型,预估短距离无线通信网络多信道状态;创新性地基于Q-Learning反馈机制,利用Q-Learning算法的强化学习能力,将强化学习过程视为马尔可夫决策过程,实现短距离无线通信网络多信道调度。实验结果表明:利用设计方法获取的平均丢包率最大值为0.03、网络吞吐量最大值为4.5 Mb/s,能够在维持较低丢包率的同时,保持较高的吞吐量,具有较高的信道资源利用效率。在低流量负载区,通信延迟均低于0.4 s、在高流量负载区通信延迟最高为0.4 s,最低值为0.26 s,可以有效实现通信数据高效、稳定传输。 展开更多
关键词 q-learning反馈机制 短距离 无线通信网络 多信道调度 信道状态 马尔可夫决策
在线阅读 下载PDF
融合Q-learning的A^(*)预引导蚁群路径规划算法 被引量:1
14
作者 殷笑天 杨丽英 +1 位作者 刘干 何玉庆 《传感器与微系统》 北大核心 2025年第8期143-147,153,共6页
针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素... 针对传统蚁群优化(ACO)算法在复杂环境路径规划中存在易陷入局部最优、收敛速度慢及避障能力不足的问题,提出了一种融合Q-learning基于分层信息素机制的A^(*)算法预引导蚁群路径规划算法-QHACO算法。首先,通过A^(*)算法预分配全局信息素,引导初始路径快速逼近最优解;其次,构建全局-局部双层信息素协同模型,利用全局层保留历史精英路径经验、局部层实时响应环境变化;最后,引入Q-learning方向性奖励函数优化决策过程,在路径拐点与障碍边缘施加强化引导信号。实验表明:在25×24中等复杂度地图中,QHACO算法较传统ACO算法最优路径缩短22.7%,收敛速度提升98.7%;在50×50高密度障碍环境中,最优路径长度优化16.9%,迭代次数减少95.1%。相比传统ACO算法,QHACO算法在最优性、收敛速度与避障能力上均有显著提升,展现出较强环境适应性。 展开更多
关键词 蚁群优化算法 路径规划 局部最优 收敛速度 q-learning 分层信息素 A^(*)算法
在线阅读 下载PDF
基于Q-learning算法的机场航班延误预测 被引量:4
15
作者 刘琪 乐美龙 《航空计算技术》 2025年第1期28-32,共5页
将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延... 将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延误时间的最终解释变量输入Q-learning算法中,从而实现对航班延误的实时预测。使用北京首都国际机场航班数据进行测试实验,实验结果表明,所提出的模型可以有效预测航班延误,平均误差为4.05 min。将提出的组合算法性能与4种基准方法进行比较,基于DBN的Q-learning算法的延误预测准确性高于另外四种算法,具有较高的预测精度。 展开更多
关键词 航空运输 航班延误预测 深度信念网络 q-learning 航班延误
在线阅读 下载PDF
改进的自校正Q-learning应用于智能机器人路径规划 被引量:4
16
作者 任伟 朱建鸿 《机械科学与技术》 北大核心 2025年第1期126-132,共7页
为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距... 为了解决智能机器人路径规划中存在的一些问题,提出了一种改进的自校正Q-learning算法。首先,对其贪婪搜索因子进行了改进,采用动态的搜索因子,对探索和利用之间的关系进行了更好地平衡;其次,在Q值初始化阶段,利用当前位置和目标位置距离的倒数代替传统的Q-learning算法中的全零或随机初始化,大大加快了收敛速度;最后,针对传统的Q-learning算法中Q函数的最大化偏差,引入自校正估计器来修正最大化偏差。通过仿真实验对提出的改进思路进行了验证,结果表明:改进的算法能够很大程度的提高算法的学习效率,在各个方面相比传统算法都有了较大的提升。 展开更多
关键词 路径规划 q-learning 贪婪搜索 初始化 自校正
在线阅读 下载PDF
基于天球网格的大规模LEO星座Q-Learning QoS路由算法
17
作者 马伟 肖嵩 +1 位作者 周诠 蔡宇茜 《空间电子技术》 2025年第S1期132-139,共8页
智能化QoS路由是大规模LEO星座的研究热点和难点。文章聚焦LEO星座虚实拓扑漂移、多业务QoS冲突、动态负载失衡等问题,提出了一种基于天球网格的Q-Learning QoS路由算法。通过将非均匀离散化天球与北斗网格编码融合,解决链路频繁切换及... 智能化QoS路由是大规模LEO星座的研究热点和难点。文章聚焦LEO星座虚实拓扑漂移、多业务QoS冲突、动态负载失衡等问题,提出了一种基于天球网格的Q-Learning QoS路由算法。通过将非均匀离散化天球与北斗网格编码融合,解决链路频繁切换及虚实拓扑同步问题。在此基础上结合业务热力图设计了Q-Learning路由算法,以带宽、负载、热力等级、跳数为联合优化目标,构建差异化QoS奖励机制,通过实时学习动态规避拥塞链路。仿真结果表明,本文算法相较HLLMR和Dijkstra算法,丢包率分别降低4%和11%,吞吐量提升7%和15%,时延与HLLMR相当,实现了大规模LEO星座QoS保障与负载均衡的协同优化。 展开更多
关键词 天球网格 热力图 q-learning QOS路由
在线阅读 下载PDF
基于非策略Q-learning的欺骗攻击下未知线性离散系统最优跟踪控制
18
作者 宋星星 储昭碧 《控制与决策》 北大核心 2025年第5期1641-1650,共10页
针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性... 针对多重欺骗攻击下动力学信息未知的线性离散系统,提出一种非策略Q-learning算法解决系统的最优跟踪控制问题.首先,考虑加入一个权重矩阵建立控制器通信信道遭受多重欺骗攻击的输入模型,并结合参考命令生成器构建增广跟踪系统.在线性二次跟踪框架内将系统的最优跟踪控制表达为欺骗攻击与控制输入同时参与的零和博弈问题.其次,设计一种基于状态数据的非策略Q-learning算法学习系统最优跟踪控制增益,解决应用中控制增益不能按照给定要求更新的问题,并证明在满足持续激励条件的探测噪声下该算法的求解不存在偏差.同时考虑系统状态不可测的情况,设计基于输出数据的非策略Q-learning算法.最后,通过对F-16飞机自动驾驶仪的跟踪控制仿真,验证所设计非策略Q-learning算法的有效性以及对探测噪声影响的无偏性. 展开更多
关键词 欺骗攻击 最优跟踪 非策略q-learning 零和博弈
原文传递
Reactive fuzzy controller design by Q-learning for mobile robot navigation 被引量:5
19
作者 张文志 吕恬生 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2005年第3期319-324,共6页
In this paper a learning mechanism for reactive fuzzy controller design of a mobile robot navigating in unknown environments is proposed. The fuzzy logical controller is constructed based on the kinematics model of a ... In this paper a learning mechanism for reactive fuzzy controller design of a mobile robot navigating in unknown environments is proposed. The fuzzy logical controller is constructed based on the kinematics model of a real robot. The approach to learning the fuzzy rule base by relatively simple and less computational Q-learning is described in detail. After analyzing the credit assignment problem caused by the rules collision, a remedy is presented. Furthermore, time-varying parameters are used to increase the learning speed. Simulation results prove the mechanism can learn fuzzy navigation rules successfully only using scalar reinforcement signal and the rule base learned is proved to be correct and feasible on real robot platforms. 展开更多
关键词 fuzzy logical reinforcement learning q-learning mobile robot NAVIGATION
在线阅读 下载PDF
基于Q-learning的改进NSGA-Ⅲ求解高维多目标柔性作业车间调度问题
20
作者 张小培 陈勇 +1 位作者 王宸 袁春辉 《湖北汽车工业学院学报》 2025年第3期56-63,共8页
针对机械加工车间多品种、小批量的生产模式,以最小化总能耗、最大完工时间、机器负载和总拖期为优化目标建立高维多目标柔性作业车间调度模型,并利用改进NSGA-Ⅲ进行求解。采用机器、工序和批量的三重编码方式进行编码,通过Logistic映... 针对机械加工车间多品种、小批量的生产模式,以最小化总能耗、最大完工时间、机器负载和总拖期为优化目标建立高维多目标柔性作业车间调度模型,并利用改进NSGA-Ⅲ进行求解。采用机器、工序和批量的三重编码方式进行编码,通过Logistic映射生成初始混沌序列初始化种群,根据目标解的质量指标构建强化学习状态空间,通过Q-learning训练调整邻域搜索策略。最后通过对比基准算例及实例验证了模型的有效性和优越性。 展开更多
关键词 柔性作业 目标优化 批量调度 q-learning 邻域搜索
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部