期刊文献+
共找到65篇文章
< 1 2 4 >
每页显示 20 50 100
Multi-agent reinforcement learning for edge information sharing in vehicular networks 被引量:3
1
作者 Ruyan Wang Xue Jiang +5 位作者 Yujie Zhou Zhidu Li Dapeng Wu Tong Tang Alexander Fedotov Vladimir Badenko 《Digital Communications and Networks》 SCIE CSCD 2022年第3期267-277,共11页
To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This pape... To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This paper investigates the reduction of the delay in edge information sharing for V2V links while satisfying the delay requirements of the V2I links.Specifically,a mean delay minimization problem and a maximum individual delay minimization problem are formulated to improve the global network performance and ensure the fairness of a single user,respectively.A multi-agent reinforcement learning framework is designed to solve these two problems,where a new reward function is proposed to evaluate the utilities of the two optimization objectives in a unified framework.Thereafter,a proximal policy optimization approach is proposed to enable each V2V user to learn its policy using the shared global network reward.The effectiveness of the proposed approach is finally validated by comparing the obtained results with those of the other baseline approaches through extensive simulation experiments. 展开更多
关键词 Vehicular networks Edge information sharing Delay guarantee multi-agent reinforcement learning proximal policy optimization
在线阅读 下载PDF
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning 被引量:2
2
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding proximal policy optimization
在线阅读 下载PDF
基于MAPPO的无信号灯交叉口自动驾驶决策 被引量:1
3
作者 许曼晨 于镝 +1 位作者 赵理 郭陈栋 《吉林大学学报(信息科学版)》 CAS 2024年第5期790-798,共9页
针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且... 针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且设计了综合考虑交通规则、安全到达或发生碰撞等安全性以及交叉口车辆最大、最小速度等车流效率的奖励函数,旨在实现安全高效的自动驾驶决策。仿真实验表明,所提出的自动驾驶决策方案在训练中相较于其他算法具有更出色的稳定性和收敛性,在不同车流密度下均呈现出更高的成功率和安全性。该自动驾驶决策方案在解决无信号灯交叉口环境方面具有显著潜力,并且为复杂路况自动驾驶决策的研究起到促进作用。 展开更多
关键词 自动驾驶 智能决策 无信号灯交叉口 mappo算法
在线阅读 下载PDF
干扰攻击下基于MAPPO的电视频谱资源分配研究
4
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(mappo) 资源分配
在线阅读 下载PDF
基于改进近端策略优化算法的柔性作业车间调度 被引量:2
5
作者 王艳红 付威通 +2 位作者 张俊 谭园园 田中大 《控制与决策》 北大核心 2025年第6期1883-1891,共9页
柔性作业车间调度是经典且复杂的组合优化问题,对于离散制造系统的生产优化具有重要的理论和实际意义.基于多指针图网络框架和近端策略优化算法设计一种求解柔性作业车间调度问题的深度强化学习算法.首先,将“工序-机器”分配调度过程... 柔性作业车间调度是经典且复杂的组合优化问题,对于离散制造系统的生产优化具有重要的理论和实际意义.基于多指针图网络框架和近端策略优化算法设计一种求解柔性作业车间调度问题的深度强化学习算法.首先,将“工序-机器”分配调度过程表征成由选择工序和分配机器两类动作构成的马尔可夫决策过程;其次,通过解耦策略解除动作之间的耦合关系,并设计新的损失函数和贪婪采样策略以提高算法的验证推理能力;在此基础上扩充状态空间,使评估网络能够更全面地感知与评估,从而进一步提升算法的学习和决策能力.在随机生成算例及基准算例上进行仿真和对比分析,验证算法的良好性能及泛化能力. 展开更多
关键词 柔性作业车间调度 近端策略优化算法 双动作耦合网络 损失函数优化 贪婪采样 深度强化学习
原文传递
基于深度强化学习的游戏智能引导算法 被引量:2
6
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于多智能体强化学习的交叉道路车辆协同控制
7
作者 申元霞 谢悦 +2 位作者 张学锋 汤亚玲 储岳中 《西华大学学报(自然科学版)》 2025年第4期40-48,共9页
为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;... 为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;考虑车辆间相互位置对通行任务的影响,优化车辆通行时间和安全性,同时设计策略生成算法和优化目标函数;为防止策略陷入局部最优,使用纳什均衡判断策略收敛。在CARLA仿真平台上的实验仿真结果表明,该车辆协同控制策略能在一定程度上提高交叉路口自动驾驶车辆的通行效果,并保证控制系统的稳定性。 展开更多
关键词 车辆协同控制 mappo-RCNN算法 端到端 多智能体系统 策略生成算法 交通流优化 CARLA仿真
在线阅读 下载PDF
基于动态势能奖励的双足机器人行走控制 被引量:2
8
作者 王泉德 王君豪 刘子航 《华中科技大学学报(自然科学版)》 北大核心 2025年第5期9-17,共9页
针对足式机器人学习过程中探索能力不足、样本利用率低及行走模式不稳定等问题,将动态势能融入基于势能的奖励塑造中,提出一种基于动态势能奖励塑造的奖励函数设计方法.该奖励函数在训练过程中通过动态调整机器人当前动作控制获得的奖励... 针对足式机器人学习过程中探索能力不足、样本利用率低及行走模式不稳定等问题,将动态势能融入基于势能的奖励塑造中,提出一种基于动态势能奖励塑造的奖励函数设计方法.该奖励函数在训练过程中通过动态调整机器人当前动作控制获得的奖励值,从而提高学习过程的探索能力.在搭建的足式机器人虚拟训练环境中,使用近端策略优化算法(PPO)结合基于动态势能奖励塑造的奖励计算实现了双足机器人定速行走控制.测试结果表明:所提出的方法能有效提高训练速度,机器人的运动姿态也更加自然与稳定. 展开更多
关键词 深度强化学习 双足机器人行走控制 奖励塑造 动态势能 近端策略优化算法
原文传递
时序记忆深度强化学习自抗扰微网稳压控制
9
作者 周雪松 李锦涛 +3 位作者 马幼捷 陶珑 刘文进 雷上诗 《电机与控制学报》 北大核心 2025年第10期138-147,158,共11页
针对直流微网内部功率不平衡引发的母线电压不确定性波动问题,提出一种考虑时序记忆的深度强化学习自抗扰控制策略(LSTM-PPO-LADRC)。首先,通过分析微网电压控制问题建立储能变换器的数学模型和符合马尔可夫决策过程的深度强化学习模型... 针对直流微网内部功率不平衡引发的母线电压不确定性波动问题,提出一种考虑时序记忆的深度强化学习自抗扰控制策略(LSTM-PPO-LADRC)。首先,通过分析微网电压控制问题建立储能变换器的数学模型和符合马尔可夫决策过程的深度强化学习模型;其次,基于长短期记忆循环神经网络(LSTM)分别设计近端策略优化(PPO)算法的动作网络与价值网络结构,详细梳理改进算法的数据驱动与执行过程,并对算法的收敛性进行理论分析;然后,根据所建立的深度强化学习动作空间模型设计适配LSTM-PPO-LADRC的线性扩张状态观测器(LESO),并将预训练好的智能体接入控制系统,实现LESO动态可调参数的自适应决策调整;最后,在仿真平台进行测试,得到多种工况下不同控制策略的动态响应曲线,验证LSTM-PPO-LADRC的可行性与优越性。 展开更多
关键词 直流微网 储能变换器 自抗扰控制 深度强化学习 近端策略优化算法 长短期记忆网络
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
10
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 近端策略优化 优先级 两阶段
在线阅读 下载PDF
基于强化学习的智能制导方法研究
11
作者 周桃品 宋丹阳 龚铮 《电子技术与软件工程》 2025年第2期12-18,共7页
传统的制导规律存在信息依赖度高、对目标机动样式适应能力不足等问题。针对空空导弹攻击机动目标作战使用场景,基于深度强化学习理论,构建适应于空中机动目标制导的智能学习场景,提出基于深度强化学习的系数时变最优制导律,并采用改进... 传统的制导规律存在信息依赖度高、对目标机动样式适应能力不足等问题。针对空空导弹攻击机动目标作战使用场景,基于深度强化学习理论,构建适应于空中机动目标制导的智能学习场景,提出基于深度强化学习的系数时变最优制导律,并采用改进的PPO算法,完成了制导参数实时调节神经网络的训练及部署,最后通过数学仿真验证了优化策略的正确性。 展开更多
关键词 智能制导 深度强化学习 最优制导律 神经网络 近端策略优化
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题 被引量:1
12
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
原文传递
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:3
13
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 近端策略优化算法 强化学习
在线阅读 下载PDF
基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略 被引量:2
14
作者 卢昱宏 范培潇 +1 位作者 杨军 李蕊 《电力自动化设备》 北大核心 2025年第10期135-143,共9页
随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚... 随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚合电动汽车充电站的微电网负荷频率控制框架;基于闵可夫斯基求和方式,提出两阶段电动汽车充电站的可调控裕度计算方法;通过重要性采样比率剪切、多步经验回放、小批量优化等方式提升算法训练效率,并通过设计状态与动作空间、奖励函数以及选取合适超参数完成频率控制器的构建。仿真结果表明,所设计的控制器在训练时间和控制效果方面显著优于传统频率控制方法,为微电网的稳定运行提供了有力的技术支持。 展开更多
关键词 电动汽车 孤岛微电网 频率控制 近端策略优化算法 闵可夫斯基求和
在线阅读 下载PDF
基于强化学习的舰载机着舰直接升力控制技术 被引量:2
15
作者 柳仁地 江驹 +1 位作者 张哲 刘翔 《北京航空航天大学学报》 北大核心 2025年第6期2165-2175,共11页
针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状... 针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状态变作为输入,以襟翼的舵偏角增量作为输出,实现舰载机在着舰时航迹倾斜角的快速响应。与传统控制器相比,PPO控制器中的Actor-Critic框架大大提高了控制量的计算效率,降低了参数优化的难度。仿真实验基于MATLAB/Simulink中的F/A-18飞机动力学/运动学模型。利用PyCharm平台上构建的深度强化学习训练环境,通过UDP通信实现2个平台之间的数据交互。仿真结果表明:所提方法具有响应速度快、动态误差小的特点,能够将着舰的高度误差稳定在±0.2 m以内,具有较高的控制精度。 展开更多
关键词 舰载机自动着舰 深度强化学习 近端策略优化算法 直接升力控制 UDP通信
原文传递
基于状态空间扩展的深度强化学习混合流水车间调度
16
作者 汤怀钰 王聪 +2 位作者 张宏立 马萍 董颖超 《组合机床与自动化加工技术》 北大核心 2025年第4期195-200,共6页
针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规... 针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规则来优化加工机器的选择。设计了奖励机制为最大加工时间和能耗的负相关,激励系统在调度过程中尽量减少加工时间和总能耗从而更有效地利用资源。通过将PPORL方法应用于不同数据集进行仿真实验,并与现有算法比较,结果表明,所提方法具有更强的稳定性、探索性和泛化能力,显著提高了调度效率和资源利用率,有效地解决了多目标混合流水车间调度问题。 展开更多
关键词 节能减排 混合流水车间调度 深度强化学习 近端策略优化算法
在线阅读 下载PDF
基于可解释强化学习的智能虚拟电厂最优调度 被引量:1
17
作者 袁孝科 沈石兰 +2 位作者 张茂松 石晨旭 杨凌霄 《综合智慧能源》 2025年第1期1-9,共9页
随着电动汽车的不断普及,能源系统日益复杂。虚拟电厂(VPP)可以通过物联网和人工智能技术,将分布式电源、储能系统、可控负荷以及EV等分布式能源进行聚合和协调优化,有助于提升能源的使用效率,并促进非可再生能源的消纳,增强电网稳定性... 随着电动汽车的不断普及,能源系统日益复杂。虚拟电厂(VPP)可以通过物联网和人工智能技术,将分布式电源、储能系统、可控负荷以及EV等分布式能源进行聚合和协调优化,有助于提升能源的使用效率,并促进非可再生能源的消纳,增强电网稳定性。现阶段人工智能技术在电力系统等安全要求较高的应用领域缺乏可靠性和透明度,可能导致用户和运营商难以理解算法如何做出特定的能源调配决策。针对人工智能技术下的VPP实现最优调度并兼顾解释其决策过程的平衡问题,提出一种可解释强化学习的交互式框架,使用近端策略优化算法实现VPP的最优调度,并使用决策树建立一种可解释性强化学习框架,用于提供透明的决策支持,使非专业用户能够理解人工智能在调节能源系统方面的决策过程。试验表明,与传统强化学习优化方法相比,该方法不仅提高了能源分配的效率,而且通过增强模型的可解释性,加强了用户对智能VPP管理系统的信任。 展开更多
关键词 虚拟电厂 电动汽车 近端策略优化算法 强化学习 决策树 可解释性框架 分布式电源 人工智能
在线阅读 下载PDF
基于深度强化学习的固定翼无人机编队控制算法
18
作者 化晨昊 谭泰 +2 位作者 江泰民 李辉 张建伟 《战术导弹技术》 北大核心 2025年第3期83-94,共12页
在民用和军用领域,无人机(Unmanned Aerial Vehicle,UAV)编队的应用日益广泛;然而,对于复杂度较高的六自由度固定翼无人机模型,现有的编队控制研究相对有限。针对上述挑战,提出了分层近端策略优化算法(Hierarchical Guidance and Contro... 在民用和军用领域,无人机(Unmanned Aerial Vehicle,UAV)编队的应用日益广泛;然而,对于复杂度较高的六自由度固定翼无人机模型,现有的编队控制研究相对有限。针对上述挑战,提出了分层近端策略优化算法(Hierarchical Guidance and Control Proximal Policy Optimization,HGC-PPO)。HGC-PPO基于分层架构,将编队控制分为制导层和控制层。HGC-PPO的无人机控制层采用了一种基于强化学习的多输入多输出架构,在编队制导层,基于课程学习策略以构建奖励函数,平滑了学习过程中的难度曲线。这种方法确保了训练的有效收敛,同时提高了样本利用率和训练效率。实验结果表明,HGC-PPO算法能够在保持高效的同时,实现稳定且精确的固定翼无人机编队控制。综上所述,HGC-PPO算法为六自由度固定翼无人机编队控制提供了一种有效的解决方案。 展开更多
关键词 分层强化学习 深度强化学习 奖励塑造 近端策略优化算法 课程学习 六自由度固定翼无人机 编队飞行
原文传递
基于不确定性感知探索的近端策略优化算法的无人机辅助移动边缘计算与缓存优化
19
作者 谢键 于思源 张旭秀 《信息与控制》 北大核心 2025年第2期288-298,共11页
针对传统边缘计算和缓存技术在处理计算密集型和延迟敏感型任务时的不足,提出了一种以无人机(UAV)为核心的主动边缘计算与缓存优化方案。利用UAV主动感知车辆需求,结合二分类数学模型和Hawkes模型,提高对道路车辆需求预测的准确率。将... 针对传统边缘计算和缓存技术在处理计算密集型和延迟敏感型任务时的不足,提出了一种以无人机(UAV)为核心的主动边缘计算与缓存优化方案。利用UAV主动感知车辆需求,结合二分类数学模型和Hawkes模型,提高对道路车辆需求预测的准确率。将上述问题用马尔可夫决策过程描述,通过对PPO(Pronimal Policy Optimization)算法进行改进,提出了不确定性感知探索的近端策略优化(UAE-PPO)算法,对边缘缓存与卸载进行优化。UAE-PPO算法在Actor网络中集成了不确定性感知探索和动态调整探索策略的方法,结合了自适应衰减clip参数和L2正则化技术,显著提升了模型的稳定性和泛化能力。仿真实验表明,对比传统PPO算法,所提算法奖励收敛速度提高了28.6%,奖励值提高了6.3%。 展开更多
关键词 移动边缘计算 任务卸载 近端策略优化算法 缓存优化
原文传递
基于PPO的自适应杂交遗传算法求解旅行商问题
20
作者 黄傲 李敏 +3 位作者 曾祥光 潘云伟 张加衡 彭倍 《计算机科学》 北大核心 2025年第S1期212-217,共6页
旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算... 旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算法(Adaptive Hybrid Genetic Algorithm,AHGA),采用深度强化学习对遗传算法的关键参数进行自适应调整。首先,构建了以遗传算法为环境的自适应参数调节模型,采用近端策略优化(Proximal Policy Optimization,PPO)算法来生成控制种群进化的动作策略。其次,在传统遗传算法交叉、变异的基础上增加杂交算子,以提高迭代后期种群的多样性。最后,在不同的TSPLIB公共实例中验证算法的效果和性能。结果表明,该算法明显提高了遗传算法的求解质量和收敛速度,有效避免了遗传算法的局部收敛问题,在解决旅行商问题时优于同类算法。 展开更多
关键词 旅行商问题 遗传算法 近端策略优化 杂交算子 参数自适应
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部