期刊文献+
共找到68篇文章
< 1 2 4 >
每页显示 20 50 100
Multi-agent reinforcement learning for edge information sharing in vehicular networks 被引量:3
1
作者 Ruyan Wang Xue Jiang +5 位作者 Yujie Zhou Zhidu Li Dapeng Wu Tong Tang Alexander Fedotov Vladimir Badenko 《Digital Communications and Networks》 SCIE CSCD 2022年第3期267-277,共11页
To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This pape... To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This paper investigates the reduction of the delay in edge information sharing for V2V links while satisfying the delay requirements of the V2I links.Specifically,a mean delay minimization problem and a maximum individual delay minimization problem are formulated to improve the global network performance and ensure the fairness of a single user,respectively.A multi-agent reinforcement learning framework is designed to solve these two problems,where a new reward function is proposed to evaluate the utilities of the two optimization objectives in a unified framework.Thereafter,a proximal policy optimization approach is proposed to enable each V2V user to learn its policy using the shared global network reward.The effectiveness of the proposed approach is finally validated by comparing the obtained results with those of the other baseline approaches through extensive simulation experiments. 展开更多
关键词 Vehicular networks Edge information sharing Delay guarantee multi-agent reinforcement learning proximal policy optimization
在线阅读 下载PDF
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning 被引量:2
2
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding proximal policy optimization
在线阅读 下载PDF
基于双重决策机制的深度符号回归算法
3
作者 郭泽一 李凤莲 徐利春 《计算机应用》 北大核心 2026年第2期406-415,共10页
深度符号回归(DSR)算法由循环神经网络(RNN)自动化生成表达式树,进而获得较高的模型性能,然而,它无法兼顾表达式树的准确性和结构的简洁性。因此,提出一种基于双重决策机制的深度符号回归(DDSR)算法。首先,在RNN初步决策的基础上,利用... 深度符号回归(DSR)算法由循环神经网络(RNN)自动化生成表达式树,进而获得较高的模型性能,然而,它无法兼顾表达式树的准确性和结构的简洁性。因此,提出一种基于双重决策机制的深度符号回归(DDSR)算法。首先,在RNN初步决策的基础上,利用双评分机制综合评估表达式树的结构简洁性和准确性。其次,采用强化学习对表达式树生成进行训练,将表达式树生成视为序列决策过程,并利用风险近端策略优化(RPPO)算法进行奖励反馈以更新下一批次的模型参数。在公共数据集上的实验结果表明,相较于DSR算法,DDSR算法在拟合度相关系数上最多提高了0.396,最少提高了0.001,而整体性能提升了0.116。以上证明了DDSR算法的有效性。 展开更多
关键词 符号回归 深度学习 评分机制 近端策略优化算法 风险寻优策略梯度
在线阅读 下载PDF
基于ACVAE-MPPO算法的端到端自动驾驶算法研究
4
作者 于康鸿 张军 刘元盛 《计算机工程与应用》 北大核心 2026年第4期210-223,共14页
由于道路类型多样、交互实体众多以及环境复杂,在城市环境中实现高效的自动驾驶是当今自动驾驶技术研究的重点和挑战之一。端到端强化学习在自动驾驶应用中,面临表征模型提取特征能力不足和决策模型学习特征间历史联系困难的问题,这些... 由于道路类型多样、交互实体众多以及环境复杂,在城市环境中实现高效的自动驾驶是当今自动驾驶技术研究的重点和挑战之一。端到端强化学习在自动驾驶应用中,面临表征模型提取特征能力不足和决策模型学习特征间历史联系困难的问题,这些限制影响了算法在复杂城市环境中的决策性能。针对上述问题,提出ACVAE-MPPO算法。为了解决特征提取精度低的问题,在变分自编码器(variational auto-encoder,VAE)中加入坐标卷积层,使用判别器进行辅助训练,形成辅助训练坐标卷积变分自编码器(auxiliary training coordinate convolutional variational auto-encoder,ACVAE),最终提升特征提取的精度;为了增强决策模型提取历史特征的能力,在近端策略优化算法(proximal policy optimization,PPO)中引入长短期记忆网络,形成记忆近端策略优化算法(memory proximal policy optimization,MPPO),使PPO能够记忆和有效利用时序信息,提升决策准确性。将两个模型结合形成ACVAE-MPPO算法。Carla仿真器的实验结果表明,ACVAE-MPPO算法能展现出更强的决策能力,实现更稳定且成功率更高的驾驶决策。 展开更多
关键词 变分自编码器 近端策略优化算法 深度强化学习 自动驾驶
在线阅读 下载PDF
计及碳排放的电动汽车充电站优化定价策略
5
作者 尹力 盛俊杰 +1 位作者 袁杰 冯燕钧 《电气传动》 2026年第2期50-57,共8页
在碳中和背景下,提出了一种计及碳排放的电动汽车充电站优化定价策略。首先,构建电动汽车用户价格响应特性模型;其次,建立以碳排放最低、负荷峰谷差最小以及充电站收益最高为目标的定价优化模型并将其转化为马尔科夫决策过程;然后,提出... 在碳中和背景下,提出了一种计及碳排放的电动汽车充电站优化定价策略。首先,构建电动汽车用户价格响应特性模型;其次,建立以碳排放最低、负荷峰谷差最小以及充电站收益最高为目标的定价优化模型并将其转化为马尔科夫决策过程;然后,提出一种基于时间差分误差的改进近端策略优化算法,以提高算法的效率与稳定性;最后,通过算例分析表明,所提定价策略能够降低配电网负荷峰谷差,提高充电站经济效益与低碳水平。 展开更多
关键词 充电站 碳排放 定价策略 深度强化学习 改进近端策略优化算法
在线阅读 下载PDF
基于MAPPO的无信号灯交叉口自动驾驶决策 被引量:1
6
作者 许曼晨 于镝 +1 位作者 赵理 郭陈栋 《吉林大学学报(信息科学版)》 CAS 2024年第5期790-798,共9页
针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且... 针对自动驾驶在通过无信号灯交叉口由于车流密集且车辆行为随机不确定的问题,提出一种基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的无信号灯交叉口自动驾驶决策方案。通过MetaDrive仿真环平台搭建多智能体仿真环境,并且设计了综合考虑交通规则、安全到达或发生碰撞等安全性以及交叉口车辆最大、最小速度等车流效率的奖励函数,旨在实现安全高效的自动驾驶决策。仿真实验表明,所提出的自动驾驶决策方案在训练中相较于其他算法具有更出色的稳定性和收敛性,在不同车流密度下均呈现出更高的成功率和安全性。该自动驾驶决策方案在解决无信号灯交叉口环境方面具有显著潜力,并且为复杂路况自动驾驶决策的研究起到促进作用。 展开更多
关键词 自动驾驶 智能决策 无信号灯交叉口 mappo算法
在线阅读 下载PDF
基于改进近端策略优化算法的柔性作业车间调度 被引量:3
7
作者 王艳红 付威通 +2 位作者 张俊 谭园园 田中大 《控制与决策》 北大核心 2025年第6期1883-1891,共9页
柔性作业车间调度是经典且复杂的组合优化问题,对于离散制造系统的生产优化具有重要的理论和实际意义.基于多指针图网络框架和近端策略优化算法设计一种求解柔性作业车间调度问题的深度强化学习算法.首先,将“工序-机器”分配调度过程... 柔性作业车间调度是经典且复杂的组合优化问题,对于离散制造系统的生产优化具有重要的理论和实际意义.基于多指针图网络框架和近端策略优化算法设计一种求解柔性作业车间调度问题的深度强化学习算法.首先,将“工序-机器”分配调度过程表征成由选择工序和分配机器两类动作构成的马尔可夫决策过程;其次,通过解耦策略解除动作之间的耦合关系,并设计新的损失函数和贪婪采样策略以提高算法的验证推理能力;在此基础上扩充状态空间,使评估网络能够更全面地感知与评估,从而进一步提升算法的学习和决策能力.在随机生成算例及基准算例上进行仿真和对比分析,验证算法的良好性能及泛化能力. 展开更多
关键词 柔性作业车间调度 近端策略优化算法 双动作耦合网络 损失函数优化 贪婪采样 深度强化学习
原文传递
干扰攻击下基于MAPPO的电视频谱资源分配研究
8
作者 赵越 杨亮 刘明轩 《电视技术》 2024年第3期199-205,共7页
将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网... 将认知无线电(Cognitive Radio,CR)与能量采集(Energy Harvesting,EH)进行组合是一种提高电视系统频谱性能的有效方案,但由于CR的开放性,电视网络容易遭受干扰攻击。基于此,研究了干扰攻击下EH-CR网络的联合信道和功率分配问题,考虑网络中存在随机和反应扫描两种干扰攻击,通过信道接入和功率分配,使次用户(Secondary Users,SUs)平均吞吐量最大化。将EH-CR网络建模为部分可观测的马尔可夫决策过程,提出了一个基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的联合信道和功率分配方法。仿真结果表明,提出的方法能够显著提高干扰攻击下SUs的平均吞吐量。 展开更多
关键词 认知无线电(CR) 干扰攻击 多智能体近端策略优化(mappo) 资源分配
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
9
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于多智能体强化学习的交叉道路车辆协同控制 被引量:1
10
作者 申元霞 谢悦 +2 位作者 张学锋 汤亚玲 储岳中 《西华大学学报(自然科学版)》 2025年第4期40-48,共9页
为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;... 为提升自动驾驶车辆在城市交叉道路的快速反应和安全通行能力,提出一种基于MAPPO-RCNN算法的多智能体强化学习车辆协同控制策略。利用车辆传感器采集的未加工原始RGB图像作为输入,使用MAPPO算法实现车辆间的协同控制,直接输出车辆动作;考虑车辆间相互位置对通行任务的影响,优化车辆通行时间和安全性,同时设计策略生成算法和优化目标函数;为防止策略陷入局部最优,使用纳什均衡判断策略收敛。在CARLA仿真平台上的实验仿真结果表明,该车辆协同控制策略能在一定程度上提高交叉路口自动驾驶车辆的通行效果,并保证控制系统的稳定性。 展开更多
关键词 车辆协同控制 mappo-RCNN算法 端到端 多智能体系统 策略生成算法 交通流优化 CARLA仿真
在线阅读 下载PDF
基于动态势能奖励的双足机器人行走控制 被引量:2
11
作者 王泉德 王君豪 刘子航 《华中科技大学学报(自然科学版)》 北大核心 2025年第5期9-17,共9页
针对足式机器人学习过程中探索能力不足、样本利用率低及行走模式不稳定等问题,将动态势能融入基于势能的奖励塑造中,提出一种基于动态势能奖励塑造的奖励函数设计方法.该奖励函数在训练过程中通过动态调整机器人当前动作控制获得的奖励... 针对足式机器人学习过程中探索能力不足、样本利用率低及行走模式不稳定等问题,将动态势能融入基于势能的奖励塑造中,提出一种基于动态势能奖励塑造的奖励函数设计方法.该奖励函数在训练过程中通过动态调整机器人当前动作控制获得的奖励值,从而提高学习过程的探索能力.在搭建的足式机器人虚拟训练环境中,使用近端策略优化算法(PPO)结合基于动态势能奖励塑造的奖励计算实现了双足机器人定速行走控制.测试结果表明:所提出的方法能有效提高训练速度,机器人的运动姿态也更加自然与稳定. 展开更多
关键词 深度强化学习 双足机器人行走控制 奖励塑造 动态势能 近端策略优化算法
原文传递
时序记忆深度强化学习自抗扰微网稳压控制
12
作者 周雪松 李锦涛 +3 位作者 马幼捷 陶珑 刘文进 雷上诗 《电机与控制学报》 北大核心 2025年第10期138-147,158,共11页
针对直流微网内部功率不平衡引发的母线电压不确定性波动问题,提出一种考虑时序记忆的深度强化学习自抗扰控制策略(LSTM-PPO-LADRC)。首先,通过分析微网电压控制问题建立储能变换器的数学模型和符合马尔可夫决策过程的深度强化学习模型... 针对直流微网内部功率不平衡引发的母线电压不确定性波动问题,提出一种考虑时序记忆的深度强化学习自抗扰控制策略(LSTM-PPO-LADRC)。首先,通过分析微网电压控制问题建立储能变换器的数学模型和符合马尔可夫决策过程的深度强化学习模型;其次,基于长短期记忆循环神经网络(LSTM)分别设计近端策略优化(PPO)算法的动作网络与价值网络结构,详细梳理改进算法的数据驱动与执行过程,并对算法的收敛性进行理论分析;然后,根据所建立的深度强化学习动作空间模型设计适配LSTM-PPO-LADRC的线性扩张状态观测器(LESO),并将预训练好的智能体接入控制系统,实现LESO动态可调参数的自适应决策调整;最后,在仿真平台进行测试,得到多种工况下不同控制策略的动态响应曲线,验证LSTM-PPO-LADRC的可行性与优越性。 展开更多
关键词 直流微网 储能变换器 自抗扰控制 深度强化学习 近端策略优化算法 长短期记忆网络
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
13
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 近端策略优化 优先级 两阶段
在线阅读 下载PDF
基于强化学习的智能制导方法研究
14
作者 周桃品 宋丹阳 龚铮 《电子技术与软件工程》 2025年第2期12-18,共7页
传统的制导规律存在信息依赖度高、对目标机动样式适应能力不足等问题。针对空空导弹攻击机动目标作战使用场景,基于深度强化学习理论,构建适应于空中机动目标制导的智能学习场景,提出基于深度强化学习的系数时变最优制导律,并采用改进... 传统的制导规律存在信息依赖度高、对目标机动样式适应能力不足等问题。针对空空导弹攻击机动目标作战使用场景,基于深度强化学习理论,构建适应于空中机动目标制导的智能学习场景,提出基于深度强化学习的系数时变最优制导律,并采用改进的PPO算法,完成了制导参数实时调节神经网络的训练及部署,最后通过数学仿真验证了优化策略的正确性。 展开更多
关键词 智能制导 深度强化学习 最优制导律 神经网络 近端策略优化
在线阅读 下载PDF
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:4
15
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 近端策略优化算法 强化学习
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题 被引量:1
16
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
原文传递
基于强化学习的舰载机着舰直接升力控制技术 被引量:3
17
作者 柳仁地 江驹 +1 位作者 张哲 刘翔 《北京航空航天大学学报》 北大核心 2025年第6期2165-2175,共11页
针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状... 针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状态变作为输入,以襟翼的舵偏角增量作为输出,实现舰载机在着舰时航迹倾斜角的快速响应。与传统控制器相比,PPO控制器中的Actor-Critic框架大大提高了控制量的计算效率,降低了参数优化的难度。仿真实验基于MATLAB/Simulink中的F/A-18飞机动力学/运动学模型。利用PyCharm平台上构建的深度强化学习训练环境,通过UDP通信实现2个平台之间的数据交互。仿真结果表明:所提方法具有响应速度快、动态误差小的特点,能够将着舰的高度误差稳定在±0.2 m以内,具有较高的控制精度。 展开更多
关键词 舰载机自动着舰 深度强化学习 近端策略优化算法 直接升力控制 UDP通信
原文传递
基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略 被引量:2
18
作者 卢昱宏 范培潇 +1 位作者 杨军 李蕊 《电力自动化设备》 北大核心 2025年第10期135-143,共9页
随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚... 随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚合电动汽车充电站的微电网负荷频率控制框架;基于闵可夫斯基求和方式,提出两阶段电动汽车充电站的可调控裕度计算方法;通过重要性采样比率剪切、多步经验回放、小批量优化等方式提升算法训练效率,并通过设计状态与动作空间、奖励函数以及选取合适超参数完成频率控制器的构建。仿真结果表明,所设计的控制器在训练时间和控制效果方面显著优于传统频率控制方法,为微电网的稳定运行提供了有力的技术支持。 展开更多
关键词 电动汽车 孤岛微电网 频率控制 近端策略优化算法 闵可夫斯基求和
在线阅读 下载PDF
基于状态空间扩展的深度强化学习混合流水车间调度
19
作者 汤怀钰 王聪 +2 位作者 张宏立 马萍 董颖超 《组合机床与自动化加工技术》 北大核心 2025年第4期195-200,共6页
针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规... 针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规则来优化加工机器的选择。设计了奖励机制为最大加工时间和能耗的负相关,激励系统在调度过程中尽量减少加工时间和总能耗从而更有效地利用资源。通过将PPORL方法应用于不同数据集进行仿真实验,并与现有算法比较,结果表明,所提方法具有更强的稳定性、探索性和泛化能力,显著提高了调度效率和资源利用率,有效地解决了多目标混合流水车间调度问题。 展开更多
关键词 节能减排 混合流水车间调度 深度强化学习 近端策略优化算法
在线阅读 下载PDF
基于深度强化学习的无人机空战机动决策方法
20
作者 张祥瑞 谭泰 +2 位作者 李辉 张建伟 黎博文 《计算机工程》 北大核心 2025年第12期324-336,共13页
无人机(UAV)近距空战环境复杂,敌机机动高速变化,针对该环境下六自由度无人机空战自主机动决策困难的问题,提出一种分层框架下基于双重奖励的近端策略优化(DR-PPO)无人机自主引导算法。传统深度强化学习方法在解决六自由度无人机空战任... 无人机(UAV)近距空战环境复杂,敌机机动高速变化,针对该环境下六自由度无人机空战自主机动决策困难的问题,提出一种分层框架下基于双重奖励的近端策略优化(DR-PPO)无人机自主引导算法。传统深度强化学习方法在解决六自由度无人机空战任务时,因动作空间维度高、探索空间大,导致算法收敛速度慢甚至难以学习到决策的问题,设计无人机空战机动决策分层框架,将空战任务分为决策与控制两个子问题,DR-PPO算法作为决策层生成高层决策,通过双重奖励引导无人机更好地理解正确的空战行为,解决空战任务中奖励稀疏难以收敛的问题;比例积分微分(PID)算法作为控制层,生成无人机基本控制律,将高层决策转换并输出原始控制指令,使DR-PPO算法更专注于无人机机动决策层面,缩短飞行控制的探索时间,加快算法的收敛速度。仿真结果表明,在典型的空战实验场景中,分层框架下的DR-PPO算法能够缩短探索时间,避免陷入局部最优,有效引导无人机在不同态势下自主学习机动决策并快速到达优势位置,完成空战任务,其收敛效果与机动决策表现均显著优于传统深度强化学习方法下的DR-PPO算法及PPO算法,有效提高了无人机作战能力,并通过复杂多场景测试验证该算法具有良好的泛化性。 展开更多
关键词 无人机 近端策略优化算法 六自由度 双重奖励 分层框架
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部