期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
Multi-agent reinforcement learning for edge information sharing in vehicular networks 被引量:3
1
作者 Ruyan Wang Xue Jiang +5 位作者 Yujie Zhou Zhidu Li Dapeng Wu Tong Tang Alexander Fedotov Vladimir Badenko 《Digital Communications and Networks》 SCIE CSCD 2022年第3期267-277,共11页
To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This pape... To guarantee the heterogeneous delay requirements of the diverse vehicular services,it is necessary to design a full cooperative policy for both Vehicle to Infrastructure(V2I)and Vehicle to Vehicle(V2V)links.This paper investigates the reduction of the delay in edge information sharing for V2V links while satisfying the delay requirements of the V2I links.Specifically,a mean delay minimization problem and a maximum individual delay minimization problem are formulated to improve the global network performance and ensure the fairness of a single user,respectively.A multi-agent reinforcement learning framework is designed to solve these two problems,where a new reward function is proposed to evaluate the utilities of the two optimization objectives in a unified framework.Thereafter,a proximal policy optimization approach is proposed to enable each V2V user to learn its policy using the shared global network reward.The effectiveness of the proposed approach is finally validated by comparing the obtained results with those of the other baseline approaches through extensive simulation experiments. 展开更多
关键词 Vehicular networks Edge information sharing Delay guarantee multi-agent reinforcement learning proximal policy optimization
在线阅读 下载PDF
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning 被引量:2
2
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding proximal policy optimization
在线阅读 下载PDF
基于改进近端策略优化算法的柔性作业车间调度 被引量:2
3
作者 王艳红 付威通 +2 位作者 张俊 谭园园 田中大 《控制与决策》 北大核心 2025年第6期1883-1891,共9页
柔性作业车间调度是经典且复杂的组合优化问题,对于离散制造系统的生产优化具有重要的理论和实际意义.基于多指针图网络框架和近端策略优化算法设计一种求解柔性作业车间调度问题的深度强化学习算法.首先,将“工序-机器”分配调度过程... 柔性作业车间调度是经典且复杂的组合优化问题,对于离散制造系统的生产优化具有重要的理论和实际意义.基于多指针图网络框架和近端策略优化算法设计一种求解柔性作业车间调度问题的深度强化学习算法.首先,将“工序-机器”分配调度过程表征成由选择工序和分配机器两类动作构成的马尔可夫决策过程;其次,通过解耦策略解除动作之间的耦合关系,并设计新的损失函数和贪婪采样策略以提高算法的验证推理能力;在此基础上扩充状态空间,使评估网络能够更全面地感知与评估,从而进一步提升算法的学习和决策能力.在随机生成算例及基准算例上进行仿真和对比分析,验证算法的良好性能及泛化能力. 展开更多
关键词 柔性作业车间调度 近端策略优化算法 双动作耦合网络 损失函数优化 贪婪采样 深度强化学习
原文传递
基于深度强化学习的游戏智能引导算法 被引量:2
4
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
5
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 近端策略优化 优先级 两阶段
在线阅读 下载PDF
基于动态势能奖励的双足机器人行走控制
6
作者 王泉德 王君豪 刘子航 《华中科技大学学报(自然科学版)》 北大核心 2025年第5期9-17,共9页
针对足式机器人学习过程中探索能力不足、样本利用率低及行走模式不稳定等问题,将动态势能融入基于势能的奖励塑造中,提出一种基于动态势能奖励塑造的奖励函数设计方法.该奖励函数在训练过程中通过动态调整机器人当前动作控制获得的奖励... 针对足式机器人学习过程中探索能力不足、样本利用率低及行走模式不稳定等问题,将动态势能融入基于势能的奖励塑造中,提出一种基于动态势能奖励塑造的奖励函数设计方法.该奖励函数在训练过程中通过动态调整机器人当前动作控制获得的奖励值,从而提高学习过程的探索能力.在搭建的足式机器人虚拟训练环境中,使用近端策略优化算法(PPO)结合基于动态势能奖励塑造的奖励计算实现了双足机器人定速行走控制.测试结果表明:所提出的方法能有效提高训练速度,机器人的运动姿态也更加自然与稳定. 展开更多
关键词 深度强化学习 双足机器人行走控制 奖励塑造 动态势能 近端策略优化算法
原文传递
基于强化学习的智能制导方法研究
7
作者 周桃品 宋丹阳 龚铮 《电子技术与软件工程》 2025年第2期12-18,共7页
传统的制导规律存在信息依赖度高、对目标机动样式适应能力不足等问题。针对空空导弹攻击机动目标作战使用场景,基于深度强化学习理论,构建适应于空中机动目标制导的智能学习场景,提出基于深度强化学习的系数时变最优制导律,并采用改进... 传统的制导规律存在信息依赖度高、对目标机动样式适应能力不足等问题。针对空空导弹攻击机动目标作战使用场景,基于深度强化学习理论,构建适应于空中机动目标制导的智能学习场景,提出基于深度强化学习的系数时变最优制导律,并采用改进的PPO算法,完成了制导参数实时调节神经网络的训练及部署,最后通过数学仿真验证了优化策略的正确性。 展开更多
关键词 智能制导 深度强化学习 最优制导律 神经网络 近端策略优化
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题 被引量:1
8
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
原文传递
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:2
9
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 近端策略优化算法 强化学习
在线阅读 下载PDF
基于强化学习的舰载机着舰直接升力控制技术 被引量:2
10
作者 柳仁地 江驹 +1 位作者 张哲 刘翔 《北京航空航天大学学报》 北大核心 2025年第6期2165-2175,共11页
针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状... 针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状态变作为输入,以襟翼的舵偏角增量作为输出,实现舰载机在着舰时航迹倾斜角的快速响应。与传统控制器相比,PPO控制器中的Actor-Critic框架大大提高了控制量的计算效率,降低了参数优化的难度。仿真实验基于MATLAB/Simulink中的F/A-18飞机动力学/运动学模型。利用PyCharm平台上构建的深度强化学习训练环境,通过UDP通信实现2个平台之间的数据交互。仿真结果表明:所提方法具有响应速度快、动态误差小的特点,能够将着舰的高度误差稳定在±0.2 m以内,具有较高的控制精度。 展开更多
关键词 舰载机自动着舰 深度强化学习 近端策略优化算法 直接升力控制 UDP通信
原文传递
基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略 被引量:1
11
作者 卢昱宏 范培潇 +1 位作者 杨军 李蕊 《电力自动化设备》 北大核心 2025年第10期135-143,共9页
随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚... 随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚合电动汽车充电站的微电网负荷频率控制框架;基于闵可夫斯基求和方式,提出两阶段电动汽车充电站的可调控裕度计算方法;通过重要性采样比率剪切、多步经验回放、小批量优化等方式提升算法训练效率,并通过设计状态与动作空间、奖励函数以及选取合适超参数完成频率控制器的构建。仿真结果表明,所设计的控制器在训练时间和控制效果方面显著优于传统频率控制方法,为微电网的稳定运行提供了有力的技术支持。 展开更多
关键词 电动汽车 孤岛微电网 频率控制 近端策略优化算法 闵可夫斯基求和
在线阅读 下载PDF
基于状态空间扩展的深度强化学习混合流水车间调度
12
作者 汤怀钰 王聪 +2 位作者 张宏立 马萍 董颖超 《组合机床与自动化加工技术》 北大核心 2025年第4期195-200,共6页
针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规... 针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规则来优化加工机器的选择。设计了奖励机制为最大加工时间和能耗的负相关,激励系统在调度过程中尽量减少加工时间和总能耗从而更有效地利用资源。通过将PPORL方法应用于不同数据集进行仿真实验,并与现有算法比较,结果表明,所提方法具有更强的稳定性、探索性和泛化能力,显著提高了调度效率和资源利用率,有效地解决了多目标混合流水车间调度问题。 展开更多
关键词 节能减排 混合流水车间调度 深度强化学习 近端策略优化算法
在线阅读 下载PDF
基于深度强化学习的固定翼无人机编队控制算法
13
作者 化晨昊 谭泰 +2 位作者 江泰民 李辉 张建伟 《战术导弹技术》 北大核心 2025年第3期83-94,共12页
在民用和军用领域,无人机(Unmanned Aerial Vehicle,UAV)编队的应用日益广泛;然而,对于复杂度较高的六自由度固定翼无人机模型,现有的编队控制研究相对有限。针对上述挑战,提出了分层近端策略优化算法(Hierarchical Guidance and Contro... 在民用和军用领域,无人机(Unmanned Aerial Vehicle,UAV)编队的应用日益广泛;然而,对于复杂度较高的六自由度固定翼无人机模型,现有的编队控制研究相对有限。针对上述挑战,提出了分层近端策略优化算法(Hierarchical Guidance and Control Proximal Policy Optimization,HGC-PPO)。HGC-PPO基于分层架构,将编队控制分为制导层和控制层。HGC-PPO的无人机控制层采用了一种基于强化学习的多输入多输出架构,在编队制导层,基于课程学习策略以构建奖励函数,平滑了学习过程中的难度曲线。这种方法确保了训练的有效收敛,同时提高了样本利用率和训练效率。实验结果表明,HGC-PPO算法能够在保持高效的同时,实现稳定且精确的固定翼无人机编队控制。综上所述,HGC-PPO算法为六自由度固定翼无人机编队控制提供了一种有效的解决方案。 展开更多
关键词 分层强化学习 深度强化学习 奖励塑造 近端策略优化算法 课程学习 六自由度固定翼无人机 编队飞行
原文传递
基于不确定性感知探索的近端策略优化算法的无人机辅助移动边缘计算与缓存优化
14
作者 谢键 于思源 张旭秀 《信息与控制》 北大核心 2025年第2期288-298,共11页
针对传统边缘计算和缓存技术在处理计算密集型和延迟敏感型任务时的不足,提出了一种以无人机(UAV)为核心的主动边缘计算与缓存优化方案。利用UAV主动感知车辆需求,结合二分类数学模型和Hawkes模型,提高对道路车辆需求预测的准确率。将... 针对传统边缘计算和缓存技术在处理计算密集型和延迟敏感型任务时的不足,提出了一种以无人机(UAV)为核心的主动边缘计算与缓存优化方案。利用UAV主动感知车辆需求,结合二分类数学模型和Hawkes模型,提高对道路车辆需求预测的准确率。将上述问题用马尔可夫决策过程描述,通过对PPO(Pronimal Policy Optimization)算法进行改进,提出了不确定性感知探索的近端策略优化(UAE-PPO)算法,对边缘缓存与卸载进行优化。UAE-PPO算法在Actor网络中集成了不确定性感知探索和动态调整探索策略的方法,结合了自适应衰减clip参数和L2正则化技术,显著提升了模型的稳定性和泛化能力。仿真实验表明,对比传统PPO算法,所提算法奖励收敛速度提高了28.6%,奖励值提高了6.3%。 展开更多
关键词 移动边缘计算 任务卸载 近端策略优化算法 缓存优化
原文传递
基于PPO的自适应杂交遗传算法求解旅行商问题
15
作者 黄傲 李敏 +3 位作者 曾祥光 潘云伟 张加衡 彭倍 《计算机科学》 北大核心 2025年第S1期212-217,共6页
旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算... 旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算法(Adaptive Hybrid Genetic Algorithm,AHGA),采用深度强化学习对遗传算法的关键参数进行自适应调整。首先,构建了以遗传算法为环境的自适应参数调节模型,采用近端策略优化(Proximal Policy Optimization,PPO)算法来生成控制种群进化的动作策略。其次,在传统遗传算法交叉、变异的基础上增加杂交算子,以提高迭代后期种群的多样性。最后,在不同的TSPLIB公共实例中验证算法的效果和性能。结果表明,该算法明显提高了遗传算法的求解质量和收敛速度,有效避免了遗传算法的局部收敛问题,在解决旅行商问题时优于同类算法。 展开更多
关键词 旅行商问题 遗传算法 近端策略优化 杂交算子 参数自适应
在线阅读 下载PDF
近端策略优化算法在任务规划中的应用
16
作者 马靖 高军强 +3 位作者 江光德 薛新华 许冬 黄祥 《网络安全与数据治理》 2025年第S1期446-449,共4页
近端策略优化算法本质是一种强化学习算法,被认为是强化学习目前适用性最广的算法之一。对任务规划及任务规划系统进行了理解和认识,分析了未来战场博弈对抗性带来的难题,探索研究了应用近端策略优化算法解决博弈对抗问题的可行性。结... 近端策略优化算法本质是一种强化学习算法,被认为是强化学习目前适用性最广的算法之一。对任务规划及任务规划系统进行了理解和认识,分析了未来战场博弈对抗性带来的难题,探索研究了应用近端策略优化算法解决博弈对抗问题的可行性。结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法。为满足实际响应高实时特点,提出利用深度迁移学习提升模型泛化能力。解决任务规划系统在战场不确定性条件下的智能决策问题,核心是要构建对抗策略建模与学习方法。 展开更多
关键词 近端策略优化 博弈对抗 任务规划 算法
在线阅读 下载PDF
基于强化学习算法的四足爬行机器人运动控制 被引量:1
17
作者 曾一帆 姬宇 +1 位作者 吴晅 孙涛 《智能物联技术》 2025年第1期133-139,共7页
强化学习算法在四足爬行机器人运动控制中的应用较少,机器人关节构型对训练控制策略的影响尚未可知。对此,提出基于强化学习算法的四足爬行机器人运动控制方法,研究不同关节初始角度对运动控制策略收敛特性的影响。实验结果表明:机器人... 强化学习算法在四足爬行机器人运动控制中的应用较少,机器人关节构型对训练控制策略的影响尚未可知。对此,提出基于强化学习算法的四足爬行机器人运动控制方法,研究不同关节初始角度对运动控制策略收敛特性的影响。实验结果表明:机器人关节初始角度接近其极限值时,运动控制策略的收敛速度慢,收敛效果较差。以适当的关节初始角度训练的最优控制策略,可实现四足爬行机器人在草地、石子地和硬质地面上的自适应运动。 展开更多
关键词 近端策略优化算法 四足爬行机器人 运动控制
在线阅读 下载PDF
基于近端策略优化算法的带批处理机的混合流水车间在线调度方法
18
作者 柳再为 王明伟 +2 位作者 袁媛 刘齐浩 李新宇 《工业工程》 2025年第2期78-90,共13页
批处理机实现了连续的重叠操作,这对缩短生产周期、减少不必要的等待时间、提高生产能力具有重要意义。然而面对车间动态事件时,批处理机的工件类型加工选择会导致各工件完成时间产生不可避免的变化。因此,根据实时车间生产加工特征,自... 批处理机实现了连续的重叠操作,这对缩短生产周期、减少不必要的等待时间、提高生产能力具有重要意义。然而面对车间动态事件时,批处理机的工件类型加工选择会导致各工件完成时间产生不可避免的变化。因此,根据实时车间生产加工特征,自适应为批处理机选择合适的工件加工类型,以达到全部工件的拖期成本最小化是研究重点。本文研究一个带批处理机的混合流水车间调度问题,将其建模为马尔科夫决策过程,设计了结合工件加工信息和车间资源信息的工件资源多重实时特征,制定了工件选择规则和批处理机批处理选择规则。智能体根据决策点的实时特征,通过复合调度规则决定机器的加工工件及批处理的工件类型,构造了以工件拖期成本为基准的智能体奖励回报函数,通过近端策略优化算法对智能体的网络进行训练。在大量不同生产配置的实例上进行了数值实验。结果证实了所提算法与启发式方法相比的优越性和通用性。 展开更多
关键词 混合流水车间调度 近端策略优化算法 批处理机 马尔科夫决策
在线阅读 下载PDF
基于近端策略优化算法的电-气综合能源系统故障场景筛选
19
作者 赵朋洋 陈浩 孙海航 《东北电力大学学报》 2025年第2期104-112,共9页
极端灾害可能造成电-气综合能源系统大规模能源供应问题,导致停电停气事故,现有故障场景筛选方法多聚焦于单一故障场景,缺乏对电-气耦合系统中连锁故障传播机制的建模,导致评估结果对极端灾害的鲁棒性预测不足。文中构建了电-气综合能... 极端灾害可能造成电-气综合能源系统大规模能源供应问题,导致停电停气事故,现有故障场景筛选方法多聚焦于单一故障场景,缺乏对电-气耦合系统中连锁故障传播机制的建模,导致评估结果对极端灾害的鲁棒性预测不足。文中构建了电-气综合能源系统的连锁故障模型,考虑了电力传输线路和天然气管道的故障传播机制,构建了一种基于马尔可夫决策过程的连锁故障动态传播模型,并采用近端策略优化(Proximal Policy Optimization, PPO)算法对灾害场景进行高效搜索与优化。并基于IEEE30节点电网和20节点气网搭建电-气综合能源系统连锁故障模型,对PPO算法训练过程进行测试。算例表明,该方法能够识别出严重故障场景及故障传播路径且保证良好的收敛性,提高电-气综合能源系统在遭受冲击时的应急响应能力。 展开更多
关键词 电-气综合能源系统 连锁故障 故障场景筛选 近端策略优化算法
在线阅读 下载PDF
基于改进近端策略优化算法的在线三维装箱方法
20
作者 徐虹 曾祥进 华永斌 《武汉工程大学学报》 2025年第5期565-570,共6页
为解决现有三维装箱算法优化效率低的问题,本文提出了一种改进近端策略优化(PPO)算法的在线三维装箱方法。首先,基于现实装箱的边界约束、支撑约束、重力约束、碰撞约束等条件,在演员-评论家框架中添加可行性掩码预测网络,限制不可行装... 为解决现有三维装箱算法优化效率低的问题,本文提出了一种改进近端策略优化(PPO)算法的在线三维装箱方法。首先,基于现实装箱的边界约束、支撑约束、重力约束、碰撞约束等条件,在演员-评论家框架中添加可行性掩码预测网络,限制不可行装箱动作点的选取,以满足现实物流过程中的装箱需求。其次,使用长短期记忆网络替换PPO算法神经网络结构中的全连接层,专注学习高奖励值的样本,以便更快速地优化模型。最后,采用两个不同的数据集进行对比实验,其中数据集1采用随机生成的箱子序列,数据集2采用切割库存的箱子序列,保证实验的全面性。实验结果表明,基于改进的PPO算法缩短了强化学习应用于装箱过程中动作节点的盲目搜索时间。在数据集2中,单个箱子平均码放时间缩短了0.3 s,箱子数量增加了2.7个,空间利用率提升了2.2%。本文提出的优化算法能够有效提高三维装箱问题的空间利用率和降低装载时间,为三维装箱问题的工程化应用提供有效的解决方案和参考。 展开更多
关键词 三维装箱 深度强化学习 长短期记忆网络 近端策略优化算法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部