一类三维装箱问题的多智能体分层强化学习求解算法研究

Research on multi-agent hierarchical reinforcement learning algorithm for solving one type of 3D bin packing problem

下载PDF

导出

摘要针对半在线场景下的多箱体三维装箱问题(3D-BPP),为了提高装箱决策效率和装箱空间利用率,本文提出一种多智能体分层强化学习算法.该算法采用多智能体马尔可夫决策过程(MAMDP)对问题进行建模,通过3个完全合作的智能体分别负责货物选择、箱子选择和摆放位置规划,并引入值分布学习方法以增强算法的稳定性和收敛性.实验结果表明,该算法在不同环境配置下均表现出良好的性能,空间利用率和装入货物数量显著提升,且在多箱体和多货物选择场景下展现出较强的泛化能力.与传统的启发式算法相比,该算法在动态决策和适应性方面具有明显优势,尤其在处理未知分布的货物尺寸时表现出较强的鲁棒性.该算法首次将多智能体分层强化学习框架应用于3D-BPP,实现装箱决策的端到端优化,为复杂装箱场景提供了一种新颖的解决方案. With consideration of the complexity of the three-dimensional bin packing problem(3D-BPP)in the multibin semi-online scenarios,a multi-agent hierarchical reinforcement learning algorithm is proposed to improve packing efficiency and space utilization.The proposed algorithm models the problem by using a multi-agent Markov decision process(MAMDP),including three fully cooperative agents responsible for item selection,bin selection,and placement planning,respectively.A distributional learning method is introduced to enhance the stability and convergence of the algorithm.Experimental results demonstrate that the algorithm exhibits superior packing performance across various environmental configurations,significantly improving space utilization and the number of packed items.It also shows strong generalization capabilities in multi-bin and multi-item selection scenarios.Compared to traditional heuristic algorithms,the proposed method has clear advantages in dynamic decision-making and adaptive optimization,particularly demonstrating robustness when handling items with unknown size distributions.The innovation lies in the first application of a multi-agent hierarchical reinforcement learning framework to the 3D-BPP,achieving end-to-end optimization of packing decisions and providing a novel solution for complex packing scenarios.

作者初阳燕雪峰张玄烨徐云雯李德伟 CHU Yang;YAN Xue-feng;ZHANG Xuan-ye;XU Yun-wen;LI De-wei(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing Jiangsu 211106,China;Jiangsu Automation Research Institute,Lianyungang Jiangsu 222061,China;Collaborative Innovation Center of Novel Software Technology and Industrialization.Nanjing Jiangsu 210023,China;Department of Automation,Shanghai Jiao Tong University,Shanghai 200240,China)

机构地区南京航空航天大学计算机科学与技术学院江苏自动化研究所中国南京软件新技术与产业化协同创新中心上海交通大学自动化系

出处《控制理论与应用》北大核心 2025年第12期2569-2576,共8页 Control Theory & Applications

关键词三维装箱问题深度强化学习多智能体强化学习组合优化 three-dimensional packing problem deep reinforcement learning multi-agent reinforcement learning combinatorial optimization

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1沈倪,夏佳楠,马弘,刘雨.考虑温层和冷媒装载约束的冷链商品三维多箱型装箱问题研究[J].系统工程理论与实践,2025,45(2):685-701. 被引量：3
2徐翔斌,吁琴芳.考虑作业姿势舒适的三维装箱问题[J].工业工程,2024,27(2):37-47. 被引量：2

二级参考文献13

1刘坚,蒲海蓉,于文恺,李震.手工搬举作业的人因工程量化评估与改进研究[J].工业工程与管理,2010,15(1):103-107. 被引量：9
2何大勇,查建中,姜义东.遗传算法求解复杂集装箱装载问题方法研究[J].软件学报,2001,12(9):1380-1385. 被引量：58
3张文倩,樊树海,熊佳玮,陈思雨.搬运作业能量消耗模型及仿真研究[J].中国安全科学学报,2018,28(10):38-43. 被引量：9
4王淑云,孙虹.随机需求下冷链品多温共配路径优化研究[J].工业工程与管理,2016,21(2):49-58. 被引量：30
5戴夏静,梁承姬.带时间窗的蓄冷式多温共配冷链配送问题研究[J].重庆师范大学学报（自然科学版）,2017,34(5):18-25. 被引量：15
6许为,葛列众.人因学发展的新取向[J].心理科学进展,2018,26(9):1521-1534. 被引量：42
7朱向,向延平.多车多件货物平衡装载优化研究[J].工业工程,2020,23(3):123-131. 被引量：3
8李良,肖军,刘芷言,李路云.铸件打磨工人姿势分析及改善研究[J].工业工程,2020,23(4):167-173. 被引量：6
9丁秋雷,胡祥培,姜洋,阮俊虎.考虑新鲜度的农产品冷链物流配送受扰恢复模型[J].系统工程理论与实践,2021,41(3):667-677. 被引量：30
10陈星,常原,郑颖琇,陈再励,何华刚.基于AlphaPose与REBA的手工搬运作业姿势风险评估方法[J].中国安全生产科学技术,2022,18(7):232-238. 被引量：6

共引文献3

1杨欣,李明.基于块合并策略的三维装箱多目标优化算法[J].包装工程,2025,46(1):193-202. 被引量：1
2赵浩方,荆波,王秀丽,杨江龙.城市供应粮食物资集装箱装载优化问题研究[J].包装工程,2025,46(17):296-303.
3刘旺盛,魏琦,曾艳.多温共配模式下三维装箱与车辆路径协同优化[J].集美大学学报(自然科学版),2026,31(1):77-93.

1张长勇,姚凯超,张宇浩.求解在线三维装箱问题的启发式深度强化学习算法[J].计算机工程与应用,2025,61(17):329-336.
2张启堂,任鸿翔,杨晓,王德龙,孙铭泽.舰船专用舱室危险品的三维装箱问题研究与优化[J].中国航海,2025,48(S1):146-154.
3刘涛,杜洪刚.立体货架智能化优化设计研究进展[J].中国储运,2025(8):149-150.
4苑竹(文/图).卡车装箱[J].幼儿教育,2025(26):45-45.
5宋洪.生成式AI在企业风险安全管理中的应用研究——以顺丰中转场为例[J].中国公共安全,2025(1):193-195.
6徐虹,曾祥进,华永斌.基于改进近端策略优化算法的在线三维装箱方法[J].武汉工程大学学报,2025,47(5):565-570.
7钟鑫,任鸿翔,王德龙,韦德鉴.基于混合启发式算法的集装箱爆炸品装箱问题研究与优化[J].中国航海,2025,48(S1):166-174.
8许浩翔,余敦辉,邓怡辰,肖奎.基于分层强化学习的知识图谱约束问答模型[J].计算机应用,2025,45(12):3764-3770.
9傅东,张奕东,何比干,林伟平,罗敬淇.基于PID控制器的电梯液压缓冲器闭环反馈控制系统的设计[J].中国电梯,2025,36(9):15-18.
10程平,杨文宇,熊俊宇.基于大模型Agent的智能审计初步业务活动研究[J].中国注册会计师,2025(11):89-94.

控制理论与应用

2025年第12期

浏览历史

内容加载中请稍等...

一类三维装箱问题的多智能体分层强化学习求解算法研究

参考文献2

二级参考文献13

共引文献3

相关作者

相关机构

相关主题

浏览历史