面向多任务训练的网络调度技术

Network Scheduling Techniques for Multi-Job Training

下载PDF

导出

摘要面向生产环境中深度学习训练(DLT)场景,观察到多DLT任务之间产生严重的通信竞争,严重影响训练集群整体GPU利用率。针对这一基础问题,研制Crux,一个旨在通过缓解DLT多任务间通信竞争最大化GPU利用率的通信调度方法。Crux核心思想是将最优化GPU利用率目标转化为每个DLT对GPU强度需求问题,因此文章设计一种优先考虑高GPU强度的DLT流调度算法,从而最大程度减少潜在的通信竞争。基于大规模实验显示,与Sincronia、CASSINI和TACCL等调度方案相比,Crux可将GPU利用率提高至多23%,远高于同类方法。Crux已经在工业级大模型训练集群部署并进行任务调度。 In the context of Deep Learning Training(DLT)tasks within Alibaba Cloud's production environment,it is observed severe communication contention among multiple DLT jobs,which significantly degrades the overall GPU utilization of the training cluster.To address this fundamental issue,Crux is developed,a communication scheduling system designed to maximize GPU utilization by mitigating inter-job communication contention.The core principle of Crux is to reformulate the objective of maximizing GPU utilization into a problem of meeting each DLT job's demand for GPU compute density.Consequently,it employs a flow scheduling algorithm that prioritizes DLT jobs with higher compute density,thereby minimizing potential communication conflicts.Extensive experiments show that compared to schedulers like Sincronia,Varys,and TACCL,Crux improves GPU utilization by up to 23%,significantly outperforming these counterparts.Crux has been deployed in industrial-scale model training clusters for DLT job scheduling.

作者操佳敏关宇翟恩南 Cao Jiamin;Guan Yu;Zhai Ennan(Alibaba Cloud Computing Co.,Ltd.,Hangzhou 310000,China)

机构地区阿里云计算有限公司

出处《信息通信技术》 2025年第5期17-23,共7页 Information and communications Technologies

关键词深度学习模型训练通信竞争通信调度利用率优化集合通信路径选择 Deep Learning Model Training,Communication Contention Communication Scheduling Utilization Optimization Collextive Communication Path Selection

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1翟恩南,操佳敏,钱坤,关宇.面向大模型时代的网络基础设施研究:挑战、阶段成果与展望[J].计算机研究与发展,2024,61(11):3664-3677. 被引量：5

共引文献4

1李贵光.智慧城市建设进程中通信基础设施的规划与设计研究[J].通讯世界,2025,32(4):22-24.
2李焱,杨偲乐,刘成春,王林梅,田瑶琳,张信航,朱昱,李莼蒲,孙磊,颜深根,肖利民,张伟丰.Resilio:一种大模型弹性训练容错系统[J].计算机研究与发展,2025,62(6):1380-1395. 被引量：1
3陈裕邦.基于大数据技术的数据中心高效通信网络架构设计[J].通信电源技术,2025,42(16):164-166.
4吴秋宏.人工智能在通信系统的应用分析[J].通信与信息技术,2026(1):145-147. 被引量：1

1翟恩南,操佳敏,钱坤,关宇.面向大模型时代的网络基础设施研究:挑战、阶段成果与展望[J].计算机研究与发展,2024,61(11):3664-3677. 被引量：5
2刘玥岑.基于AI的5G网络智能资源分配算法[J].计算机应用文摘,2025,41(16):212-213.
3郭亮,王月,李洁.大模型算力体系构建与关键技术分析[J].信息通信技术与政策,2025,51(11):81-88.
4黄春花.社区资源融入幼儿园思政课程的实践路径与策略研究[J].文学少年,2025(15):0093-0095.
5李鑫.人工智能优化算法在卫星通信资源调度中的应用研究[J].软件,2025,46(10):80-82.
6胡晨兴,岳洪宇.煤化工合成氨工艺分析及节能优化[J].山西化工,2025,45(8):206-208.
7刘振冰,刘腾腾.基于控释尿素的小麦肥料利用率优化试验分析[J].新农民,2025(13):80-82. 被引量：1
8徐金波,董德尊,李宝峰,张伟,邢建英,张鹏.面向集合通信硬件卸载的维序触发机制和数据缓存方法[J].国防科技大学学报,2025,47(6):13-23.
9沈少军.猕猴桃雌雄同体双砧羽状树形栽培技术[J].西北园艺,2025(8):14-15.
10鲍万昌,王惠珂.基于AI与机器学习的大数据任务资源优化方法研究[J].山东通信技术,2025,45(4):15-19.

信息通信技术

2025年第5期

浏览历史

内容加载中请稍等...

面向多任务训练的网络调度技术

参考文献1

共引文献4

相关作者

相关机构

相关主题

浏览历史