PASSING:分布式机器学习的混合参数同步策略

PASSING:A Hybrid Parameter Synchronization Strategy in Distributed Machine Learning

下载PDF

导出

摘要随着机器学习模型的参数量与训练数据集爆炸式增长,单一计算节点已无法满足人工智能(Artificial Intelligence,AI)大模型的算力需求,分布式机器学习系统成为支持模型训练的主要平台,该系统通过数万设备的并行训练缩短机器学习的训练时间.其中数据并行是一种常用的分布式训练并行框架,该框架将训练数据划分至不同的计算节点,通过节点间周期性参数同步实现训练任务的协同,由于计算节点在每轮迭代前需要传输大量数据以完成参数同步,通信成为影响计算效率的关键因素.经典参数同步策略存在通信次数较多或接收端链路拥塞的问题,基于网内聚合的参数同步策略则存在交换机计算、存储能力有限、服务器输出端口拥塞的问题,对此本文提出一种混合参数同步策略PASSING(hybrid Parameter Synchronization Strategy with In-host and In-network Aggregation),该策略首先在服务器内或机架内预先进行模型参数的本地同步,随后利用可编程交换机完成全局的参数同步,这种方式既保证了机内小规模计算节点间的高效通信,也减轻了交换机侧的计算和通信负载.本文使用多GPU(Graphics Processing Unit)服务器和可编程交换机搭建了实验平台,并部署了所提出的混合同步策略,实验结果表明PASSING相较于传统的参数服务器算法最多提升了65.25%的训练性能,有效加速了分布式训练的速度. With the explosive growth in the number of parameters of machine learning models and the scale of training datasets,a single computing node can no longer meet the computational demands of large artificial intelligence(AI)models.Distributed machine learning systems have become the primary platform for supporting AI model training.The training time can be reduced by implementing parallel training across tens of thousands of computing nodes.In particular,data parallelism is a widely used parallel training framework in distributed training.It splits the training dataset across many computing nodes and then trains the model collaboratively through periodic parameter synchronization among those nodes.Since computing nodes need to transmit a large amount of data to complete the parameter synchronization before each round of iteration,communication becomes the key factor that affects computational efficiency.Traditional parameter synchronization strategies suffer from the problem of excessive communication rounds or congestion at the receiver’s link.In contrast,parameter synchronization strategies based on in-network aggregation face issues such as limited computing and storage capabilities of the switches,and congestion at server output ports.To this end,a hybrid parameter synchronization strategy termed PASSING(hybrid Parameter Synchronization Strategy with In-host and In-network Aggregation)is proposed.It implements a local pre-aggregation of the model parameters within the host prior to transferring the data to programmable switches.Subsequently,the local aggregation parameters are sent to the programmable switches to implement the global parameter synchronization.This approach not only ensures efficient communication between the small-scale computing nodes with the host but also reduces the computational and communication load on the switch side.We built a testbed using the multi-GPU(Graphics Processing Unit)servers and programmable switches and deployed PASSING in this testbed.The experimental results demonstrate that PASSING,when compared to traditional parameter synchronization strategies,enhances training performance by up to 65.25%,thus effectively accelerating the speed of distributed training.

作者余晓杉顾华玺周肇星王佳昆 YU Xiao-shan;GU Hua-xi;ZHOU Zhao-xing;WANG Jia-kun(School of Telecommunications Engineering,Xidian University,Xi’an,Shannxi 710000,China)

机构地区西安电子科技大学通信工程学院

出处《电子学报》北大核心 2025年第8期2636-2648,共13页 Acta Electronica Sinica

基金国家重点研发计划(No.2018YFE0202800)。

关键词分布式训练数据并行参数同步网内聚合混合同步策略 distributed training data parallelism parameter synchronization in-network aggregation hybrid parameter synchronization strategy

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1梁宏涛,刘硕,杜军威,胡强,于旭.深度学习应用于时序预测研究综述[J].计算机科学与探索,2023,17(6):1285-1300. 被引量：71
2刘忠沛,杨翔瑞,杨凌,高源航,吕高锋,王宝生,苏金树.CAInNet:面向AI加速的通算一体网内计算模型[J].计算机学报,2025,48(1):19-34. 被引量：1
3刘宏岩,张栋,吴春明.基于可编程交换机的网内灰色故障检测技术研究进展[J].电子学报,2024,52(10):3613-3622. 被引量：2
4王帅,李丹.分布式机器学习系统网络性能优化研究进展[J].计算机学报,2022,45(7):1384-1411. 被引量：21

二级参考文献24

1俞波,杨珉,王治,高传善.选择传递攻击中的异常丢包检测[J].计算机学报,2006,29(9):1542-1552. 被引量：24
2叶进,王建新.异构网络中丢包识别研究综述[J].计算机科学,2006,33(12):19-22. 被引量：9
3魏祥麟,陈鸣,范建华,张国敏,卢紫毅.数据中心网络的体系结构[J].软件学报,2013,24(2):295-316. 被引量：67
4宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：552
5洪申达,尹宁,邱镇,樊里略,李红燕.SPG-Suite：面向伪周期时间序列的预测方法[J].计算机科学与探索,2014,8(10):1153-1161. 被引量：4
6张朝昆,崔勇,唐翯翯,吴建平.软件定义网络(SDN)研究进展[J].软件学报,2015,26(1):62-81. 被引量：455
7王鹃,王江,焦虹阳,王勇,陈诗雅,刘世辉,胡宏新.一种基于OpenFlow的SDN访问控制策略实时冲突检测与解决方法[J].计算机学报,2015,38(4):872-883. 被引量：35
8Eric P. Xing,Qirong Ho,Dai Wei,Pengtao Xie.Strategies and Principles of Distributed Machine Learning on Big Data[J].Engineering,2016,2(2):179-195. 被引量：18
9李阿妮,张晓,赵晓南,张伯阳,柳春懿.面向IaaS的云计算系统可用性评估[J].计算机科学,2016,43(10):33-39. 被引量：5
10王鑫,吴际,刘超,杨海燕,杜艳丽,牛文生.基于LSTM循环神经网络的故障时间序列预测[J].北京航空航天大学学报,2018,44(4):772-784. 被引量：415

共引文献91

1秦嘉欣,葛淑伟,龙凤琪,张永茜,李雪.基于GCN-GRU的瓦斯浓度时空分布预测[J].工矿自动化,2023,49(5):82-89. 被引量：13
2刘敏,孙超超,张挺,彭源.基于GAMP-MAP估计器的非对齐空中计算[J].计算机应用研究,2023,40(6):1812-1816.
3周沭玲.高并发访问下的移动Web前端浏览性能优化研究[J].重庆科技学院学报（自然科学版）,2023,25(5):63-68. 被引量：2
4张宇峰.基于改进Transformer的时序数据预测方法[J].电脑编程技巧与维护,2023(9):84-86. 被引量：2
5史红伟,陈祺,王云龙,李鹏程.基于encoder-decoder框架的城镇污水厂出水水质预测[J].中国农村水利水电,2023(11):93-99. 被引量：6
6马翔,申国伟,郭春,崔允贺,陈意.面向异构分布式机器学习的动态自适应并行加速方法[J].智能系统学报,2023,18(5):1099-1107. 被引量：4
7孙文洁,李文杰,宁殿艳,任凌枫.我国煤矿水害事故现状、预测及防治建议[J].煤田地质与勘探,2023,51(12):185-194. 被引量：33
8陈鸿鑫,马天霆,周阳,简彦辰,高犇,戴明露.基于CNN-GAN数据增强网络的电厂锅炉管道温度压力及健康状态预测[J].电子器件,2023,46(6):1593-1600. 被引量：7
9潘少伟,范文静,王树楷,秦国伟.改进Transformer在产油量预测中的应用研究[J].福建电脑,2024,40(2):27-30.
10何胜林,龙琛,郑静,王爽,文振焜,吴惠思,倪东,何小荣,吴雪清.基于多尺度分段的长时间序列预测方法[J].深圳大学学报（理工版）,2024,41(2):232-240. 被引量：4

1洪焕江.高速骨干网络的流量调度优化方法研究[J].中国新技术新产品,2025(21):27-29. 被引量：1
2吴同飞.基于对比学习、剪枝与并行优化的MOON算法[J].计算机应用文摘,2026,42(1):73-75.
3牛超越(整理),曾航(整理),陆俊辉(整理).大小模型协同的边缘智能——第十九期CCF秀湖会议报告[J].计算,2025,1(9):70-78.
4任庆建,黄坤,王小鹏.智能视频识别技术在钻机设备中的应用[J].设备管理与维修,2025(19):87-89. 被引量：1
5杜宇,宋昱,郭策,田小静,刘冬.基于自适应拓扑分析的铝合金压铸件点云去噪方法[J].组合机床与自动化加工技术,2025(11):140-143.
6梁巍,李翔宇.广东移动构建“安全内生+绿色超宽”的“九州”算力互联网[J].通信世界,2025(23):29-29.
7郭兴波,张锐,冯俊飞,陈谦,何江涛.相邻双节段前路颈椎间盘切除融合术后K线倾斜角变化[J].颈腰痛杂志,2025,46(3):469-474.
8周少艺,黄俊刚,陈华茵,欧子君.参数有界不确定下电磁分支电路阻尼优化研究[J].科技资讯,2024,22(20):132-136.
9王有政,梅云辉,李龙女,朱高嘉,石博雅.不含独立源多端口网络参数推导及其应用[J].电气电子教学学报,2025,47(5):78-82.
10张新.基于精英保留遗传算法和并行计算框架的SWMM高效自动率定研究[J].环境工程,2025,43(10):203-208.

电子学报

2025年第8期

浏览历史

内容加载中请稍等...

PASSING:分布式机器学习的混合参数同步策略

参考文献4

二级参考文献24

共引文献91

相关作者

相关机构

相关主题

浏览历史