面向异构分布式机器学习的动态自适应并行加速方法被引量：4

Dynamic adaptive parallel acceleration method for heterogeneous distributed machine learning

下载PDF

导出

摘要分布式机器学习因其优越的并行能力成为人工智能领域复杂模型训练的常用技术。然而,GPU升级换代非常快,异构集群环境下的分布式机器学习成为数据中心、研究机构面临的新常态。异构节点之间训练速度的差异使得现有并行方法难以平衡同步等待和陈旧梯度的影响,从而显著降低模型整体训练效率。针对该问题,提出了一种基于节点状态的动态自适应并行方法(dynamic adaptive synchronous parallel,DASP),利用参数服务器动态管理节点训练时的状态信息并对节点的并行状态进行划分,通过节点状态信息自适应调整每个节点的并行状态,以减少快速节点对全局模型参数的同步等待时间与陈旧梯度的产生,从而加快收敛效率。在公开数据集上的实验结果表明,DASP比主流方法收敛时间减少了16.9%~82.1%,并且训练过程更加稳定。 Distributed machine learning has emerged as a common technique for training complex artificial intelligence models due to its excellent parallelism capability.However,GPU upgrades are exceedingly fast,and distributed ma-chine learning in a heterogeneous cluster environment is increasingly being adopted by data centers and research institu-tions.The difference in training speed between heterogeneous nodes makes it difficult for existing parallel strategies to balance the effects of synchronized waits and stale gradients,considerably reducing the model’s overall training effi-ciency.To address this problem,a node state-based dynamic adaptive parallel strategy,namely,dynamic adaptive syn-chronous parallel(DASP),is proposed using a parameter server to dynamically manage the state information of nodes during training and to divide the parallel states of nodes.The parallel state of each node is adaptively adjusted by the state information of the node to reduce the synchronization waiting time of fast nodes for global model parameters and the generation of stale gradients,speeding up the convergence efficiency.Experimental results on publicly available datasets show that DASP not only reduces the convergence time by 16.9%~82.1%compared to mainstream strategies but also makes the training process more stable.

作者马翔申国伟郭春崔允贺陈意 MA Xiang;SHEN Guowei;GUO Chun;CUI Yunhe;CHEN Yi(College of Computer Science and Technology,Guizhou University,Guiyang 550025,China)

机构地区贵州大学计算机科学与技术学院

出处《智能系统学报》 CSCD 北大核心 2023年第5期1099-1107,共9页 CAAI Transactions on Intelligent Systems

基金国家自然科学基金项目(62062022)。

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1叶正喆,苍岩.基于卷积神经网络的行人检测方法[J].应用科技,2022,49(2):55-62. 被引量：3
2窦勇敢,袁晓彤.基于隐式随机梯度下降优化的联邦学习[J].智能系统学报,2022,17(3):488-495. 被引量：13
3曹嵘晖,唐卓,左知微,张学东.面向机器学习的分布式并行计算关键技术及应用[J].智能系统学报,2021,16(5):918-930. 被引量：16
4王帅,李丹.分布式机器学习系统网络性能优化研究进展[J].计算机学报,2022,45(7):1384-1411. 被引量：21
5舒娜,刘波,林伟伟,李鹏飞.分布式机器学习平台与算法综述[J].计算机科学,2019,46(3):9-18. 被引量：35
6Wenfei FAN,Kun HE,Qian LI,Yue WANG.Graph algorithms:parallelization and scalability[J].Science China(Information Sciences),2020,63(10):230-250. 被引量：3
7朱泓睿,元国军,姚成吉,谭光明,王展,户忠哲,张晓扬,安学军.分布式深度学习训练网络综述[J].计算机研究与发展,2021,58(1):98-115. 被引量：21

二级参考文献5

1何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：367
2Eric P. Xing,Qirong Ho,Dai Wei,Pengtao Xie.Strategies and Principles of Distributed Machine Learning on Big Data[J].Engineering,2016,2(2):179-195. 被引量：18
3孙家广.工业大数据[J].软件和集成电路,2016(8):22-23. 被引量：7
4亢良伊,王建飞,刘杰,叶丹.可扩展机器学习的并行与分布式优化算法综述[J].软件学报,2018,29(1):109-130. 被引量：29
5刘斌,何进荣,耿耀君,王最.并行机器学习算法基础体系前沿进展综述[J].计算机工程与应用,2017,53(11):31-38. 被引量：11

共引文献101

1王飞跃,王艳芬,陈薏竹,田永林,齐红威,王晓,张卫山,张俊,袁勇.联邦生态:从联邦数据到联邦智能[J].智能科学与技术学报,2020,2(4):305-311. 被引量：35
2董建宁,张淇钧,陈衡,冯福媛,潘佩媛,徐钢,王修彦,刘彤.基于GRU门控循环单元的火电AGC数据建模及应用[J].洁净煤技术,2024,30(S01):406-413. 被引量：1
3王平.信息系统迭代与志愿服务专业化发展:基于数字时代治理的探索[J].中国志愿服务研究,2021(1):130-148. 被引量：5
4刘毅,于畅洋,李国燕,潘玉恒.UAST-RCNN:遮挡行人的目标检测算法[J].电子测量与仪器学报,2022,36(12):168-175. 被引量：20
5徐秀珊,李辉,王新印,张超,李雨.运营商行业智能化机器学习平台建设实践[J].山东通信技术,2019,39(2):25-29.
6孙华利,赵明,段荣华,王国平,赵川.面向实时高频交易的分布式计算平台实现方法[J].电子设计工程,2019,27(21):23-26.
7王萃.人工智能深度学习方法在会展智能布展设计中的应用研究[J].美术文献,2019,0(7):127-129. 被引量：2
8陈谦,王朝辉,陈渊召,李振霞,郭滕滕,陈海军.基于极限学习机的钢桥面板腐蚀评估及预测[J].材料导报,2020,34(14):14099-14104. 被引量：5
9葛文双,郑和芳,刘天龙,马昭,张瑞权,吴成晟.面向数据的云计算研究及应用综述[J].电子技术应用,2020,46(8):46-53. 被引量：14
10李宏达,高小红,汤敏.基于CNN的不同空间分辨率影像土地覆被分类研究[J].遥感技术与应用,2020,35(4):749-758. 被引量：13

同被引文献23

1李振,周东岱,童婷婷.基于ISSM和TAM模型的自适应学习系统评价指标体系构建[J].图书馆工作与研究,2022(S01):10-17. 被引量：9
2陈友荣,陈浩,韩蒙,刘半藤,王章权,任条娟.基于信用等级划分的医疗数据安全共识算法[J].电子与信息学报,2022,44(1):279-287. 被引量：26
3王梦莹,张文丽,高玥,计虹,乔杰.基于大数据的医院真实场景传染病预警系统研究[J].中国医院管理,2022,42(3):1-5. 被引量：24
4王昊天,郑栋毅,刘芳,肖侬.面向多元时序数据的个性化联邦异常检测方法[J].计算机工程与应用,2022,58(11):60-65. 被引量：7
5林靖生,滕晓燕,曹青,汤杰,马龙鑫,陈尔真.新冠疫情下大型方舱医院信息系统建设及应用[J].暨南大学学报（自然科学与医学版）,2022,43(3):225-231. 被引量：12
6王帅,李丹.分布式机器学习系统网络性能优化研究进展[J].计算机学报,2022,45(7):1384-1411. 被引量：21
7王雷,杜亮,周芃,吴鹏.基于自步学习的对称非负矩阵分解算法[J].郑州大学学报（理学版）,2022,54(5):43-48. 被引量：1
8郭潇,李春山,张宇跃,初佃辉.基于自适应多目标强化学习的服务集成方法[J].计算机应用,2022,42(11):3500-3505. 被引量：1
9李腾,方保坤,马卓,沈玉龙,马建峰.基于同态加密的医疗数据密文异常检测方法[J].中国科学：信息科学,2023,53(7):1368-1391. 被引量：15
10陈家合,朱毅,沈辉,王志,李云.基于串行自编码器的无监督领域自适应特征学习方法[J].扬州大学学报（自然科学版）,2023,26(4):31-36. 被引量：1

引证文献4

1王晓晓,朱晓娟.基于自适应分层梯度压缩的分布式训练通信优化方法[J].湖北民族大学学报(自然科学版),2025,43(1):34-40.
2王晓晓,朱晓娟.分布式机器学习中的自适应同步并行策略[J].辽东学院学报(自然科学版),2024,31(4):283-290. 被引量：1
3金昊婴.面向分布式机器学习训练的通信优化技术探析[J].长江信息通信,2025,38(8):52-54.
4牟国瑞,赵晨旭,刘光伟.医院信息系统突发异常智能检测仿真[J].计算机仿真,2025,42(9):436-439.

二级引证文献1

1白聪亮,贺永旺.分布式机器学习在网络流数据挖掘中的应用[J].中国宽带,2025,21(9):121-123. 被引量：1

1荣宝俊,郑朝晖.FL_Raft:基于联邦学习模型的选举共识方案[J].计算机科学,2023,50(11):364-373. 被引量：4
2郝艳也,闫家铮,虞保忠,梅涛.多余度机载计算机同步算法研究[J].信息技术与信息化,2023(5):83-86. 被引量：1
3钟沛,刘亮.生态围隔在小型湖泊治理中的应用[J].吉林水利,2023(11):75-78. 被引量：2
4许峰,孙兴利,李晓峰,朱越星.阿芙拉油船尾尖舱配置探讨[J].船舶工程,2023,45(S01):230-233.
5杨一军.构建大规模架构转型工程保障体系,助力科技自立自强战略全面实施[J].中国金融电脑,2023(11):40-45.
6潘君,陈雪飞,艾景利.规模化牛场疫病防控措施及常用技术探究[J].畜牧业环境,2023(5):67-69. 被引量：1
7徐弘.测绘技术在现代工程测量中的应用研究[J].中国高新科技,2023(18):143-144. 被引量：2
8彭刚.炼油厂汽轮发电机组故障诊断技术及状态检修方式[J].设备管理与维修,2023(20):184-185. 被引量：2
9马天骅,顾永春,杨涛.犬颌骨骨折小钛板坚强内固定方式的探讨[J].临床口腔医学杂志,2023,39(9):550-553.
10纵志成.现场施工技术在道路桥梁施工中的应用分析[J].运输经理世界,2023(17):97-99. 被引量：7

智能系统学报

2023年第5期

浏览历史

内容加载中请稍等...

面向异构分布式机器学习的动态自适应并行加速方法被引量：4

参考文献7

二级参考文献5

共引文献101

同被引文献23

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向异构分布式机器学习的动态自适应并行加速方法 被引量：4

参考文献7

二级参考文献5

共引文献101

同被引文献23

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向异构分布式机器学习的动态自适应并行加速方法被引量：4