面向鲲鹏处理器的HPL-MxP多重lookahead优化

HPL-MxP Multiple lookahead Optimization for Kunpeng Processors

下载PDF

导出

摘要 HPL-MxP基准测试程序被广泛用于衡量超算在混合精度计算下的计算能力。受制于该程序的并行实现算法,矩阵分块大小(NB)值的选取是一个需要兼顾矩阵乘效率和负载均衡的权衡问题。针对该问题,在鲲鹏920系统上进行优化研究,提出多重lookahead优化策略,采用小NB值进行矩阵分块实现更好的负载均衡,同时通过合并多轮尾矩阵更新提升等效NB值,实现负载均衡与高矩阵乘效率两者兼得的目标。为实现多重lookahead优化方案,重构Panel存储方式,并设计计算与通信细粒度流水线,扩展HPL-MxP源程序接口。在鲲鹏920多节点平台上的单双精度混合测试结果表明,HPL-MxP在多重lookahead优化下可有效解决NB值的权衡问题,且相较单重lookahead策略未产生明显额外开销。 The HPL-MxP benchmark program is widely used for measuring the computational power of supercomputers in mixed-precision computing.Subject to the parallel implementation algorithm of this program,the selection of the matrix Numerical Block(NB)value of the matrix block size is a tradeoff problem that must consider matrix multiplication efficiency and load balancing.To solve this problem,this paper presents an optimization study on the Kunpeng 920 system and proposes a multi-level lookahead optimization strategy:small NB values are used for matrix chunking to achieve better load balancing,and equivalent NB values are improved by merging multiple rounds of matrix multiplication updates to achieve load balancing and high matrix multiplication efficiency.To realize a multi-level lookahead optimization scheme,this study reconstructs the Panel storage mode,designs a fine-grained computing and communication pipeline,and expands the HPL-MxP source program interface.A single-double precision hybrid test on the Kunpeng 920 multi-node platform shows that HPL-MxP can effectively solve the trade-off problem of NB values under multi-level lookahead optimization and does not incur significant additional overhead compared with the single-level lookahead strategy.

作者高昂王银山燕雯宋昌成王龙姚二林 GAO Ang;WANG Yinshan;YAN Wen;SONG Changcheng;WANG Long;YAO Erlin(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 101408,China;Huawei Technologies Co.,Ltd,Hangzhou 310052,Zhejiang,China)

机构地区中国科学院计算技术研究所中国科学院大学华为技术有限公司

出处《计算机工程》北大核心 2025年第8期354-363,共10页 Computer Engineering

基金中国科学院青年创新促进基金(E345060)。

关键词 HPL-MxP基准测试程序矩阵分块混合精度多重lookahead优化策略 Panel存储方式 HPL-MxP benchmark test program matrix blocking mixed precision multi-level lookahead optimization strategy Panel storage mode

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1黄海峰.徐直军解读“暴力”的AI芯片昇腾910[J].通信世界,2019(24):22-23. 被引量：1
2苏月.华为鲲鹏920：一颗勇敢的“芯”[J].计算机与网络,2019,45(21):72-73. 被引量：9

共引文献8

1倪渊之,吴定会,陶洪峰.华为“鲲鹏”平台在“计算机网络与通信”教学中的应用[J].无锡职业技术学院学报,2021,20(5):27-30. 被引量：2
2苟悦宬.使用OpenMP+MPI的矩阵乘法并行实现[J].电脑与电信,2022(3):77-80. 被引量：2
3李萌.基于云计算框架的OLTP类业务安全可控模型的一般性探究[J].计算机应用与软件,2022,39(9):21-27. 被引量：1
4张战炳,于潇雪,高亦沁,周芸,周衍晓,林新华.基于华为鲲鹏处理器的计算课程教学环境构建[J].软件导刊,2023,22(12):154-160.
5金磐石,张晓东,邢磊,李晓栋,彭云,杨永,李铮.建行信用卡系统全栈国产化改造研究[J].计算机技术与发展,2024,34(6):192-200. 被引量：4
6张虹,孙敏.微处理器课程体系建设与教学内容改革[J].电气电子教学学报,2024,46(5):36-39. 被引量：2
7王炜东,张宏海,刘硕,武学成,田丰,贾永强.民航机票搜索系统国产化适配研究[J].信息技术与信息化,2025(1):52-55. 被引量：1
8张宏海,杨光亮,贾永强,田丰,崔斌豪,刘中一.民航运价搜索服务平台云化改造研究[J].信息技术与信息化,2025(3):135-138.

1代改珍.OBE理念下新时代应用型大学第二课堂创新研究[J].北京联合大学学报,2025,39(4):51-57. 被引量：2
2刘海军,张晨曦,王析羽,陈长林,陈军,李智炜.考虑层敏感性的卷积神经网络混合精度量化方法[J].国防科技大学学报,2025,47(4):143-150.
3蔡秋阳,杨玲芳,陈明坤,张清彦,牟怡.公园城市滨水空间有机更新的风景园林实践探索——以成都市锦江公园更新提升与场景营造为例[J].四川建筑,2025,45(3):6-9.
4赵洪科,叶倩彤,张志勇,张凯,汪珂航,黄振亚.低碳算法的发展及压缩和加速技术的应用[J].控制与决策,2025,40(5):1409-1428.
5宋雷,杨明.上海高密度核心区既有高层和超高层建筑更新策略思考[J].建筑实践,2025(3):28-36.
6王续卓,李正烁,邢家维,赵洺哲.面向低感知度三相配电网的数据增强状态估计[J].中国电机工程学报,2025,45(15):5942-5951. 被引量：2
7杜禧瑞,尹国栋,陈一鸣,曾令安,于天熠,杨华中,李学清.ROM SRAM混合存内计算架构综述[J].集成电路与嵌入式系统,2025,25(8):10-22. 被引量：1
8冯志宸,李佳霖,高雅倩,田少博,叶煌,张鉴.极端尺度相场模拟中的原位特征提取[J].数据与计算发展前沿(中英文),2025,7(3):67-80.
9徐俊.区域协同更新视角下杭州市城镇老旧小区综合改一次统筹实施研究[J].建设科技,2025(10):20-23. 被引量：2

计算机工程

2025年第8期

浏览历史

内容加载中请稍等...

面向鲲鹏处理器的HPL-MxP多重lookahead优化

参考文献2

共引文献8

相关作者

相关机构

相关主题

浏览历史