基于申威1600的3级BLAS GEMM函数优化被引量：12

Optimization of BLAS Level 3 Functions on SW1600

下载PDF

导出

摘要 BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库Goto BLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍. BLAS is one of the most important basic underlying math library for scientific computing, in which the level 3 BLAS functions are most widely used. In this paper, we provide a high-performance method to implement Level 3 BLAS functions based on domestic Sunway 1600 platform. To make it clear, we take GEMM as an example. For the implementation on single-core, we apply many tuning techniques related to the specific platform, such as multiply-add instructions, loop unrolling, software pipelining and instruction rearrangement, SIMD operations, and register blocking to push up the performance. For the multi-core implementation, we propose an efficient multi-threaded method. Compared with Goto BLAS, one of the famous open-source BLAS, the experiments show that our serial single-threaded method achieves a speedup of 4.72. What’s more, the average speedup of 4-threaded execution towards the single-threaded one can also reach 3.02.

作者刘昊刘芳芳张鹏杨超蒋丽娟

机构地区中国科学院软件研究所中国科学院大学

出处《计算机系统应用》 2016年第12期234-239,共6页 Computer Systems & Applications

基金国家自然科学基金(91530103 91530323)

关键词申威1600 三级BLAS GEMM 高性能计算多核 Sunway 1600 level 3 BLAS GEMM HPC multi-core

分类号 TP38 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1蒋孟奇,张云泉,宋刚,李玉成.GOTOBLAS一般矩阵乘法高效实现机制的研究[J].计算机工程,2008,34(7):84-86. 被引量：8
2张帅,李涛,王艺峰,焦晓帆,杨愚鲁.细粒度任务并行GPU通用矩阵乘[J].计算机工程与科学,2015,37(5):847-856. 被引量：5
3李佳佳,张秀霞,谭光明,陈明宇.选择稀疏矩阵乘法最优存储格式的研究[J].计算机研究与发展,2014,51(4):882-894. 被引量：11
4申威1600处理器的细枝末节[J].黑龙江科技信息,2011(34). 被引量：1
5李毅,何颂颂,李恺.多核龙芯3A上二级BLAS库的优化[J].计算机系统应用,2011,20(1):163-167. 被引量：8

二级参考文献72

1Gustavson F G. High-performance Linear Algebra Algorithms Using New Generalized Data Structures for Matrices[J]. IBM J. RES. & DEV., 2003, 47(1).
2Goto K. Anatomy of High-Performance Matrix Multiplication[J]. ACM Transactions on Mathematical Software, 2007, 34(3): 1-24.
3蒋孟奇,张云泉,宋刚,等.综合递归分块技术及其在数值计算中的应用[C].全国高性能计算学术年会会议论文集.中国,北京[出版社不祥],2006.
4Robert A. van de Geijn Enrique S. Quintana-Ort' I. The Science of Programming Matrix Computations[M]. [S. l.]: MIT Press, 2006.
5Herrero J R, Navarro J J Building Libraries for Small Matrix Kemels[EB/OL]. (2007-02-20). www.citeseer.ist.psu.edu/703531. html.
6Kelley C T. Iterative Methods for Linear and Nonlinear Equations [M]. Philadelphia, PA: SIAM, 1995.
7The MathWorks Inc. MATLAB and statistics toolbox release 2012b [OL]. 2012. [2013-03-26]. http://www. mathworks, corn/products/statistics/.
8Argonne National Laboratory. PETSc: Portable, extensible toolkit for scientific computation [OL]. 2013. [2013-03-26]. http ://www. mcs. anl. gov/petsc/.
9Sandia National Laboratories. The Trilinos project [OL]. 2013. [-2013-03-26]. http://trilinos, sandia, gov.
10Falgout R D, Yang U M. Hypre: A library of high performance preconditioners [C] //Proc of the 2nd Int Conf on Computational Science. New York: ACM, 2002:632-641.

共引文献28

1吴猛,刘振.基于并行存储优化的矩阵乘法运算[J].电脑知识与技术,2010(01X):693-695.
2谢林川.计算机性能优化技术中存在的问题[J].硅谷,2012,5(5):170-170. 被引量：5
3朱海涛,李玲,陈云霁,钱诚.一种用于通用处理器结构优化的矩阵乘法性能模型[J].小型微型计算机系统,2012,33(5):981-986. 被引量：2
4刘斌斌,顾乃杰,任开新,张杰.LAPACK线性方程求解函数在龙芯3A上的并行化[J].小型微型计算机系统,2014,35(5):1085-1089. 被引量：1
5李冬,孙杰.弹道跟踪数据融合处理的快速算法[J].飞行器测控学报,2015,34(4):368-373. 被引量：3
6黄敏,丁萍,罗海飚.共轭梯度法在GPU及Xeon Phi下的并行优化及比较[J].华南理工大学学报（自然科学版）,2015,43(11):35-46. 被引量：1
7张华亮,黄启印,吴少校.基于龙芯3A2000处理器的高性能Goto BLAS库的实现[J].高技术通讯,2016,26(10):825-832. 被引量：1
8朱敏,唐波,赵娟,邹丹,李金才.布尔矩阵乘的分布式异构并行优化[J].计算机工程与科学,2017,39(4):634-640. 被引量：1
9孙家栋,孙乔,邓攀,杨超.基于申威众核处理器的1、2级BLAS函数优化研究[J].计算机系统应用,2017,26(11):101-108. 被引量：5
10张玉州.“数据结构”课程中稀疏矩阵运算器的实现[J].安庆师范大学学报（自然科学版）,2017,23(1):98-101. 被引量：1

同被引文献36

1刘远,张定华,赵歆波,毛海鹏,刘晓鹏.一种基于SIMD技术的快速并行代数重建算法[J].中国图象图形学报,2007,12(1):73-77. 被引量：8
2蒋孟奇,张云泉,宋刚,李玉成.GOTOBLAS一般矩阵乘法高效实现机制的研究[J].计算机工程,2008,34(7):84-86. 被引量：8
3顾乃杰,李凯,陈国良,吴超.基于龙芯2F体系结构的BLAS库优化[J].中国科学技术大学学报,2008,38(7):854-859. 被引量：13
4李毅,何颂颂,李恺.多核龙芯3A上二级BLAS库的优化[J].计算机系统应用,2011,20(1):163-167. 被引量：8
5解庆春,张云泉,王可,李焱,许亚武.SIMD技术与向量数学库研究[J].计算机科学,2011,38(7):298-301. 被引量：10
6何颂颂,顾乃杰,朱海涛,刘燕君.面向龙芯3A体系结构的BLAS库优化[J].小型微型计算机系统,2012,33(3):571-575. 被引量：9
7郭正红,郭绍忠.基础数学库中的层次结构寄存器分配策略[J].计算机工程,2012,38(24):266-268. 被引量：5
8郭绍忠,郭正红,王磊.基础数学库中的MCET寄存器分配方法[J].计算机应用与软件,2013,30(3):291-293. 被引量：2
9罗红兵,张晓霞,王伟,武林平.科学计算应用程序单核指令级优化研究[J].计算机研究与发展,2014,51(6):1263-1269. 被引量：4
10郭正红,郭绍忠,许瑾晨,张兆天.异构多核平台下基础数学库寄存器分配方法[J].计算机应用,2014,34(A01):86-89. 被引量：2

引证文献12

1沙萍,敬石心.关于分段函数的原函数存在性的讨论[J].沈阳工业学院学报,2000,19(1):81-84. 被引量：3
2周蓓,黄永忠,许瑾晨,郭绍忠.向量数学库的向量化方法研究[J].计算机科学,2019,46(1):320-324. 被引量：10
3王正行,曾令将.基于飞腾M6678的向量数学库优化技术研究[J].舰船电子工程,2021,41(3):102-106. 被引量：3
4吴凡,王磊.基于申威1621函数库的断流水指令替换方法[J].计算机系统应用,2021,30(7):165-171.
5蔡雨,孙成国,杜朝晖,刘子行,康梦博,李双双.异构HPL算法中CPU端高性能BLAS库优化[J].软件学报,2021,32(8):2289-2306. 被引量：2
6李爽,赵荣彩,王磊.面向申威1621通用矩阵乘算法的实现与优化[J].计算机科学,2021,48(S02):699-704. 被引量：2
7徐方洁,王磊,王一卓,张亚光.基于申威1621的高精度点积算法实现与优化[J].计算机系统应用,2023,32(2):400-405.
8闫昊,刘芳芳,马文静,陈道琨.申威1621处理器上矩阵乘法优化研究[J].软件学报,2023,34(7):3451-3463. 被引量：5
9胡怡,陈道琨,杨超,刘芳芳,马文静,尹万旺,袁欣辉,林蓉芬.面向SW26010-Pro的1、2级BLAS函数众核并行优化技术[J].软件学报,2023,34(9):4421-4436. 被引量：2
10胡怡,陈道琨,杨超,马文静,刘芳芳,宋超博,孙强,史俊达.国产SW26010-Pro处理器上3级BLAS函数众核并行优化[J].软件学报,2024,35(3):1569-1584. 被引量：4

二级引证文献30

1贾云锋.求带有绝对值函数的原函数的一个命题[J].青海大学学报（自然科学版）,2013,31(3):76-79.
2沙萍,敬石心.关于分段函数的原函数存在性的讨论[J].沈阳工业学院学报,2000,19(1):81-84. 被引量：3
3葛喜芳.分段函数的几个积分问题的计算方法[J].漯河职业技术学院学报,2012,11(5):86-87. 被引量：1
4排新颖.一元分段函数的微积分[J].高等数学研究,2018,21(5):16-18. 被引量：1
5叶锡聪,庄灿锋,王宇木,吴鹏飞,潘志铭,廖力灵,孙轶群.RISC-V向量指令集的Compute Library函数库移植[J].单片机与嵌入式系统应用,2021,21(1):8-13. 被引量：5
6王正行,曾令将.基于飞腾M6678的向量数学库优化技术研究[J].舰船电子工程,2021,41(3):102-106. 被引量：3
7吴凡,王磊.基于申威1621函数库的断流水指令替换方法[J].计算机系统应用,2021,30(7):165-171.
8谭勖立,王庆宾,范雕,冯进凯,黄炎,黄子炎.基于能量守恒方法的重力场反演快速异构并行算法[J].大地测量与地球动力学,2021,41(9):954-960.
9黄炎,王庆宾,李国强,冯进凯,谭勖立.基于向量化的扰动引力矢量快速并行算法[J].吉林大学学报（地球科学版）,2021,51(6):1863-1871. 被引量：3
10周雍浩,徐金龙,李斌,钱宏,聂凯.面向神威高性能多核处理器的并行编译优化方法[J].计算机工程,2022,48(9):130-138. 被引量：3

1晏小波,唐滔,杨学军.FT64并行系统上的EP和GEMM并行算法设计与实现[J].计算机研究与发展,2008,45(z1):87-92. 被引量：2
2李晓雯,崔翔,殷瑞杰,刘强.缓存结构GPU矩阵乘法算法的自动优化[J].现代电子技术,2014,37(10):137-140.
3柯善学,曾本胜,韩文报.TMS320C6201下汇编的手工优化[J].信息工程大学学报,2002,3(4):57-61.
4调校PC路之虑与忧[J].电脑爱好者,2014,0(16):24-25.
5谷洪峰,王丹云,彭维.Fermi架构及其性能优化技术初探[J].高性能计算技术,2010,0(4):1-5.
6张凯,陈书明,王耀华,宁希.面向通用HPC的高性能DSP设计权衡[J].计算机学报,2013,36(4):790-798. 被引量：3
7王占立,马胜,许邦建,杨柳.一种支持阻塞分段传输的DMA部件的设计与实现[J].计算机研究与发展,2014,51(S1):117-122.
8黄婕.基于第二代小波变换的图像数字水印算法[J].电脑知识与技术,2012,8(3X):2096-2099.
9廖继荣,董海涛.利用循环展开最大化软件流水线性能(英文)[J].纯粹数学与应用数学,2004,20(3):285-290. 被引量：3
10张帅,李涛,王艺峰,焦晓帆,杨愚鲁.细粒度任务并行GPU通用矩阵乘[J].计算机工程与科学,2015,37(5):847-856. 被引量：5

计算机系统应用

2016年第12期

浏览历史

内容加载中请稍等...

基于申威1600的3级BLAS GEMM函数优化被引量：12

参考文献5

二级参考文献72

共引文献28

同被引文献36

引证文献12

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于申威1600的3级BLAS GEMM函数优化 被引量：12

参考文献5

二级参考文献72

共引文献28

同被引文献36

引证文献12

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于申威1600的3级BLAS GEMM函数优化被引量：12