六边形区域快速傅里叶变换的CUDA-MPI算法及其实现被引量：4

A CUDA-MPI ALGORITHM FOR THE FAST FOURIER TRANSFORM ON THE HEXAGON AND ITS IMPLEMENTATION

导出

摘要本文研究六边形区域上快速傅里叶变换（FFTH）的CUDA—MPI算法及其实现．首先，我们通过充分利用CUDA的层次化并行机制及其库函数，设计了FFTH的高效率的CUDA算法．对于规模为3X2048。的双精度复数类型数据，我们设计的CUDA程序与CPU串行程序相比可以达到12倍加速比，如果不计内存和显存之间的数据传输，则加速比可达40倍；其计算效率与CUFFT所提供的二维方形区域FFT程序的效率基本一致．在此基础上，我们通过研究GPU上分布式并行数据的转置与排序算法，优化设计了FFTH的CUDA-MPI算法．在3×8192^2的数据规模、10节点X6GPU的计算环境下，我们的CUDA-MPI程序与CPU串行程序相比达到了55倍的加速；其效率比MPI并行版FFTW以及基于CUFFT本地计算和FFTW并行转置的方形区域并行FFT的效率都要高出很多．FFTH的CUDA-MPI算法研究和测试为大规模CPU＋GPU异构计算机系统的可扩展新型算法的探索提供了参考． In this paper, we study the parallel algorithm based on CUDA and MPI for the Fast Fourier Transform on the hexagon （FFTH） and its implementation. Firstly, we design a CU- DA FFTH algorithm by utilizing the hierachica! parallelization mechanism and the build-in CUFFT library for classic rectangular FFTs. With respect to the serial cpu program, our CUDA program achieves 12x speedup for 3 × 2048^2 double-precision complex-to-complex FFTH. If we ignore the PCI between main memory and GPU device memory, around 30x- 40x speedup can be even achieved. Although the non-tensorial FFTH is much more complicated than the rectangular FFT, our CUDA FFTH program gains the same efficiency as the rectangular CUFFT. Next, efforts are mainly contributed to optimization techniques for parallel array transposition and data sorting, which significantly improve the efficiency of the CUDA-MPI FFTH algorithm. On a 10-node cluster with 60 GPUs, our CUDA-MPI program achieves about 55x speedup with respect to the the serial cpu program for 3 × 8192^2 complex-to-complex double-precision FFTH, and it is more efficient than the MPI parallel FFTW. Our research on the CUDA-MPI algorithm for FFTH is beneficial to the exploration and development of new parallel algorithms on large-scale CPU-GPU heterogeneous computer systems.

作者陈家杰李会元张先轶

机构地区中国科学院软件研究所并行软件与计算科学实验室中国科学院研究生院

出处《数值计算与计算机应用》 CSCD 2012年第1期59-72,共14页 Journal on Numerical Methods and Computer Applications

基金国家自然科学基金(10971212 91130014)资助项目

关键词六边形区域快速傅里叶变换 CUDA-MPI算法并行排序 Fast Fourier Transform on the hexagon （FFTH） CUDA-MPI algorithm parallel sorting

分类号 O174.22 [理学—基础数学]

引文网络
相关文献

参考文献3

1孙家昶,姚继锋.平行六边形区域上的快速离散傅立叶变换[J].计算数学,2004,26(3):351-366. 被引量：10
2Jiachang Sun(Parallel Computing Division, Institute of Software, Chinese Academy of Sciences, Beijing 100080, China).MULTIVARIATE FOURIER SERIES OVER A CLASS OF NON TENSOR-PRODUCT PARTITION DOMAINS[J].Journal of Computational Mathematics,2003,21(1):53-62. 被引量：25
3许彦芹,陈庆奎.基于SMP集群的MPI+CUDA模型的研究与实现[J].计算机工程与设计,2010,31(15):3408-3412. 被引量：10

二级参考文献12

1陈勇,陈国良,李春生,何家华.SMP机群混合编程模型研究[J].小型微型计算机系统,2004,25(10):1763-1767. 被引量：19
2张锦雄.矩阵相乘并行算法的MPI实现[J].广西科学院学报,2004,20(4):217-219. 被引量：3
3赵永华,迟学斌.基于SMP集群的MPI+OpenMP混合编程模型及有效实现[J].微电子学与计算机,2005,22(10):7-11. 被引量：33
4NVIDIA CUDA compute unified device architecture:programming guide[Z].Version2.Obeta2,2008.
5Message Passing Interface Forum.MPI-2:Extensions to the message-passing interface[S].1997.
6向文,刘青昆,于方,郑晓薇.基于LAM-MPI和OpenMP的机群编程环境配置与应用[J].大连民族学院学报,2007,9(5):41-44. 被引量：3
7刘伟峰,杨权一,曹邦功,孟凡密,周洁.基于GPU的高度并行Marching Cubes改进算法[J].微电子学与计算机,2008,25(9):151-154. 被引量：4
8钱悦.图形处理器CUDA编程模型的应用研究[J].计算机与数字工程,2008,36(12):177-180. 被引量：26
9王惠春,朱定局,曹学年,樊建平.基于SMP集群的混合并行编程模型研究[J].计算机工程,2009,35(3):271-273. 被引量：15
10Jia-chang Sun. (Parallel Computing Division, Institute of Software, Chinese Academy of Sciences, Beijing 100080, China).ORTHOGONAL PIECE-WISE POLYNOMIALS BASIS ON AN ARBITRARY TRIANGULAR DOMAIN AND ITS APPLICATIONS[J].Journal of Computational Mathematics,2001,19(1):55-66. 被引量：9

共引文献36

1SUN JiaChang.A new class of three-variable orthogonal polynomials and their recurrences relations[J].Science China Mathematics,2008,51(6):1071-1092.
2Jia-changSun.ON APPROXIMATION OF LAPLACIAN EIGENPROBLEM OVER A REGULAR HEXAGON WITH ZERO BOUNDARY CONDITIONS[J].Journal of Computational Mathematics,2004,22(2):275-286.
3孙家昶,姚继锋.平行六边形区域上的快速离散傅立叶变换[J].计算数学,2004,26(3):351-366. 被引量：10
4姚继锋,孙家昶.平行十二面体区域上的快速离散傅立叶变换及其并行实现[J].数值计算与计算机应用,2004,25(4):303-314. 被引量：6
5李强,梁学章.平行六边形上的周期正交小波[J].吉林大学学报（理学版）,2005,43(2):142-148. 被引量：1
6杨超,孙家昶.一类六边形网格上拉普拉斯4点差分格式及其预条件子[J].计算数学,2005,27(4):437-448. 被引量：2
7Jiachang Sun.MULTIVARIATE FOURIER TRANSFORM METHODS OVER SIMPLEX AND SUPER-SIMPLEX DOMAINS[J].Journal of Computational Mathematics,2006,24(3):305-322. 被引量：5
8Chao Yang Jiachang Sun.EDGE-ORIENTED HEXAGONAL ELEMENTS[J].Journal of Computational Mathematics,2007,25(4):430-439.
9左大海,常安定,马良.按频率抽取的基-2FFT算法的矩阵形式[J].纺织高校基础科学学报,2007,20(2):137-142. 被引量：1
10杨超,孙家昶.平面三向交错网格上Cauchy-Riemann方程的数值离散及快速解法[J].数值计算与计算机应用,2008,29(1):25-38.

同被引文献34

1孙家昶,姚继锋.平行六边形区域上的快速离散傅立叶变换[J].计算数学,2004,26(3):351-366. 被引量：10
2Jiachang Sun.MULTIVARIATE FOURIER TRANSFORM METHODS OVER SIMPLEX AND SUPER-SIMPLEX DOMAINS[J].Journal of Computational Mathematics,2006,24(3):305-322. 被引量：5
3Canuto C, Hussaini Y, Quarteroni A, Zang T A. Spectral Methods: Fundamentals in Single Domains [M].Berlin: Springer-Verlag, 2006.
4Bernardi C, Maday Y. Spectral methods [M]// Ciarlet P G, Lions J L. Handbook of Numerical Analysis. Amsterdam: Elsevier, 1997: 209-486.
5Canuto C, Hussaini M Y, Quarteroni A, Zang T A. Spectral Methods in Fluid Dynamics [M]. Berlin: Springer-Verlag, 1988.
6Guo B Y. Spectral Methods and Their Applications [M].Singapore: World Scientific, 1998.
7Gottlieb D, Orszag S A. Numerical Analysis of Spectral Methods [M]. Philadephia: Society for Industrial and Applied Mathematics, 1977.
8Karniadakis G, Sherwin S J. Spectral/hp Element Methods for Computational Fluid Dynamics [M]. 2ed ed. Oxford: Oxford University Press, 2005.
9Canuto C, Hussaini M Y, Quarteroni A, Zang T A. Spectral Methods: Evolution to Complex Geometries and Applications to Fluid Dynamics [M]. Berlin: Springer-Verlag, 2007.
10Shen J, Tang T, Wang L L. Spectral Methods: Algorithms, Analysis and Applications [M]. Berlin: Springer-Verlag, 2011.

引证文献4

1李会元,乔海军.六边形Fourier谱方法[J].应用数学与计算数学学报,2013,27(1):147-162. 被引量：3
2乔海军,李会元.二维各向同性湍流直接数值模拟的六边形谱方法及GPU实现和优化[J].数值计算与计算机应用,2013,34(2):147-160. 被引量：1
3任晓波.六边形稀疏网格上的FFT算法[J].计算机系统应用,2016,25(1):1-8.
4刘欢,刘志勤,李凌,张蕾.一种基于CUDA平台的随机数算法研究与实现[J].计算机应用研究,2017,34(9):2727-2731. 被引量：3

二级引证文献7

1乔海军,李会元.二维各向同性湍流直接数值模拟的六边形谱方法及GPU实现和优化[J].数值计算与计算机应用,2013,34(2):147-160. 被引量：1
2任晓波.六边形稀疏网格上的FFT算法[J].计算机系统应用,2016,25(1):1-8.
3秦泽聪,方乐.一种改进的均匀各向同性湍流初始化方法[J].力学学报,2016,48(6):1319-1325. 被引量：1
4王超,张秋艳,张姗,王龙.基于LFSR具有并行与串行结果一致的随机数生成算法[J].信息技术与网络安全,2018,37(10):15-18. 被引量：1
5任衍青,逯志宇,王大鸣.基于GPU加速遗传算法的直接定位研究[J].计算机应用研究,2019,36(4):1084-1087.
6刘硕,朱希安,王占刚,厉夫兵.三维灰体辐射传递系数蒙特卡罗的GPU计算[J].计算机应用研究,2019,36(11):3357-3360. 被引量：1
7陈文兴,田小娟,王磊磊,薛鹏翔.Fourier谱方法求解二维波动方程及动态仿真多列波的干涉现象[J].中国科技论文,2018,13(24):2834-2843. 被引量：3

1王璐,梁涛,王文义.FFT算法的并行化性能分析[J].中原工学院学报,2010,21(5):30-32. 被引量：1
2SQL Anywhere 11中文版[J].微电脑世界,2009(1):116-116.
3方志红.基于BWDSP100的高性能FFT实现[J].雷达科学与技术,2016,14(5):487-492. 被引量：2
4贺杰,韩洪木.机群环境下傅立叶变换的并行算法研究[J].微计算机信息,2011,27(7):241-243.
5周涛.“三大中心”网络设计与实现[J].农业发展与金融,2009(12):27-29.
6苑野,伞晓娇.云计算与网格计算比较研究[J].哈尔滨商业大学学报（自然科学版）,2012,28(2):222-227. 被引量：3
7邓培智.CUDA编程模型[J].程序员,2008(5):84-85. 被引量：3
8杨云生,张朝晖.基于计算统一设备架构的程序优化研究[J].信息技术,2011(12):51-54.
9兰丽.一种新型膜计算方法在并行排序中的应用[J].兰州交通大学学报,2011,30(4):29-32.
10郑江.PC—1500袖珍计算机用FFT程序[J].上海计量测试,1989,16(1):24-29.

数值计算与计算机应用

2012年第1期

浏览历史

内容加载中请稍等...

六边形区域快速傅里叶变换的CUDA-MPI算法及其实现被引量：4

参考文献3

二级参考文献12

共引文献36

同被引文献34

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

六边形区域快速傅里叶变换的CUDA-MPI算法及其实现 被引量：4

参考文献3

二级参考文献12

共引文献36

同被引文献34

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

六边形区域快速傅里叶变换的CUDA-MPI算法及其实现被引量：4