期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
BHDC:准对角阵高效SpMV的分块混合存储格式
1
作者 徐悦竹 赵泽煊 +1 位作者 邰宇浩 王宇华 《计算机应用与软件》 北大核心 2026年第2期118-126,共9页
利用科学计算解决工程领域的实际问题往往可以转化为大型线性方程组的求解,在这一过程中最常调用的步骤就是稀疏矩阵向量乘。对于工程中常见的稀疏准对角矩阵,提出结合DIA和CSR两种方式优点的分块混合存储方式BHDC,将原矩阵分成若干行段... 利用科学计算解决工程领域的实际问题往往可以转化为大型线性方程组的求解,在这一过程中最常调用的步骤就是稀疏矩阵向量乘。对于工程中常见的稀疏准对角矩阵,提出结合DIA和CSR两种方式优点的分块混合存储方式BHDC,将原矩阵分成若干行段,根据阈值将对角稠密区域和散点分别存储,既利用DIA存储方式下良好的浮点运算性能,又通过CSR存储方式避免对角线急剧增加而降低性能。在CUDA平台上选取若干稀疏矩阵进行测试,获得了优于上述两种存储方式的时空性能和优于不分块混合方式HDC的时间性能。 展开更多
关键词 准对角矩阵 稀疏矩阵向量乘 分块存储 CUDA
在线阅读 下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 被引量:14
2
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 spmv 申威26010处理器 异构众核并行 自适应优化
在线阅读 下载PDF
对角线稀疏矩阵的SpMV自适应性能优化 被引量:6
3
作者 孙相征 张云泉 +2 位作者 王婷 李焱 袁良 《计算机研究与发展》 EI CSCD 北大核心 2013年第3期648-656,共9页
稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区... 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X). 展开更多
关键词 CRSD 自适应性能优化spmv 对角线格式 对角线稀疏矩阵 GPU 科学应用
在线阅读 下载PDF
SparseMode:用于高效SpMV向量化代码生成的稀疏编译框架
4
作者 王昊天 丁岩 +2 位作者 何贤浩 肖国庆 阳王东 《计算机研究与发展》 北大核心 2025年第6期1443-1454,共12页
稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是数值计算中的核心操作,广泛应用于科学计算、工程模拟以及机器学习中.SpMV的性能优化主要受限于不规则的稀疏模式,传统的优化通常依赖手动设计存储格式、计算策略和内存... 稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是数值计算中的核心操作,广泛应用于科学计算、工程模拟以及机器学习中.SpMV的性能优化主要受限于不规则的稀疏模式,传统的优化通常依赖手动设计存储格式、计算策略和内存访问模式.现有张量编译器如TACO和TVM通过领域特定语言(domain specific language,DSL)可实现高性能算子生成,减轻开发人员繁琐的手动优化工作,但对稀疏计算的优化支持尚显不足,难以根据不同的稀疏模式自适应优化性能.为了解决这些问题,提出了名为SparseMode的稀疏编译框架,能够依据矩阵的稀疏模式为SpMV计算生成高效的向量化代码,并根据硬件平台的特性自适应地调整优化策略.该编译框架首先设计了领域专属语言SpMV-DSL,能够简洁高效地表达SpMV的稀疏矩阵和计算操作.然后提出了基于稀疏模式感知的方法,根据SpMV-DSL定义的矩阵存储格式和非零元素分布动态选择计算策略.最后通过稀疏模式分析和调度优化生成高效并行的SpMV算子代码,以充分利用SIMD指令提升性能.在不同硬件平台上的SpMV实验结果表明,SparseMode生成的SpMV算子代码相较于现有的TACO和TVM张量编译器实现了最高2.44倍的加速比. 展开更多
关键词 稀疏矩阵向量乘法 编译器 稀疏模式 高性能计算 向量化
在线阅读 下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:2
5
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(spmv) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
在线阅读 下载PDF
DRM:基于迭代归并策略的GPU并行SpMV存储格式 被引量:1
6
作者 王宇华 何俊飞 +2 位作者 张宇琪 徐悦竹 崔环宇 《计算机工程与科学》 CSCD 北大核心 2024年第3期381-394,共14页
稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在... 稀疏矩阵向量乘(SpMV)在线性系统的求解问题中具有重要意义,是科学计算和工程实践中的核心问题之一,其性能高度依赖于稀疏矩阵的非零分布。稀疏对角矩阵是一类特殊的稀疏矩阵,其非零元素按照对角线的形式密集排列。针对稀疏对角矩阵,在GPU平台上提出的多种存储格式虽然使SpMV性能有所提升,但仍存在零填充和负载不平衡的问题。针对上述问题,提出了一种DRM存储格式,利用基于固定阈值的矩阵划分策略和基于迭代归并的矩阵重构策略,实现了少量零填充和块间负载平衡。实验结果表明,在NVIDIA■ Tesla■ V100平台上,相比于DIA、HDC、HDIA和DIA-Adaptive格式,在时间性能方面,该存储格式分别取得了20.76,1.94,1.13和2.26倍加速;在浮点计算性能方面,分别提高了1.54,5.28,1.13和1.94倍。 展开更多
关键词 GPU spmv 稀疏对角矩阵 零填充 负载平衡
在线阅读 下载PDF
RAM(h)模型下SpMV存储访问复杂度的分析
7
作者 袁娥 张云泉 孙相征 《计算机工程与设计》 CSCD 北大核心 2009年第3期613-618,共6页
稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h... 稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致。 展开更多
关键词 spmv 稀疏矩阵向量乘 RAM(h)模型 存储访问复杂度
在线阅读 下载PDF
SpMV计算的ARM和FPGA异构加速器设计
8
作者 朱明达 薛济擎 艾纯瑶 《电讯技术》 北大核心 2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格... 针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。 展开更多
关键词 稀疏矩阵向量乘(spmv) 异构加速器 硬件加速
在线阅读 下载PDF
面向异构计算平台的SpMV划分优化算法研究 被引量:3
9
作者 谈兆年 计卫星 +3 位作者 Akrem Benatia 高建花 李安民 王一拙 《计算机工程与科学》 CSCD 北大核心 2019年第4期590-597,共8页
稀疏矩阵向量乘SpMV在科学计算和工程问题中有着广泛的应用。稀疏矩阵的非零元素分布会极大地影响SpMV的计算效率,针对不同的数据分布模式使用特定算法进行加速可以获得显著的性能提升。CPU的控制能力强,适用于通用计算,而GPU的计算核心... 稀疏矩阵向量乘SpMV在科学计算和工程问题中有着广泛的应用。稀疏矩阵的非零元素分布会极大地影响SpMV的计算效率,针对不同的数据分布模式使用特定算法进行加速可以获得显著的性能提升。CPU的控制能力强,适用于通用计算,而GPU的计算核心多,并行度高,适用于数据密集型计算。根据CPU和GPU的不同特点,充分发挥二者的优势,可以使SpMV获得更大的性能提升。研究CPU-GPU混合架构上SpMV的任务划分与优化方法,针对2种主要的稀疏矩阵数据分布模式:Quasi-diagonal和Tetris,提出了一种基于SVR的任务二次分配算法。研究的2种稀疏矩阵模式具有很好的代表性,在实际科学工程应用中占比达到66%。实验评测结果表明,采用本文的算法之后,与GPU相比,异构平台上Quasi-diagonal和Tetris的加速比平均值分别达到1.74×和2.15×。 展开更多
关键词 异构计算 矩阵划分 协同优化 SVR spmv
在线阅读 下载PDF
基于HYB格式SpMV在新一代申威架构上的实现与优化 被引量:1
10
作者 王鑫 彭健 《计算机工程与科学》 CSCD 北大核心 2023年第10期1754-1762,共9页
稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的... 稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的HYB存储格式,面向国产新一代申威异构众核处理器SW26010P,设计了一种并行SpMV算法及其性能优化方案。并针对HYB存储格式的阈值选取难点,提出了一种多次迭代最大类间方差的方法,以确定HYB格式的阈值。实验结果表明,相比主核上的串行算法,并行SpMV算法可以获得23.36的平均加速比和34.85的最高加速比。 展开更多
关键词 申威众核处理器 稀疏矩阵向量乘法 最大类间方差法 并行计算
在线阅读 下载PDF
PELLR: A Permutated ELLPACK-R Format for SpMV on GPUs
11
作者 Zhiqi Wang Tongxiang Gu 《Journal of Computer and Communications》 2020年第4期44-58,共15页
The sparse matrix vector multiplication (SpMV) is inevitable in almost all kinds of scientific computation, such as iterative methods for solving linear systems and eigenvalue problems. With the emergence and developm... The sparse matrix vector multiplication (SpMV) is inevitable in almost all kinds of scientific computation, such as iterative methods for solving linear systems and eigenvalue problems. With the emergence and development of Graphics Processing Units (GPUs), high efficient formats for SpMV should be constructed. The performance of SpMV is mainly determinted by the storage format for sparse matrix. Based on the idea of JAD format, this paper improved the ELLPACK-R format, reduced the waiting time between different threads in a warp, and the speed up achieved about 1.5 in our experimental results. Compared with other formats, such as CSR, ELL, BiELL and so on, our format performance of SpMV is optimal over 70 percent of the test matrix. We proposed a method based on parameters to analyze the performance impact on different formats. In addition, a formula was constructed to count the computation and the number of iterations. 展开更多
关键词 spmv GPU STORAGE FORMAT HIGH PERFORMANCE
在线阅读 下载PDF
HVMS:基于混合向量化的SpMV优化机制 被引量:2
12
作者 颜志远 解壁伟 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期2969-2984,共16页
在科学计算和系统工程等领域,稀疏矩阵向量乘(sparse matrix-vector multiplication,SpMV)占据着极其重要的位置.受限于矩阵稀疏性所导致的访存不规则性,向量优化一直是SpMV的难点.针对此问题,进行深入分析并且总结影响SpMV向量化效率... 在科学计算和系统工程等领域,稀疏矩阵向量乘(sparse matrix-vector multiplication,SpMV)占据着极其重要的位置.受限于矩阵稀疏性所导致的访存不规则性,向量优化一直是SpMV的难点.针对此问题,进行深入分析并且总结影响SpMV向量化效率的主要因素.除却稀疏矩阵内非零元分布的不规则,不同稀疏矩阵之间的非零元分布特征亦有明显不同,导致单一的向量优化策略难以适用于多种不同特征的稀疏矩阵.另一方面,多样化向量硬件在向量特性和指令上的差异,影响了SpMV向量优化方法的通用性.把不规则的稀疏矩阵映射到规则的向量硬件上进行计算,是SpMV向量化面临的最主要挑战.基于此,提出一种基于混合向量化方法的SpMV优化机制(hybrid vectorization-optimized mechanism of SpMV,HVMS).HVMS首先对向量硬件的特性进行抽象建模,并基于抽象出的基本操作,设计相应的规则指导稀疏矩阵进行规则化转换.按照不同的矩阵特征,HVMS将稀疏矩阵划分为不同的部分,弱化稀疏矩阵的不规则程度,并引入不同的优化策略最大化SpMV的向量化效率,从而提升性能.基于Intel Xeon平台,在30个常用稀疏矩阵上对HVMS进行实验分析.结果表明,相比现有代表性工作如CVR,SELL-C-σ,Intel MKL,HVMS分别获得1.60倍、1.72倍和1.93倍的平均加速比. 展开更多
关键词 稀疏矩阵向量乘 向量优化 稀疏矩阵 SIMD 多核系统
在线阅读 下载PDF
Accelerating TSA via SpMV-based GPU parallelization in the industrial chain context
13
作者 De Dong Shurui Dai +3 位作者 Nurbol Luktarhan Yicheng Xu Guanyu Lin Jiaxuan Yin 《CCF Transactions on High Performance Computing》 2026年第2期210-220,共11页
As modern industrial chains become increasingly complex and time-sensitive,traditional transportation planning methods encounter efficiency bottlenecks.To address this,we propose a parallelization approach based on Sp... As modern industrial chains become increasingly complex and time-sensitive,traditional transportation planning methods encounter efficiency bottlenecks.To address this,we propose a parallelization approach based on Sparse Matrix-Vector Multiplication(SpMV)to accelerate the Transportation Simplex Algorithm(TSA)for large-scale transportation problems.Existing methods primarily exploit data parallelism but underutilize GPU computational resources.To overcome the key challenge of breadth-first search(BFS)traversal with node dependencies in the MODI algorithm,we reformulate sequential operations as SpMV computations to enhance parallelism.Branching logic in potential vector computation and closed-loop search is unified through matrix formulations to eliminate divergence,and device-side loops are introduced to accelerate single iteration steps.Experiments on a 5000×10000 dataset demonstrate a 19×speedup for the parallel MODI algorithm and a 20×overall speedup for solving the transportation problem.Furthermore,the parallel TSA outperforms a commercial LP solver by 1.3×to 1.4×on large-scale instances. 展开更多
关键词 spmv Parallelization GPU acceleration Graph traversal Device-side
在线阅读 下载PDF
Mixed precision SpMV on GPUs for irregular data with hierarchical precision selection
14
作者 Jianfei Xu Lianhua He Zhong Jin 《CCF Transactions on High Performance Computing》 2025年第2期129-141,共13页
Sparse matrix-vector multiplication(SpMV)is one of the key kernels extensively employed in both industrial and scientific applications,with its computation and random access incurring a lot of overhead.To capitalize o... Sparse matrix-vector multiplication(SpMV)is one of the key kernels extensively employed in both industrial and scientific applications,with its computation and random access incurring a lot of overhead.To capitalize on higher compute rates and data movement efficiency,there have been efforts to utilize mixed precision SpMV.However,most existing techniques focus on single-grained precision selection for all matrices.In this work,we concentrate on hierarchical precision selection strategies tailored for irregular matrices,driven by the need to achieve optimal load balancing among thread groups executing on GPUs.Based on the concept of strong connection,we firstly introduce a novel adaptive row-grained precision selection strategy that surpasses existing strategy within multi-precision Jacobi methods.Secondly,our experiments have uncovered a range within which converting double-precision floating-point numbers to single-precision floating-point numbers incurs a loss smaller than the machine precision FLT_EPSILON.This range is used for element-grained precision selection.Subsequently,we propose a hierarchical precision selection compressed sparse row format(CSR)storage method and enhance the CSR-Vector kernel,achieving higher relative speedups and load balancing on a benchmark suite composed of 41 matrices compared to existing methods.Finally,we integrate the mixed precision SpMV into the generalized minimal residual method(GMRES)algorithm,achieving faster execution speeds while maintaining similar convergence accuracy as double-precision GMRES. 展开更多
关键词 spmv Mixed precision GPU CUDA
在线阅读 下载PDF
Correction:Accelerating TSA via SpMV-based GPU parallelization in the industrial chain context
15
作者 De Dong Shurui Dai +3 位作者 Nurbol Luktarhan Yicheng Xu Guanyu Lin Jiaxuan Yin 《CCF Transactions on High Performance Computing》 2026年第2期237-237,共1页
In this article the author De Dong was incorrectly flagged as a corresponding author.The correct corresponding author of this article is Nurbol Luktarhan.The Original Article has been corrected.Publisher’s note Sprin... In this article the author De Dong was incorrectly flagged as a corresponding author.The correct corresponding author of this article is Nurbol Luktarhan.The Original Article has been corrected.Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations. 展开更多
关键词 nurbol luktarhanthe tsa spmv based accelerating parallelization gpu industrial chain context corresponding author
在线阅读 下载PDF
pSpMv:precision‑based sparse matrix partition and SpMV optimization
16
作者 Jie Liu Yizhuo Wang +1 位作者 Jianhua Gao Weixing Ji 《CCF Transactions on High Performance Computing》 2024年第6期549-565,共17页
The new generation of computing devices tends to support multiple floating-point formats and different computing precision.Besides single and double precision,half precision is embraced and widely supported by new com... The new generation of computing devices tends to support multiple floating-point formats and different computing precision.Besides single and double precision,half precision is embraced and widely supported by new computing devices.Lowprecision representations have compact memory size and lightweight computing strength,and they also bring opportunities to the optimization of BLAS routines.This paper proposes a new sparse matrix partition approach based on IEEE 754 standard floating-point format.An input sparse matrix in double precision is partitioned and transformed into several sub-matrices in different precision without loss of accuracy.Most non-zero elements can be stored in half or single precision,if the most significant bits of exponent and the least significant bits of mantissa are zeros in double-precision representation.Based on this mixed-precision representation of sparse matrix,we also present a new SpMV algorithm pSpMV for GPU devices.pSpMV not only reduces the memory access overhead,but also reduces the computing strength of floating-point numbers.Experimental results on two GPU devices show that pSpMV achieves a geometric mean speedup of 1.39x on Tesla V100 and 1.45x on Tesla P100 over double-precision SpMV for 2,554 sparse matrices. 展开更多
关键词 Mixed precision Sparse matrix partition spmv GPU
在线阅读 下载PDF
面向GPU的稀疏对角矩阵自适应SpMV优化方法
17
作者 王宇华 何俊飞 +2 位作者 张宇琪 兰海燕 曹林琳 《计算机工程》 2026年第3期332-345,共14页
稀疏矩阵向量乘(SpMV)是稀疏线性系统的计算核心和瓶颈,其运算效率会影响迭代求解器的整体性能,其优化研究一直是科学计算和工程应用领域中的研究热点之一。偏微分方程的离散化会产生稀疏对角矩阵,由于其多样的非零元分布,导致没有一种... 稀疏矩阵向量乘(SpMV)是稀疏线性系统的计算核心和瓶颈,其运算效率会影响迭代求解器的整体性能,其优化研究一直是科学计算和工程应用领域中的研究热点之一。偏微分方程的离散化会产生稀疏对角矩阵,由于其多样的非零元分布,导致没有一种方法能够在所有矩阵中取得最优时间性能。针对上述问题,提出一种面向图形处理单元(GPU)的稀疏对角矩阵自适应SpMV优化方法AST(Adaptive SpMV Tuning)。该方法通过设计特征空间,构建特征提取器,提取矩阵结构精细特征,通过深入分析特征和SpMV方法的相关性,建立可扩展的候选方法集合,形成特征和最优方法的映射关系,构建性能预测工具,实现矩阵最优方法的高效预测。实验结果表明,AST能够取得85.8%的预测准确率,平均时间性能损失为0.09,相比于DIA(Diagonal)、HDIA(Hacked DIA)、HDC(Hybrid of DIA and Compressed Sparse Row)、DIA-Adaptive和DRM(Divide-Rearrange and Merge),能够获得平均20.19、1.86、3.06、3.72和1.53倍的内核运行时间加速和1.05、1.28、12.45、1.94和0.97倍的浮点运算性能加速。 展开更多
关键词 稀疏矩阵向量乘 稀疏对角矩阵 图形处理单元 自适应优化方法 矩阵结构特征
在线阅读 下载PDF
面向稀疏矩阵向量乘法的GPU性能建模和算法优化
18
作者 马澄宇 李锁兰 +3 位作者 刘一诺 赵文哲 任鹏举 夏天 《集成电路与嵌入式系统》 2026年第1期5-11,共7页
针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别... 针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别采用线程级和线程块级并行策略进行计算,从而有效缓解GPU SIMT执行特性与稀疏矩阵非规则数据分布之间的矛盾。为量化预处理过程中引入的额外开销,分别建立了针对Atomic Conflict和Padding的性能损失模型,将额外的访存和计算转换为可计算的开销函数。基于上述模型,构建了参数空间搜索算法,通过预先获取硬件性能指标和矩阵非零元分布信息,快速在参数集合中搜索得到最优预处理参数。实验结果表明,该优化算法在多种典型稀疏矩阵数据集上均优于传统的GPU稀疏计算库cuSPARSE,在部分场景下性能提升达1.26倍及1.17倍。此外,参数搜索开销较低,且该方法具备良好的通用性,可适配不同的输入矩阵与GPU硬件架构。 展开更多
关键词 GPU性能建模 并行算法优化 稀疏矩阵 spmv
在线阅读 下载PDF
一种提高SpMV向量化性能的新型稀疏矩阵存储格式 被引量:4
19
作者 刘芳芳 杨超 《数值计算与计算机应用》 CSCD 2014年第4期269-276,共8页
稀疏矩阵向量乘(SpMV)是科学与工程计算中一个重要的核心函数,但在当前基于存储器层次结构的计算平台上,传统CSR(Compressed Sparse Row)存储的稀疏矩阵向量乘性能较低,运行效率往往远低于硬件浮点峰值的10%.目前现有的处理器架构一般... 稀疏矩阵向量乘(SpMV)是科学与工程计算中一个重要的核心函数,但在当前基于存储器层次结构的计算平台上,传统CSR(Compressed Sparse Row)存储的稀疏矩阵向量乘性能较低,运行效率往往远低于硬件浮点峰值的10%.目前现有的处理器架构一般都采用SIMD向量化技术进行加速,但是传统CSR格式的稀疏矩阵向量乘由于访存的不规则性,不能直接采用向量化技术进行加速,为了利用SIMD技术,对具有局部性特征的稀疏矩阵,提出了新的稀疏矩阵存储格式CSRL(Compressed Sparse Row with Local information),该格式可以减少SpMV时内存访问次数,并且能够充分利用硬件的SIMD向量化技术进行读取和计算,提高了SpMV性能.实验表明,该方法相比国际著名商业库Intel MKL10.3版平均性能提升达到29.5%,最高可达89%的性能提升. 展开更多
关键词 稀疏矩阵 稀疏矩阵向量乘 向量化 局部性 CSRL
原文传递
swDaCe:一种申威众核处理器上以数据为中心的并行编程模型设计与实现
20
作者 沈沛祺 陈俊仕 安虹 《小型微型计算机系统》 北大核心 2026年第3期751-759,共9页
高性能科学计算是超级计算机的核心应用领域,包括粒子模拟、气候分析等关键任务.然而,随着摩尔定律逐渐失效,超级计算机体系结构日益趋向异构和复杂,导致科学计算应用的开发和优化变得更加困难.为解决这一问题,本文基于新一代申威超级... 高性能科学计算是超级计算机的核心应用领域,包括粒子模拟、气候分析等关键任务.然而,随着摩尔定律逐渐失效,超级计算机体系结构日益趋向异构和复杂,导致科学计算应用的开发和优化变得更加困难.为解决这一问题,本文基于新一代申威超级计算平台,提出并实现了一种以数据为中心的并行编程模型——swDaCe.该模型通过解耦数据流图优化与原始程序,使得编程人员可以使用Python描述计算逻辑,并最终生成适配申威众核架构的高性能C++代码.此外,本文提出了一系列针对申威架构的数据流优化方法,包括从核任务映射、向量化并行以及DMA访存优化,以充分利用申威众核处理器的计算能力.实验结果表明,swDaCe生成的代码在稀疏矩阵计算等典型应用中实现了显著的性能提升,单核组加速比达到25倍以上,验证了该框架在申威架构上的有效性. 展开更多
关键词 新一代神威平台 异构众核处理器 数据流编程 并行计算 稀疏矩阵乘
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部