期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
面向SW26010-Pro众核处理器的新型矩阵存储格式及稀疏矩阵向量乘(SpMV)算法研究
1
作者 王萃 刘芳芳 +2 位作者 马文静 赵玉文 胡力娟 《计算机学报》 北大核心 2025年第6期1290-1304,共15页
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵... 稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵存储格式主要通过压缩零元素以减少访存,未充分利用非零元素的数值规律,因此仍有进一步压缩和优化的空间。本文通过对压缩稀疏行(Compressed Sparse Row,CSR)存储格式中非零元数组内的重复元素进行进一步的压缩,提出了一种新型的稀疏矩阵存储格式(Further Compressed Sparse Row,FCSR),并设计了从CSR到FCSR格式转换的异构并行算法,以尽量减少格式转换带来的开销。同时,本文面向SW26010-Pro众核处理器,设计了基于FCSR存储格式的SpMV异构并行算法,对SpMV进行了细粒度的任务划分和并行优化设计,探究了五种向量x的间接访存方式,并通过双缓冲技术对算法进行了优化。最后,本文选用SuiteSparse矩阵集中的稀疏矩阵进行了测试,实验结果表明,本文提出的基于FCSR存储格式的异构众核SpMV算法相较于主核版SpMV算法具有明显的性能提升,最高加速比达到43.11,平均加速比为7.56,测试矩阵最高带宽利用率达到了91.13%,平均带宽利用率为26.27%。另外,本文对基于FCSR存储格式和CSR存储格式的SpMV算法性能进行了比较,在两者均得到充分优化的前提下,基于FCSR存储格式的SpMV算法相较于基于CSR存储格式的SpMV算法性能的平均加速比达到1.19。 展开更多
关键词 稀疏矩阵向量乘 sw26010-pro众核处理器 新型矩阵存储格式 并行优化 双缓冲技术
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:4
2
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 sw26010-pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术 被引量:2
3
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 BLAS 1级 BLAS 2级 访存带宽 sw26010-pro众核处理器 RMA通信 点对点同步 自适应优化
在线阅读 下载PDF
面向SW26010P的异形矩阵乘法众核并行优化技术研究
4
作者 胡怡 陈道琨 杨超 《计算机工程与应用》 北大核心 2025年第6期150-163,共14页
矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010... 矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010P众核处理器,探讨异形矩阵乘法的众核并行优化技术。具体而言,结合SW26010P的硬件特性和异形矩阵的数据布局,设计了多样化任务划分映射的并行算法,提高直接内存访问(direct memory access,DMA)访存带宽利用率。结合SW26010P的硬件流水线和向量化访存/计算指令,抽象运算中涉及的计算类型进行底层汇编优化,提高了计算效率。提出了远程内存访问(remote memory access,RMA)点对点机制下的数据共享策略,降低数据访存和传输开销,并提出了嵌套双缓冲技术进一步提高异形矩阵乘法的性能。此外,针对不同种类异形矩阵乘法行实现时面临的分块参数适配问题,基于SW26010P众核处理器进行实验分析研究,确定了各函数并行化时的最优分块参数。实验结果显著,所优化的异形矩阵乘法的性能最高可达roofline模型预测性能上限的93%,相较于常规大规模矩阵乘法算法平均获得了5.43倍的性能加速,最高可获得51.5倍的性能加速。 展开更多
关键词 异形矩阵乘法 sw26010P众核处理器 多样化任务划分映射 RMA点对点机制 嵌套双缓冲技术
在线阅读 下载PDF
SW26010众核任务并行调度系统及其嵌套并行算法应用 被引量:5
5
作者 孙乔 黎雷生 +2 位作者 赵海涛 赵慧 吴长茂 《软件学报》 EI CSCD 北大核心 2021年第8期2352-2364,共13页
任务并行是并行程序设计的基础设计模式.但由于算法本身的复杂性及目标平台的特殊性,设计实现高效率的任务并行程序对程序员来说往往充满挑战.基于新兴的SW26010众核CPU,提出了支持任务嵌套并行模式的通用运行时框架SWAN.SWAN对任务并... 任务并行是并行程序设计的基础设计模式.但由于算法本身的复杂性及目标平台的特殊性,设计实现高效率的任务并行程序对程序员来说往往充满挑战.基于新兴的SW26010众核CPU,提出了支持任务嵌套并行模式的通用运行时框架SWAN.SWAN对任务并行程序的实现提供了高层次的抽象,使程序员能够专注于算法逻辑本身而提高开发效率.在性能方面,SWAN框架对诸多共享资源进行了细粒度的划分,从而有效地避免了众多线程间对共享资源的高强度争用.充分利用平台的高速访存机制、高速可控缓存和原子操作等特性,对SWAN框架的核心数据结构进行优化设计以降低其本身的性能开销.SWAN还具备动态负载均衡能力,使各个处理器核心的资源得以充分利用.基于SWAN框架,在目标平台上实现了若干典型的具有递归特性的嵌套并行算法,包括N-皇后问题、二叉树遍历、快速排序和凸包求解.实验结果表明,这些通过使用SWAN框架得以并行化的算法相对于其串行版本取得了4.5~32倍的加速,充分说明了SWAN框架具有较高的实用性及性能. 展开更多
关键词 任务并行框架 并行计算 嵌套并行算法 swAN sw26010众核CPU
在线阅读 下载PDF
面向SW26010处理器的三维Stencil自适应分块参数算法 被引量:3
6
作者 朱雨 庞建民 +2 位作者 徐金龙 陶小涵 王军 《计算机科学》 CSCD 北大核心 2021年第6期10-18,共9页
Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术。针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的问题,引入时间分块,提出了面向SW26010处理器的三维Stencil自... Stencil计算是科学应用中的一类重要计算,而分块是提升Stencil计算数据局部性的关键技术。针对现有三维Stencil优化在SW26010处理器上缺少时间分块以及分块参数需手工调优的问题,引入时间分块,提出了面向SW26010处理器的三维Stencil自适应分块参数算法。通过建立性能分析模型,结合硬件计算能力及存储容量等限制因素,文中系统地分析了分块参数对模型性能的影响,判断性能瓶颈,指导分块参数的优化方向。基于性能分析模型,自适应分块参数算法可给出预测性能最优时的分块参数,有利于三维Stencil在SW26010处理器上的快速优化部署。选取了三维7点和三维27点Stencil算例进行实验。与未使用时间分块的三维Stencil优化相比,以上两个算例在自适应选择的分块参数下可以达到1.47和1.29的加速比,且实际最优分块参数与理论最佳分块参数一致,这验证了所提性能分析模型及自适应分块参数算法的有效性。 展开更多
关键词 三维Stencil计算 sw26010 分块大小 性能分析模型
在线阅读 下载PDF
基于SW26010处理器的FT程序的性能优化 被引量:6
7
作者 陶小涵 庞建民 +2 位作者 高伟 王琦 姚金阳 《计算机科学》 CSCD 北大核心 2019年第4期321-328,共8页
"神威·太湖之光"是中国自主研发的超级计算机,其处理器芯片为国人自主研发的SW26010异构众核处理器,每个处理器内含有4个核组,每个核组包括1个主核和64个从核。NPB-FT程序的功能是利用快速傅立叶变换求解三维偏微分方程... "神威·太湖之光"是中国自主研发的超级计算机,其处理器芯片为国人自主研发的SW26010异构众核处理器,每个处理器内含有4个核组,每个核组包括1个主核和64个从核。NPB-FT程序的功能是利用快速傅立叶变换求解三维偏微分方程,其被广泛用于评测集群的计算和集合能力,因此选用FT程序对"神威·太湖之光"提供的多层次并行资源和体系架构的性能进行测试具有重要的意义。首先,利用加速线程库将程序改写为主从版本,使计算核心能够在从核上执行;其次,利用从核的寄存器通信以及主从核间的数据传输通道,消除FT程序中的数据转置过程;然后,实现了计算与通信隐藏,避免了核间通信时核内的计算资源处于空闲状态;最后,利用向量化和指令流水技术,提升程序的数据级并行和指令级并行。实验结果为:单核上3D-32规模的加速比为66,64核上3D-512规模的加速比为20,256核上3D-2048规模的加速比为46。 展开更多
关键词 傅立叶变换 sw26010处理器 寄存器通信 通信隐藏
在线阅读 下载PDF
SW26010处理器上的并行结构化稀疏三角方程组求解器 被引量:1
8
作者 陈道琨 刘芳芳 杨超 《软件学报》 EI CSCD 北大核心 2022年第12期4452-4463,共12页
稀疏三角线性方程组求解(Sp TRSV)在科学与工程计算领域是比较重要的核心计算函数,其中基于结构化网格构造的线性方程组是Sp TRSV求解器经常遇到的一类问题.在国产神威?太湖之光超级计算机所配备的SW26010处理器上,Sp TRSV求解器通常需... 稀疏三角线性方程组求解(Sp TRSV)在科学与工程计算领域是比较重要的核心计算函数,其中基于结构化网格构造的线性方程组是Sp TRSV求解器经常遇到的一类问题.在国产神威?太湖之光超级计算机所配备的SW26010处理器上,Sp TRSV求解器通常需要结合该平台的架构特点,通过搭建一定的数据路由体系来满足各工作线程对未知量数据的需求.面向与结构化网格相关的稀疏三角方程组问题,提出一套适用于SW26010处理器的并行求解器.该求解器在任务划分阶段将各线程的数据依赖模式限制在相对可控的范围之内,并在无数据路由的条件下解决线程的通信问题,不仅消除了数据路由带来的额外通信开销,而且适用的问题范围也不再受数据路由规则的制约.经测试,针对多种不同类型的结构化网格问题,提出的求解器框架的平均访存带宽利用率达88.2%,部分问题的访存带宽可达平台峰值带宽的94.5%(24.5 GB/s),整体性能相比现有工作有较为明显的提高. 展开更多
关键词 稀疏三角线性方程求解(Sp TRSV) 结构化网格 sw26010处理器 异构计算
在线阅读 下载PDF
面向国产异构众核处理器SW26010的BFS优化方法
9
作者 袁欣辉 林蓉芬 +2 位作者 魏迪 尹万旺 徐金秀 《计算机科学》 CSCD 北大核心 2020年第8期98-104,共7页
近年来,人们越来越关注计算机对数据密集型课题的处理能力。宽度优先搜索(Breadth First Search,BFS)是一种典型的数据密集型课题,被广泛应用于多种图算法。Graph 500 Benchmark以BFS搜索为核心算法,已经成为评价计算机处理大数据能力... 近年来,人们越来越关注计算机对数据密集型课题的处理能力。宽度优先搜索(Breadth First Search,BFS)是一种典型的数据密集型课题,被广泛应用于多种图算法。Graph 500 Benchmark以BFS搜索为核心算法,已经成为评价计算机处理大数据能力的基准。神威太湖之光超级计算机从2016年6月至2017年11月连续4次荣登Top 500榜单榜首,其处理器SW26010是首款由我国自主研制的异构众核处理器。文中研究了如何利用SW26010的体系结构特点加速BFS算法的问题,在SW26010上实现了基于单个核组的方向优化的融合BFS算法,使用字节图(bytemap)释放内层循环依赖性,利用异步DMA隐藏计算与便签存储器的访问开销,利用异构架构协同运算并对图做预处理。最终,以Graph 500作为基准测试程序处理scale为22的图,SW26010处理器单核组BFS的性能达到457.54MTEPS。 展开更多
关键词 sw26010 神威太湖之光 Graph 500 数据密集 异构众核 宽度优先搜索
在线阅读 下载PDF
Silicon-Crystal应用在SW26010处理器上的移植与优化 被引量:4
10
作者 朱文强 傅游 +2 位作者 梁建国 郭强 花嵘 《小型微型计算机系统》 CSCD 北大核心 2021年第6期1313-1320,共8页
Silicon-Crystal应用运用分子动力学方法对晶体热传导性进行模拟,采用Tersoff势模拟硅晶体的运动轨迹.本文利用神威Athread在神威太湖之光上成功移植了Silicon-Crystal应用,针对SW26010异构众核处理器带来的内存受限问题,提出5种主要优... Silicon-Crystal应用运用分子动力学方法对晶体热传导性进行模拟,采用Tersoff势模拟硅晶体的运动轨迹.本文利用神威Athread在神威太湖之光上成功移植了Silicon-Crystal应用,针对SW26010异构众核处理器带来的内存受限问题,提出5种主要优化方式:1)将计算所需参数预取到LDM(Local Data Memory);2)通过DMA(Direct Memory Access)方式对中心原子数据进行传输;3)合理设计软件cache,利用软件cache实现邻居原子数据的读取;4)在从核定制超越函数,避免从核访问超越函数时的离散访存;5)利用寄存器通信实现从核间任务分步流水优化.经过优化,单核组较主核串行取得了12.89倍的加速,较Intel Xeon E5-2620 v4处理器取得了8.7倍的加速.本文还对Silicon-Crystal应用进行了可扩展性测试及分析,实验结果证明Silicon-Crystal应用在神威太湖之光平台上具有良好的可扩展性. 展开更多
关键词 sw26010 Silicon-Crystal应用 Athread 移植 优化
在线阅读 下载PDF
基于SW26010处理器的PANDAS众核并行优化方法及在地质变形分析中的应用
11
作者 王雪纯 邢会林 +2 位作者 戴黎明 郭志伟 刘骏标 《山东科技大学学报(自然科学版)》 CAS 北大核心 2023年第6期11-18,共8页
有限元数值模拟是目前研究地质体变形分析的重要方法,方程组求解对模拟结果的时效性和精确度有重要影响。针对并行自适应非线性变形分析软件(PANDAS)模拟千万级大规模模型时方程组求解耗时长和收敛速度慢的问题,本研究基于SW26010处理... 有限元数值模拟是目前研究地质体变形分析的重要方法,方程组求解对模拟结果的时效性和精确度有重要影响。针对并行自适应非线性变形分析软件(PANDAS)模拟千万级大规模模型时方程组求解耗时长和收敛速度慢的问题,本研究基于SW26010处理器主从核异构架构和并行计算技术实现PANDAS众核并行优化。首先,通过区域分解实现大规模地质模型分解,降低单主核计算的数据量,然后利用矩阵压缩存储技术有效节省存储资源。最后,利用SW26010处理器的从核阵列优化迭代求解算法加速方程组求解过程。全地球模型的速度场模拟结果表明本研究提出的方法具有可行性,多孔介质模型压缩模拟的速度较CPU单核串行程序提升8.1倍,断层系统变形模拟的速度提升7.6倍。 展开更多
关键词 sw26010处理器 PANDAS 并行计算 变形分析 数值模拟
在线阅读 下载PDF
xMath2.0:a high‑performance extended math library for SW26010‑Pro many‑core processor
12
作者 Fangfang Liu Wenjing Ma +11 位作者 Yuwen Zhao Daokun Chen Yi Hu Qinglin Lu WanWang Yin Xinhui Yuan Lijuan Jiang Hao Yan Min Li Hongsen Wang Xinyu Wang Chao Yang 《CCF Transactions on High Performance Computing》 2023年第1期56-71,共16页
High performance extended math library is used by many scientific engineering and artificial intelligence applications,which usually involves many common mathematical computations and the most time-consuming functions... High performance extended math library is used by many scientific engineering and artificial intelligence applications,which usually involves many common mathematical computations and the most time-consuming functions.In order to take full advantage of the high performance processors,these functions need to be parallelized and optimized intensively.It is common for processor vendors to supply highly optimized commercial math library.For example,Intel maintains oneMKL,and NVIDIA has cuBLAS,cuSolver,and cuFFT.In this paper,we release a new-generation high-performance extended math library,xMath 2.0,specifically designed for the SW26010-Pro many-core processor,which includes four major modules:BLAS,LAPACK,FFT,and SPARSE.Each module is optimized for the domestic SW26010-Pro processor,leveraging parallelization on the many-core CPE mesh and optimization techniques such as assembly instruction rearrangement and computation-communication overlapping.In xMath2.0,the BLAS module has an average performance increase of 146.02 times over the MPE version of GotoBLAS2,and the performance of BLAS level 3 functions has increased by 393.95 times.The LAPACK module(calling xMath BLAS)is 233.44 times better than LAPACK(calling GotoBLAS2).And the FFT module is 47.63 times faster than FFTW3.3.2.The library has been deployed on the domestic Sunway TaihuLight Pro supercomputer,which have been used by dozens of users. 展开更多
关键词 Extended Math Library sw26010-pro Sunway TaihuLight Pro BLAS LAPACK FFT SPARSE Many-Core Processors
在线阅读 下载PDF
面向国产高性能众核处理器的编程模型 被引量:1
13
作者 陈虎 周鹏灵 《计算机应用》 CSCD 北大核心 2023年第11期3517-3526,共10页
在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一... 在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制;另一方面基于单指令多数据流(SIMD)编程模型开发从核上的数据级并行性。首先,对国产高性能众核处理器体系结构进行抽象;其次,设计模型的消息队列机制,并为程序员提供一套异构并行编程接口,如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口;最后,在上述基础上形成全新的高性能计算软件开发模型和方法,方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明,在国产众核处理器上,当启动核数较少时,所提模型的传输带宽普遍达到了峰值直接内存访问(DMA)带宽的90%;当启动的核数较多时,消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中,与系统原语传输矩阵并计算的性能相比,所提模型的性能达到前者的90%;在口令猜测系统中,所提模型的代码性能与直接使用最底层的接口开发的代码性能基本持平。所提通用编程模型和支撑框架使高性能计算(HPC)软件开发更简易,并且具有更好的可移植性,可为促进国产自主HPC软件研发提供帮助。 展开更多
关键词 国产众核处理器 单指令多数据流 并行编程模型 sw26010 消息队列模型
在线阅读 下载PDF
基于神威平台的Floyd并行算法的实现和优化 被引量:6
14
作者 何亚茹 庞建民 +2 位作者 徐金龙 朱雨 陶小涵 《计算机科学》 CSCD 北大核心 2021年第6期34-40,共7页
求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现实问题提供有效帮助。针对Floyd算法与国产自主研发处理器匹... 求解全源最短路径的Floyd算法是许多实际应用基础上的关键构建块,由于其时间复杂度较高,串行Floyd算法不适用于大规模输入图计算,针对不同平台的并行Floyd算法设计可为解决现实问题提供有效帮助。针对Floyd算法与国产自主研发处理器匹配滞后的问题,首次提出基于神威平台的Floyd并行算法的实现和优化。根据SW26010处理器主-从核架构的特点,采用主从加速编程模型进行并行实现,并分析了影响该算法性能的关键因素,通过算法优化、数组划分和双缓冲技术进行优化,逐步提升算法性能。测试结果表明,与主核上串行算法相比,基于神威平台的Floyd并行算法在单个SW26010处理器上可以获得106倍的最高加速。 展开更多
关键词 sw26010 FLOYD算法 并行计算 数组划分
在线阅读 下载PDF
基于申威众核处理器的HOG特征提取算法并行加速 被引量:5
15
作者 赵美婷 刘轶 +2 位作者 刘锐 宋凯达 钱德沛 《计算机工程与科学》 CSCD 北大核心 2017年第4期611-618,共8页
HOG特征是一种简单高效的常用来进行物体检测的特征描述子,广泛应用于行人检测等领域,然而在处理海量图片时却面临着严峻的性能挑战。解决方法之一就是通过使用"神威太湖之光"超级计算机的处理器节点对海量图像背景下的行人... HOG特征是一种简单高效的常用来进行物体检测的特征描述子,广泛应用于行人检测等领域,然而在处理海量图片时却面临着严峻的性能挑战。解决方法之一就是通过使用"神威太湖之光"超级计算机的处理器节点对海量图像背景下的行人检测算法进行加速。主要采用了两种并行方案:一种是一个处理器同时处理4张图片,另一种是同时处理256张图片。大量的串行和并行处理的实验测试结果表明,对高分辨率多幅图像的并行处理可采用第一种方案,加速比可达83倍;对低分辨率图像可采用第二种方案,加速比最高可达到95。两种并行设计方案在"神威太湖之光"的多处理器节点上具有很好的可扩展性能。 展开更多
关键词 HOG特征提取 神威太湖之光 申威sw26010 并行实现
在线阅读 下载PDF
神威太湖之光加速计算在脑神经网络模拟中的应用 被引量:8
16
作者 栗学磊 朱效民 +1 位作者 魏彦杰 冯圣中 《计算机学报》 EI CSCD 北大核心 2020年第6期1024-1036,共13页
脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多... 脑神经网络模拟是脑科学研究和理论验证的重要方法.为提高脑模拟速度,异构加速已开始应用于脑模拟.然而现有异构加速脑模拟软件均存在明显的访存性能和计算精度问题.为此,本文基于神威太湖之光研发了脑模拟软件SWsnn,确保了随机访存多发生在高速缓存中.为避免主存访问的随机性,将频繁出现随机访存且数据量较小的神经元信息长时间停留在局部存储(LDM),同时将数据量很大的突触连接数据存储在主存,且尽可能连续访问主存.为避免可塑性导致的对突触连接的随机搜索,对脉冲时间依赖可塑性(STDP)算法采用需要前再更新的方法,以确保主存访问的连续性.为了提高脑模拟精度,设计环形缓冲和延迟传送联合应用方法,以支持高精度时间步长的脑模拟.在此基础上,对SWsnn进行向量化、访存隐藏等优化操作,计算性能进一步提高约50%.SWsnn对104神经元全连接网络实现了生物实时模拟,比同等规模浮点计算能力GPU上运行的CARLsim快10倍左右. 展开更多
关键词 脉冲神经网络(SNN) 脑模拟 sw26010 随机访存 环形缓冲 神威太湖之光
在线阅读 下载PDF
面向超大规模并行模拟的LBM计算流体力学软件 被引量:5
17
作者 吕小敬 刘钊 +3 位作者 褚学森 石树鹏 孟虹松 黄震春 《计算机科学》 CSCD 北大核心 2020年第4期13-17,共5页
格子玻尔兹曼方法(Lattice Boltzmann Method,LBM)是一种基于介观模拟尺度的计算流体力学方法,已被广泛用于理论研究和工程领域。提高LBM计算流体软件的并行模拟能力,是高性能计算及应用研究中的一项重要内容。该研究基于“神威·... 格子玻尔兹曼方法(Lattice Boltzmann Method,LBM)是一种基于介观模拟尺度的计算流体力学方法,已被广泛用于理论研究和工程领域。提高LBM计算流体软件的并行模拟能力,是高性能计算及应用研究中的一项重要内容。该研究基于“神威·太湖之光”超级计算系统,设计并实现了一套高效扩展的LBM计算流体力学软件。针对国产众核处理器SW26010的架构,文中设计了以下几种提高SWLBM方针速度和可扩展性的多级并行技术,包括面向19点stencil的数据复用、碰撞过程向量化、主从异步并行通信计算隐藏等。基于以上并行优化方案,文中测试了高达56000亿网格的数值模拟,SWLBM软件持续浮点计算性能达到4.7 PFlops,软件模拟速度提高了172倍。相比百万核心10000*10000*5000网格风场模拟,SWLBM整机千万核心的并行效率可达87%。测试结果表明,SWLBM有能力为工业应用提供实用的大规模并行模拟解决方案。 展开更多
关键词 格子玻尔兹曼方法 sw26010 多级并行 并行优化
在线阅读 下载PDF
面向国产神威众核架构的区域气候模式CWRF性能优化技术 被引量:4
18
作者 吕小敬 刘钊 +1 位作者 蔡蕙伊 李锦薇 《电子技术应用》 2022年第1期31-38,共8页
区域气候模式CWRF(Climate-Weather Research and Forecasting model)是国家气候中心区域气候预测系统的重要组成部分,也是系统最耗时的程序。高性能计算是提高CWRF数值预报计算性能的关键技术,开展CWRF模式在国产神威众核架构上的移植... 区域气候模式CWRF(Climate-Weather Research and Forecasting model)是国家气候中心区域气候预测系统的重要组成部分,也是系统最耗时的程序。高性能计算是提高CWRF数值预报计算性能的关键技术,开展CWRF模式在国产神威众核架构上的移植和优化,提高模式的模拟效率,对模式的扩展、开发能力和可持续发展具有重要意义。基于国产众核SW26010处理器,完成了CWRF区域气候模式的移植、性能分析和深入性能优化,采用访存优化、Cache命中率优化及众核加速优化等方法,对CWRF模式动力过程、物理过程和I/O过程计算代码进行重构及众核加速。结果表明:优化技术可使CWRF动力过程平均加速2倍,最高加速6.4倍,物理过程平均加速1.7倍,最高加速5.4倍,I/O过程加速1.2倍,程序整体最高加速1.4倍,计算误差在合理范围内。 展开更多
关键词 CWRF 高性能计算 神威 sw26010
在线阅读 下载PDF
一种面向异构众核处理器的并行编译框架 被引量:9
19
作者 李雁冰 赵荣彩 +3 位作者 韩林 赵捷 徐金龙 李颖颖 《软件学报》 EI CSCD 北大核心 2019年第4期981-1001,共21页
异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主... 异构众核处理器是面向高性能计算领域处理器发展的重要趋势,但其更为复杂的体系结构使得编程难的问题更加突出.针对这一问题,基于开源编译器Open64,提出了一种面向异构众核处理器的并行编译框架,将程序自动转换为异构并行程序.该框架主要包括4个模块:任务划分模块用来识别适合进行加速计算的程序段,实现了嵌套循环的多维并行识别方法;数据布局模块完成数据在主存和SPM之间的布局,实现了数组边界分析和指针范围分析;传输优化模块实现了数据传输合并、传输外提、打包传输、数组转置等多种数据传输优化方法;收益评估模块在构建代价模型的基础上实现了一种动静结合的收益评估方法.并且,基于SW26010处理器,对该编译框架进行了实现,测试结果表明,该编译框架能够实现一些程序以面向异构众核结构的并行变换,且获得较好的加速效果. 展开更多
关键词 异构众核处理器 sw26010 并行编译 数据传输优化 OpenACC
在线阅读 下载PDF
神威·太湖之光上排列熵算法异构并行加速 被引量:4
20
作者 周倩 梁建国 傅游 《计算机工程与设计》 北大核心 2023年第2期400-406,共7页
为增加检测突变信号的时效性,提高各种故障检测系统的效率,提出在“神威·太湖之光”上基于两级并行模式改进的排列熵(PE)算法。在节点间采用MPI(信息传递接口)并行编程模型,通过对等模式轮询调度方式解决多文件负载不均衡问题;在... 为增加检测突变信号的时效性,提高各种故障检测系统的效率,提出在“神威·太湖之光”上基于两级并行模式改进的排列熵(PE)算法。在节点间采用MPI(信息传递接口)并行编程模型,通过对等模式轮询调度方式解决多文件负载不均衡问题;在核组内采用Athread(加速线程库)并行编程模型,通过相空间构建重构矩阵,实现从核级数据划分;采用双缓冲技术实现从核计算与访存的重叠,减少主从通信时间;利用DMA通信和重组传输数据的方法,减少主从通信次数。使用15个LDK UER204滚动轴承全寿命周期实验数据进行测试,结果表明,单核组性能较主核版本最高可获得11.86倍加速,128核组最高实现123.73倍的性能提升。 展开更多
关键词 sw26010处理器 信息传递接口(MPI) 加速线程库(Athread) 负载均衡 双缓冲
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部