期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
国产神威环境下Athread代码生成工具的设计与开发 被引量:2
1
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 众核处理器 神威·太湖之光 高性能计算
在线阅读 下载PDF
swCUDA:Auto parallel code translation framework from CUDA to ATHREAD for new generation sunway supercomputer
2
作者 Maoxue Yu Guanghao Ma +6 位作者 Zhuoya Wang Shuai Tang Yuhu Chen Yucheng Wang Yuanyuan Liu Dongning Jia Zhiqiang Wei 《CCF Transactions on High Performance Computing》 2024年第4期439-458,共20页
Since specific hardware characteristics and low-level programming model are adapted to both NVIDIA GPU and new generation Sunway architecture,automatically translating mature CUDA kernels to Sunway ATHREAD kernels are... Since specific hardware characteristics and low-level programming model are adapted to both NVIDIA GPU and new generation Sunway architecture,automatically translating mature CUDA kernels to Sunway ATHREAD kernels are realistic but challenging work.To address this issue,swCUDA,an auto parallel code translation framework is proposed.To that end,we create scale affine translation to transform CUDA thread hierarchy to Sunway index,directive based memory hierarchy and data redirection optimization to assign optimal memory usage and data stride strategy,directive based grouping-calculationasynchronous-reduction(GCAR)algorithm to provide general solution for random access issue.swCUDA utilizes code generator ANTLR as compiler frontend to parse CUDA kernel and integrate novel algorithms in the node of abstracted syntax tree(AST)depending on directives.Automatically translation is performed on the entire Polybench suite and NBody simulation benchmark.We get an average 40x speedup compared with baseline on the Sunway architecture,average speedup of 15x compared to x86 CPU and average 27 percentage higher than NVIDIA GPU.Further,swCUDA is implemented to translate major kernels of the real world application Gromacs.The translated version achieves up to 17x speedup. 展开更多
关键词 Code translation CUDA athread Sunway architecture
在线阅读 下载PDF
基于申威众核处理器的混合并行遗传算法 被引量:3
3
作者 赵瑞祥 郑凯 +4 位作者 刘垚 王肃 刘艳 沈焕学 周谦豪 《计算机应用》 CSCD 北大核心 2017年第9期2518-2523,共6页
传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法(HBPGA),并在目前TOP500上排名第一的超级... 传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法(HBPGA),并在目前TOP500上排名第一的超级计算机神威"太湖之光"平台上实现。该算法模型采用两级并行架构,结合了MPI和Athread两种编程模型,与传统在单核或者一级并行构架的多核集群上实现的遗传算法相比,在申威众核处理器上实现了二级并行,并得到了更好的性能和更高的加速比。实验中,当从核数为16×64时,最大加速比达到544,从核加速比超过31。 展开更多
关键词 混合并行遗传算法 神威"太湖之光" 众核 MPI athread
在线阅读 下载PDF
基于神威超算平台的三维方柱绕流大规模并行数值计算与分析 被引量:2
4
作者 张亚英 吴乘胜 +1 位作者 王建春 顾寒锋 《船舶力学》 EI CSCD 北大核心 2022年第9期1255-1267,共13页
异构众核已成为超级计算机架构的发展趋势,而如何有效利用异构超算系统的能力,是当前CFD界面临的一项重大挑战。本文基于神威异构超算平台,采用自主开发代码,开展三维非定常不可压流动的大规模并行数值模拟研究。论文的数值计算采用MPI+... 异构众核已成为超级计算机架构的发展趋势,而如何有效利用异构超算系统的能力,是当前CFD界面临的一项重大挑战。本文基于神威异构超算平台,采用自主开发代码,开展三维非定常不可压流动的大规模并行数值模拟研究。论文的数值计算采用MPI+Athread多级并行方式,其中在Athread众核并行时,针对神威众核处理器的特点,采用循环融合的方式对SIMPLE算法求解流程进行优化,提升加速效果。首先以Re=10的三维方柱准定常绕流为例,开展并行计算测试,包括MPI并行和MPI+Athread多级并行,结果显示2025万网格125进程MPI并行效率为70%以上,Athread众核并行加速7.9倍。随后,针对Re=250的三维方柱非定常绕流,开展网格数量从384万到2.46亿的大规模并行计算,结果与相关文献符合良好,同时表明网格数量增加能够更好地捕捉流场细节。本文的研究工作展现了神威异构超算平台在非定常不可压缩流动CFD大规模并行计算方面的应用能力。 展开更多
关键词 异构超算平台 三维方柱绕流 数值模拟 SIMPLE算法 MPI+athread并行计算
在线阅读 下载PDF
Silicon-Crystal应用在SW26010处理器上的移植与优化 被引量:4
5
作者 朱文强 傅游 +2 位作者 梁建国 郭强 花嵘 《小型微型计算机系统》 CSCD 北大核心 2021年第6期1313-1320,共8页
Silicon-Crystal应用运用分子动力学方法对晶体热传导性进行模拟,采用Tersoff势模拟硅晶体的运动轨迹.本文利用神威Athread在神威太湖之光上成功移植了Silicon-Crystal应用,针对SW26010异构众核处理器带来的内存受限问题,提出5种主要优... Silicon-Crystal应用运用分子动力学方法对晶体热传导性进行模拟,采用Tersoff势模拟硅晶体的运动轨迹.本文利用神威Athread在神威太湖之光上成功移植了Silicon-Crystal应用,针对SW26010异构众核处理器带来的内存受限问题,提出5种主要优化方式:1)将计算所需参数预取到LDM(Local Data Memory);2)通过DMA(Direct Memory Access)方式对中心原子数据进行传输;3)合理设计软件cache,利用软件cache实现邻居原子数据的读取;4)在从核定制超越函数,避免从核访问超越函数时的离散访存;5)利用寄存器通信实现从核间任务分步流水优化.经过优化,单核组较主核串行取得了12.89倍的加速,较Intel Xeon E5-2620 v4处理器取得了8.7倍的加速.本文还对Silicon-Crystal应用进行了可扩展性测试及分析,实验结果证明Silicon-Crystal应用在神威太湖之光平台上具有良好的可扩展性. 展开更多
关键词 SW26010 Silicon-Crystal应用 athread 移植 优化
在线阅读 下载PDF
神威·太湖之光上排列熵算法异构并行加速 被引量:4
6
作者 周倩 梁建国 傅游 《计算机工程与设计》 北大核心 2023年第2期400-406,共7页
为增加检测突变信号的时效性,提高各种故障检测系统的效率,提出在“神威·太湖之光”上基于两级并行模式改进的排列熵(PE)算法。在节点间采用MPI(信息传递接口)并行编程模型,通过对等模式轮询调度方式解决多文件负载不均衡问题;在... 为增加检测突变信号的时效性,提高各种故障检测系统的效率,提出在“神威·太湖之光”上基于两级并行模式改进的排列熵(PE)算法。在节点间采用MPI(信息传递接口)并行编程模型,通过对等模式轮询调度方式解决多文件负载不均衡问题;在核组内采用Athread(加速线程库)并行编程模型,通过相空间构建重构矩阵,实现从核级数据划分;采用双缓冲技术实现从核计算与访存的重叠,减少主从通信时间;利用DMA通信和重组传输数据的方法,减少主从通信次数。使用15个LDK UER204滚动轴承全寿命周期实验数据进行测试,结果表明,单核组性能较主核版本最高可获得11.86倍加速,128核组最高实现123.73倍的性能提升。 展开更多
关键词 SW26010处理器 信息传递接口(MPI) 加速线程库(athread) 负载均衡 双缓冲
在线阅读 下载PDF
SOM算法在申威众核上的实现和优化
7
作者 姚庆 郑凯 +3 位作者 刘垚 王肃 孙军 徐梦轩 《计算机科学》 CSCD 北大核心 2018年第B11期591-596,共6页
自组织神经网络(SOM)是一种被广泛使用的经典机器学习算法,但在处理复杂数据时其执行时间将急剧延长。并行化是解决这个问题的有效途径。基于目前TOP500上排名第一的"神威·太湖之光"超算平台,从模型并行和数据并行的角... 自组织神经网络(SOM)是一种被广泛使用的经典机器学习算法,但在处理复杂数据时其执行时间将急剧延长。并行化是解决这个问题的有效途径。基于目前TOP500上排名第一的"神威·太湖之光"超算平台,从模型并行和数据并行的角度出发,设计了SOM在申威众核处理器上的单核组和多核组的并行。一方面,通过程序重构将主要计算步骤转换为矩阵运算并利用高性能扩展数学库实现向量计算的并行化;另一方面,针对超算硬件的特性使用多种优化手段进行进一步的性能优化,使算法的性能得到了极大的提升。实验中,当使用64个核组时,所提算法的总加速比超过10000倍,同时最高可达900多倍的从核加速比也证明了所提算法有效发挥了申威核组中众核的能力。 展开更多
关键词 自组织神经网络 神威太湖之光 并行计算 MPI athread
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部