期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
1
作者
李庆
贾海鹏
+1 位作者
张云泉
张思佳
《计算机科学》
北大核心
2025年第4期291-300,共10页
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEM...
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEMV应用领域的不断扩大,GEMV的输入特征体现出多样化的趋势。在这种背景下,单纯靠一种优化方法,无法实现GEMV算法在GPU计算平台上所有输入情况下的高性能。因此,在访存优化、指令重排、并行规约、共享内存、线程排布等传统优化手段的基础上,提出了一种输入感知的性能自适应优化方法,其能够根据输入矩阵的不同规模和形状自动调整计算kernel的实现方式以达到最佳性能,显著提高了GEMV在Hygon DCU上的性能。实验结果表明,在Hygon DCU Z100SM上,输入感知的通用矩阵-向量乘算法的整体性能明显优于RocBLAS库中的相关算法,对于不同的矩阵输入规模,性能最大提升为RocBLAS库中对应算法的3.0203倍。
展开更多
关键词
通用矩阵-向量乘法
DCU
基础线性代数子程序函数库
自适应调优
性能优化
在线阅读
下载PDF
职称材料
并行计算通信库测试方法研究及实践
2
作者
熊玉庆
张云泉
《软件学报》
EI
CSCD
北大核心
2000年第12期1681-1684,共4页
并行计算通信库的测试在并行计算系统中起着重要的作用 .对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试 .但是有许多库中的错误用这种隔离测试方法测不出来 ,只有当库的多个部分以某种复杂的、...
并行计算通信库的测试在并行计算系统中起着重要的作用 .对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试 .但是有许多库中的错误用这种隔离测试方法测不出来 ,只有当库的多个部分以某种复杂的、有机的方式组合运行时才会暴露出来 .而这种复杂的、有机的组合方式 ,从设计库的测试角度看很难形成 .提出两种新的测试方法 ,根据通信库结构的分层特性 ,利用可移植的上层库的测试程序来测试下层库 .上层库的测试程序也可看做是下层库的应用程序 ,但与一般的下层库应用程序不同 ,它几乎覆盖了下层库的各个部分 ,且有机地将它们组合起来 ,运行时形成某种复杂的形态 ,而仅用下层库的测试程序往往达不到这种形态 .这样 。
展开更多
关键词
测试方法
并行计算通信库
并行计算系统
在线阅读
下载PDF
职称材料
基于申威1621的通用矩阵向量乘法的性能分析与优化
被引量:
2
3
作者
邓洁
赵荣彩
王磊
《计算机应用》
CSCD
北大核心
2022年第S01期215-220,共6页
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一...
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。
展开更多
关键词
申威1621
基础线性代数子程序函数库
单指令多数据流
通用矩阵向量乘法
性能优化
在线阅读
下载PDF
职称材料
题名
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
1
作者
李庆
贾海鹏
张云泉
张思佳
机构
大连海洋大学信息工程学院
中国科学院计算技术研究所
出处
《计算机科学》
北大核心
2025年第4期291-300,共10页
基金
国家重点研发计划(2023YFB3001701)
国家自然科学基金(62372432)。
文摘
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEMV应用领域的不断扩大,GEMV的输入特征体现出多样化的趋势。在这种背景下,单纯靠一种优化方法,无法实现GEMV算法在GPU计算平台上所有输入情况下的高性能。因此,在访存优化、指令重排、并行规约、共享内存、线程排布等传统优化手段的基础上,提出了一种输入感知的性能自适应优化方法,其能够根据输入矩阵的不同规模和形状自动调整计算kernel的实现方式以达到最佳性能,显著提高了GEMV在Hygon DCU上的性能。实验结果表明,在Hygon DCU Z100SM上,输入感知的通用矩阵-向量乘算法的整体性能明显优于RocBLAS库中的相关算法,对于不同的矩阵输入规模,性能最大提升为RocBLAS库中对应算法的3.0203倍。
关键词
通用矩阵-向量乘法
DCU
基础线性代数子程序函数库
自适应调优
性能优化
Keywords
Generalized matrix-vector multiplication
DCU
library of basic linear algebra subroutine functions
Adaptive tuning
Performance optimization
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
并行计算通信库测试方法研究及实践
2
作者
熊玉庆
张云泉
机构
中国科学院计算技术研究所
中国科学院软件研究所
出处
《软件学报》
EI
CSCD
北大核心
2000年第12期1681-1684,共4页
基金
国家863高科技项目基金资助项目!(863-306-ZD01-03-02)
文摘
并行计算通信库的测试在并行计算系统中起着重要的作用 .对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试 .但是有许多库中的错误用这种隔离测试方法测不出来 ,只有当库的多个部分以某种复杂的、有机的方式组合运行时才会暴露出来 .而这种复杂的、有机的组合方式 ,从设计库的测试角度看很难形成 .提出两种新的测试方法 ,根据通信库结构的分层特性 ,利用可移植的上层库的测试程序来测试下层库 .上层库的测试程序也可看做是下层库的应用程序 ,但与一般的下层库应用程序不同 ,它几乎覆盖了下层库的各个部分 ,且有机地将它们组合起来 ,运行时形成某种复杂的形态 ,而仅用下层库的测试程序往往达不到这种形态 .这样 。
关键词
测试方法
并行计算通信库
并行计算系统
Keywords
parallel computing
communication
library
, testing approach
MPI (message passing interface)
BLACS (
basic
linear
algebra
communication subprograms)
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
TP338.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于申威1621的通用矩阵向量乘法的性能分析与优化
被引量:
2
3
作者
邓洁
赵荣彩
王磊
机构
中原工学院前沿信息技术研究院
出处
《计算机应用》
CSCD
北大核心
2022年第S01期215-220,共6页
文摘
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。
关键词
申威1621
基础线性代数子程序函数库
单指令多数据流
通用矩阵向量乘法
性能优化
Keywords
Sunway1621
basic
linear
algebra
Subprograms(BLAS)
library
Single Instruction Multiple Data(SIMD)
General Matrix Vector(GEMV)multiplication
performance optimization
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
李庆
贾海鹏
张云泉
张思佳
《计算机科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
并行计算通信库测试方法研究及实践
熊玉庆
张云泉
《软件学报》
EI
CSCD
北大核心
2000
0
在线阅读
下载PDF
职称材料
3
基于申威1621的通用矩阵向量乘法的性能分析与优化
邓洁
赵荣彩
王磊
《计算机应用》
CSCD
北大核心
2022
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部