期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
矩阵乘协处理器上BLAS level-3运算的设计
1
作者 贾迅 钱磊 +2 位作者 原昊 张昆 吴东 《计算机工程与科学》 CSCD 北大核心 2020年第11期1913-1921,共9页
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩... BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level-3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。 展开更多
关键词 线性阵列 矩阵乘 协处理器 blas level-3
在线阅读 下载PDF
多核龙芯3A上二级BLAS库的优化 被引量:8
2
作者 李毅 何颂颂 李恺 《计算机系统应用》 2011年第1期163-167,共5页
针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右... 针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助。 展开更多
关键词 龙芯3A blas 优化 Gemv GER 访存 多线程
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:4
3
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 blas 3 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
Level-3多分支完井装置
4
《石油钻探技术》 CAS 2003年第2期59-59,共1页
关键词 完井 横向锚定 衬管 机械支撑 连接方式 level-3多分支完井装置 油气井
在线阅读 下载PDF
Implementation of Level-3 Autonomous Patient-Specific Quality Assurance with Automated Human Interactive Devices
5
作者 Jingqiao Zhang Yizhou Zhao +2 位作者 Jameson T. Baker Yijian Cao Jenghwa Chang 《International Journal of Medical Physics, Clinical Engineering and Radiation Oncology》 2023年第4期99-113,共15页
Purpose: Patient-specific quality assurance (PSQA) requires manual operation of different workstations, which is time-consuming and error-prone. Therefore, developing automated solutions to improve efficiency and accu... Purpose: Patient-specific quality assurance (PSQA) requires manual operation of different workstations, which is time-consuming and error-prone. Therefore, developing automated solutions to improve efficiency and accuracy is a priority. The purpose of this study was to develop a general software interface with scripting on a human interactive device (HID) for improving the efficiency and accuracy of manual quality assurance (QA) procedures. Methods: As an initial application, we aimed to automate our PSQA workflow that involves Varian Eclipse treatment planning system, Elekta MOSAIQ oncology information system and PTW Verisoft application. A general platform, the AutoFrame interface with two imbedded subsystems—the AutoFlow and the PyFlow, was developed with a scripting language for automating human operations of aforementioned systems. The interface included three functional modules: GUI module, UDF script interpreter and TCP/IP communication module. All workstations in the PSQA process were connected, and most manual operations were automated by AutoFrame sequentially or in parallel. Results: More than 20 PSQA tasks were performed both manually and using the developed AutoFrame interface. On average, 175 (±12) manual operations of the PSQA procedure were eliminated and performed by the automated process. The time to complete a PSQA task was 8.23 (±0.78) minutes for the automated workflow, in comparison to 13.91 (±3.01) minutes needed for manual operations. Conclusion: We have developed the AutoFrame interface framework that successfully automated our PSQA procedure, and significantly reduced the time, human (control/clicking/typing) errors, and operators’ stress. Future work will focus on improving the system’s flexibility and stability and extending its operations to other QA procedures. 展开更多
关键词 level-3 Automation Patient-Specific Quality Assurance Human Interactive Devices SCRIPTING
在线阅读 下载PDF
面向龙芯3B1500体系结构的DGEMM函数优化 被引量:3
6
作者 刘刚 张恒 +1 位作者 毛睿 陆克中 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1523-1527,共5页
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现... 双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上. 展开更多
关键词 龙芯3B1500处理器 blas DGEMM 矩阵乘法 数据预取
在线阅读 下载PDF
LAPACK线性方程求解函数在龙芯3A上的并行化 被引量:1
7
作者 刘斌斌 顾乃杰 +1 位作者 任开新 张杰 《小型微型计算机系统》 CSCD 北大核心 2014年第5期1085-1089,共5页
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多... 针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04. 展开更多
关键词 LAPACK blas 龙芯3A 多核
在线阅读 下载PDF
基于龙芯3A的LAPACK函数优化
8
作者 张斌 顾乃杰 +1 位作者 何颂颂 刘斌斌 《计算机系统应用》 2012年第11期63-67,共5页
针对龙芯3A体系结构,通过底层BLAS库的优化、LAPACK分块算法中分块大小的改善以及LAPACK函数的单独优化这三种途径来提升LAPACK函数的性能.用LAPACK自带的性能测试程序进行测试,实验结果表明,有240个LAPACK函数的性能提升达到30%以上,... 针对龙芯3A体系结构,通过底层BLAS库的优化、LAPACK分块算法中分块大小的改善以及LAPACK函数的单独优化这三种途径来提升LAPACK函数的性能.用LAPACK自带的性能测试程序进行测试,实验结果表明,有240个LAPACK函数的性能提升达到30%以上,占全部性能测试函数的81%. 展开更多
关键词 LAPACK blas 龙芯3A 优化 双单精度
在线阅读 下载PDF
BLU Factorization for Block Tridiagonal Matrices and Its Error Analysis
9
作者 Chi-Ye Wu 《Advances in Linear Algebra & Matrix Theory》 2012年第4期39-42,共4页
A block representation of the BLU factorization for block tridiagonal matrices is presented. Some properties on the factors obtained in the course of the factorization are studied. Simpler expressions for errors incur... A block representation of the BLU factorization for block tridiagonal matrices is presented. Some properties on the factors obtained in the course of the factorization are studied. Simpler expressions for errors incurred at the process of the factorization for block tridiagonal matrices are considered. 展开更多
关键词 BLOCK TRIDIAGONAL MATRICES BLU FACTORIZATION ERROR Analysis blas3
在线阅读 下载PDF
A High Performance Multifrontal Code for Linear Solution of Structures Using Multi-Core Microprocessors
10
作者 Efe Guney Kenneth Will 《Tsinghua Science and Technology》 SCIE EI CAS 2008年第S1期34-39,共6页
A multifrontal code is introduced for the efficient solution of the linear system of equations arising from the analysis of structures. The factorization phase is reduced into a series of interleaved element assembly ... A multifrontal code is introduced for the efficient solution of the linear system of equations arising from the analysis of structures. The factorization phase is reduced into a series of interleaved element assembly and dense matrix operations for which the BLAS3 kernels are used. A similar approach is generalized for the forward and back substitution phases for the efficient solution of structures having multiple load conditions. The program performs all assembly and solution steps in parallel. Examples are presented which demonstrate the code’s performance on single and dual core processor computers. 展开更多
关键词 multifrontal method Cholesky decomposition high performance computing finite element method multi-core programming blas3 parallel computing
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部