期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
扩展有限元刚度矩阵的CSR存储实现
被引量:
2
1
作者
刘尧喜
唐进元
+2 位作者
周炜
何玉辉
余洋
《机械强度》
CAS
CSCD
北大核心
2019年第6期1384-1390,共7页
扩展有限元方法(XFEM)是处理裂纹、孔洞、夹杂等不连续问题中应用最为广泛的数值方法之一。XFEM基于单位分解方法,在标准有限元方法的位移近似函数中引入附加函数项来反映位移场的间断特性和奇异特性。附加函数项的引入,导致XFEM单元刚...
扩展有限元方法(XFEM)是处理裂纹、孔洞、夹杂等不连续问题中应用最为广泛的数值方法之一。XFEM基于单位分解方法,在标准有限元方法的位移近似函数中引入附加函数项来反映位移场的间断特性和奇异特性。附加函数项的引入,导致XFEM单元刚度矩阵大小不定,标准有限元方法的总体刚度矩阵的组集方法不能直接使用于扩展有限元方法中。本文提出一种基于‘广义相邻节点对’的非零元素存储方案,该方案通过使用“广义相邻节点对”和总体刚度矩阵中非零元素的位置一一对应的关系,配合大型稀疏矩阵的CSR存储格式(Compressed Sparse Row format:行压缩存储格式),直接从单元刚度矩阵组集形成压缩存储的总体刚度矩阵。该方案较好的解决了扩展有限元总体刚度矩阵的压缩存储和组集问题,详细阐述该方案的实现过程,将此方案成功实现于Fortran语言自主开发的扩展有限元程序中,并对程序的准确性进行了验证。
展开更多
关键词
扩展有限元法
总体刚度矩阵
csr
存储
刚度矩阵组集
在线阅读
下载PDF
职称材料
TEB:GPU上矩阵分解重构的高效SpMV存储格式
被引量:
2
2
作者
王宇华
张宇琪
+2 位作者
何俊飞
徐悦竹
崔环宇
《计算机科学与探索》
CSCD
北大核心
2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的...
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。
展开更多
关键词
稀疏矩阵向量乘法(SpMV)
重新排序
csr
格式
负载均衡
存储格式
图形处理器(GPU)
在线阅读
下载PDF
职称材料
基于便笺式存储器的向量化SpMV算法的性能评估与分析
3
作者
张宗茂
董德尊
+3 位作者
王子聪
常俊胜
张晓云
王绍聪
《计算机工程与科学》
CSCD
北大核心
2024年第9期1521-1528,共8页
便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算...
便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效,从而影响SpMV算法执行效率。为了评估便笺式存储器对SpMV向量算法的性能影响,使用ARM SVE指令对基于CSR格式的SpMV算法向量化,并将算法中的热点数据即稠密输入向量存储在便笺式存储器中,在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析。在gem5模拟器中针对来自真实应用程序的2562个稀疏矩阵进行了实验。实验结果表明,集成了便笺式存储器的处理器与传统多级Cache处理器相比,针对向量化SpMV算法能够实现的最大加速比为7.45,平均加速比为1.11。
展开更多
关键词
稀疏矩阵向量乘
便笺式存储器
csr
ARM
SVE
在线阅读
下载PDF
职称材料
稀疏存储的显式有限元三角网格地震波数值模拟及其PML吸收边界条件
被引量:
33
4
作者
刘有山
滕吉文
+1 位作者
刘少林
徐涛
《地球物理学报》
SCIE
EI
CAS
CSCD
北大核心
2013年第9期3085-3099,共15页
有限元法是复杂介质地震模拟的有力工具,它能比较客观地反映地震波的传播,比较细致地再现地震图像.但是,为了获得较精确的结果,有限元法模拟地震波的传播需要的网格点数多,具有计算量大和消耗内存多的缺点.针对上述缺点,本文对刚度矩阵...
有限元法是复杂介质地震模拟的有力工具,它能比较客观地反映地震波的传播,比较细致地再现地震图像.但是,为了获得较精确的结果,有限元法模拟地震波的传播需要的网格点数多,具有计算量大和消耗内存多的缺点.针对上述缺点,本文对刚度矩阵采用压缩存储行(CSR)格式,以减少计算量并节省内存;采用集中质量矩阵得到对角的质量矩阵以提高有限元法(显式有限元)的计算效率;时间离散采用保能量的Newmark算法以提高有限元法的计算精度;采用变分形式(弱形式)的PML吸收边界条件对人工截断边界进行处理.通过与高精度的数值方法——谱元法的数值试验的对比表明,上述方法的引入可使有限元法在计算精度和计算效率方面均可取得比较显著的改进.为了获得相当的计算精度,相比于7阶谱元法,显式有限元法需要更精细的网格.然而,显式有限元法的计算速度比前者快近2倍,而内存需求仅为谱元法的1/4~1/6.
展开更多
关键词
显式有限元法
压缩存储行(
csr
)格式
集中质量矩阵
Newmark算法
PML吸收边界条件
谱元法
在线阅读
下载PDF
职称材料
三角网格谱元法地震波场数值模拟
被引量:
18
5
作者
刘有山
滕吉文
+3 位作者
徐涛
刘少林
司芗
马学英
《地球物理学进展》
CSCD
北大核心
2014年第4期1715-1726,共12页
谱元法结合了有限元法的灵活性和谱方法的指数收敛性,高效且高精度,是近年来发展的一种重要的地震波场数值模拟方法.经典的谱元法采用四边形(六面体)网格,利用一维Gauss-Legendre-Lobatto(GLL)积分的张量积得到对角的质量矩阵,以大大提...
谱元法结合了有限元法的灵活性和谱方法的指数收敛性,高效且高精度,是近年来发展的一种重要的地震波场数值模拟方法.经典的谱元法采用四边形(六面体)网格,利用一维Gauss-Legendre-Lobatto(GLL)积分的张量积得到对角的质量矩阵,以大大提高计算效率,但是四边形(六面体)网格不能够灵活地刻画复杂的几何模型的弯曲界面.为此,在谱元法中引入三角形(四面体)网格到二维(三维)是十分必要的.不同于经典的谱元法,在非结构化网格中不能使用GLL积分的张量积,使得非结构化网格的谱元法的实现存在着诸多的困难.目前,比较流行的三角网格谱元法,通过使用KoornwinderDubiner(KD)正交多项式,并正交化这些KD多项式构建基函数,同时利用重合的插值节点和积分节点以获取对角的质量矩阵;它所使用的积分点为优化的点集——Fekete点,且这些积分点能与四边形网格完全耦合.相比于四边形,三角网格谱元法能显著提高复杂模型的描述能力,对起伏地表模型有很大优势.本文引入高效的最佳匹配层(PML)吸收边界条件,并通过数值试验将三角网格谱元法与经典的谱元法进行对比研究.相比于经典的谱元法,三角网格谱元法显著缺点为较低的计算精度.对于7阶谱元,为了能够精确地模拟面波,三角网格谱元法需要在每个最短的面波波长内至少有11个采样点,然而经典的谱元法仅需4个采样点,并且前者所需的内存量约为后者的5.5倍.
展开更多
关键词
三角网格谱元法
压缩存储行(
csr
)格式
PML吸收边界条件
Newmark算法
显式有限元法
Koornwinder-Dubiner多项式
Fekete点
原文传递
基于GPU的稀疏线性系统的预条件共轭梯度法
被引量:
11
6
作者
张健飞
沈德飞
《计算机应用》
CSCD
北大核心
2013年第3期825-829,共5页
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算...
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。
展开更多
关键词
图形处理器
稀疏线性方程组
预条件共轭梯度法
压缩稀疏行
统一计算设备架构
在线阅读
下载PDF
职称材料
大范围点质量模型快速构建方法研究
被引量:
3
7
作者
黄佳喜
王庆宾
+1 位作者
张超
冯进凯
《大地测量与地球动力学》
CSCD
北大核心
2017年第1期11-15,共5页
针对大范围点质量模型构建中遇到的大型线性方程解算的难题,提出基于窗口控制的残差点质量模型构建方法。将点质量模型由原来的稠密线性方程转化为稀疏线性方程,并在普通计算机上完成112 896阶稀疏线性方程的求解。以空中扰动引力计算为...
针对大范围点质量模型构建中遇到的大型线性方程解算的难题,提出基于窗口控制的残差点质量模型构建方法。将点质量模型由原来的稠密线性方程转化为稀疏线性方程,并在普通计算机上完成112 896阶稀疏线性方程的求解。以空中扰动引力计算为例,与传统的点质量模型和位系数模型的计算结果进行比较。结果表明,该方法能够在保证计算精度的同时有效扩大解算范围,提高解算效率。
展开更多
关键词
点质量模型
窗口半径
稀疏矩阵
行压缩存储
扰动引力
在线阅读
下载PDF
职称材料
面向稀疏矩阵向量乘的DMA设计与验证
8
作者
曹亚松
刘胜
《计算机与数字工程》
2019年第11期2686-2690,共5页
稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操...
稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操作,降低了系统计算性能。基于X-DSP项目,在DMA中设计一条面向SpMV的专用数据通道实现不规则访存的功能,提高HPCG算法运算速度。设计代码的验证与综合结果表明预期的功能实现正确,且满足项目对时序、面积和功耗的要求。
展开更多
关键词
稀疏矩阵向量乘法(SpMV)
直接内存存取(DMA)
压缩稀疏行(
csr
)
在线阅读
下载PDF
职称材料
题名
扩展有限元刚度矩阵的CSR存储实现
被引量:
2
1
作者
刘尧喜
唐进元
周炜
何玉辉
余洋
机构
中南大学高性能复杂制造国家重点实验室
湖南科技大学智能制造研究院
出处
《机械强度》
CAS
CSCD
北大核心
2019年第6期1384-1390,共7页
基金
国家自然科学基金项目(51535012)
国家自然科学基金重点项目(U1604255)
湖南省重点研发计划项目(2016JC2001)资助~~
文摘
扩展有限元方法(XFEM)是处理裂纹、孔洞、夹杂等不连续问题中应用最为广泛的数值方法之一。XFEM基于单位分解方法,在标准有限元方法的位移近似函数中引入附加函数项来反映位移场的间断特性和奇异特性。附加函数项的引入,导致XFEM单元刚度矩阵大小不定,标准有限元方法的总体刚度矩阵的组集方法不能直接使用于扩展有限元方法中。本文提出一种基于‘广义相邻节点对’的非零元素存储方案,该方案通过使用“广义相邻节点对”和总体刚度矩阵中非零元素的位置一一对应的关系,配合大型稀疏矩阵的CSR存储格式(Compressed Sparse Row format:行压缩存储格式),直接从单元刚度矩阵组集形成压缩存储的总体刚度矩阵。该方案较好的解决了扩展有限元总体刚度矩阵的压缩存储和组集问题,详细阐述该方案的实现过程,将此方案成功实现于Fortran语言自主开发的扩展有限元程序中,并对程序的准确性进行了验证。
关键词
扩展有限元法
总体刚度矩阵
csr
存储
刚度矩阵组集
Keywords
XFEM
Global stiffness matrix
compressed
sparse
row
(
csr
)storage
Assembly algorithm of stiffness matrix
分类号
TH132.41 [机械工程—机械制造及自动化]
在线阅读
下载PDF
职称材料
题名
TEB:GPU上矩阵分解重构的高效SpMV存储格式
被引量:
2
2
作者
王宇华
张宇琪
何俊飞
徐悦竹
崔环宇
机构
哈尔滨工程大学计算机科学与技术学院
出处
《计算机科学与探索》
CSCD
北大核心
2024年第4期1094-1108,共15页
基金
国家自然科学基金(62072135)。
文摘
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。
关键词
稀疏矩阵向量乘法(SpMV)
重新排序
csr
格式
负载均衡
存储格式
图形处理器(GPU)
Keywords
sparse
matrix-vector multiplication(SpMV)
reorder
compressed
sparse
row
(
csr
)
format
load balancing
storage
format
graphics processing unit(GPU)
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于便笺式存储器的向量化SpMV算法的性能评估与分析
3
作者
张宗茂
董德尊
王子聪
常俊胜
张晓云
王绍聪
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2024年第9期1521-1528,共8页
基金
湖南省杰出青年科学基金(2021JJ10050)
国防科技大学科研计划项目(ZK22-23)。
文摘
便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效,从而影响SpMV算法执行效率。为了评估便笺式存储器对SpMV向量算法的性能影响,使用ARM SVE指令对基于CSR格式的SpMV算法向量化,并将算法中的热点数据即稠密输入向量存储在便笺式存储器中,在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析。在gem5模拟器中针对来自真实应用程序的2562个稀疏矩阵进行了实验。实验结果表明,集成了便笺式存储器的处理器与传统多级Cache处理器相比,针对向量化SpMV算法能够实现的最大加速比为7.45,平均加速比为1.11。
关键词
稀疏矩阵向量乘
便笺式存储器
csr
ARM
SVE
Keywords
sparse
matrix vector multiplication
scratchpad memory
compressed
sparse
row
(
csr
)
ARM scalable vector extension(SVE)
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
稀疏存储的显式有限元三角网格地震波数值模拟及其PML吸收边界条件
被引量:
33
4
作者
刘有山
滕吉文
刘少林
徐涛
机构
中国科学院地质与地球物理研究所
中国科学院大学
出处
《地球物理学报》
SCIE
EI
CAS
CSCD
北大核心
2013年第9期3085-3099,共15页
基金
国家自然基金项目(41104059
41274070
+1 种基金
41174075
41074033)资助
文摘
有限元法是复杂介质地震模拟的有力工具,它能比较客观地反映地震波的传播,比较细致地再现地震图像.但是,为了获得较精确的结果,有限元法模拟地震波的传播需要的网格点数多,具有计算量大和消耗内存多的缺点.针对上述缺点,本文对刚度矩阵采用压缩存储行(CSR)格式,以减少计算量并节省内存;采用集中质量矩阵得到对角的质量矩阵以提高有限元法(显式有限元)的计算效率;时间离散采用保能量的Newmark算法以提高有限元法的计算精度;采用变分形式(弱形式)的PML吸收边界条件对人工截断边界进行处理.通过与高精度的数值方法——谱元法的数值试验的对比表明,上述方法的引入可使有限元法在计算精度和计算效率方面均可取得比较显著的改进.为了获得相当的计算精度,相比于7阶谱元法,显式有限元法需要更精细的网格.然而,显式有限元法的计算速度比前者快近2倍,而内存需求仅为谱元法的1/4~1/6.
关键词
显式有限元法
压缩存储行(
csr
)格式
集中质量矩阵
Newmark算法
PML吸收边界条件
谱元法
Keywords
Explicit finite element method
Compressive store
row
(
csr
)
format
Lumped mass matrix
Newmark algorithm
PML absorbing boundary condition
Spectral element method
分类号
P631 [天文地球—地质矿产勘探]
在线阅读
下载PDF
职称材料
题名
三角网格谱元法地震波场数值模拟
被引量:
18
5
作者
刘有山
滕吉文
徐涛
刘少林
司芗
马学英
机构
中国科学院地质与地球物理研究所
中国科学院大学
出处
《地球物理学进展》
CSCD
北大核心
2014年第4期1715-1726,共12页
基金
国家自然基金项目(41104059
41274070
+1 种基金
41174075
41074033)资助
文摘
谱元法结合了有限元法的灵活性和谱方法的指数收敛性,高效且高精度,是近年来发展的一种重要的地震波场数值模拟方法.经典的谱元法采用四边形(六面体)网格,利用一维Gauss-Legendre-Lobatto(GLL)积分的张量积得到对角的质量矩阵,以大大提高计算效率,但是四边形(六面体)网格不能够灵活地刻画复杂的几何模型的弯曲界面.为此,在谱元法中引入三角形(四面体)网格到二维(三维)是十分必要的.不同于经典的谱元法,在非结构化网格中不能使用GLL积分的张量积,使得非结构化网格的谱元法的实现存在着诸多的困难.目前,比较流行的三角网格谱元法,通过使用KoornwinderDubiner(KD)正交多项式,并正交化这些KD多项式构建基函数,同时利用重合的插值节点和积分节点以获取对角的质量矩阵;它所使用的积分点为优化的点集——Fekete点,且这些积分点能与四边形网格完全耦合.相比于四边形,三角网格谱元法能显著提高复杂模型的描述能力,对起伏地表模型有很大优势.本文引入高效的最佳匹配层(PML)吸收边界条件,并通过数值试验将三角网格谱元法与经典的谱元法进行对比研究.相比于经典的谱元法,三角网格谱元法显著缺点为较低的计算精度.对于7阶谱元,为了能够精确地模拟面波,三角网格谱元法需要在每个最短的面波波长内至少有11个采样点,然而经典的谱元法仅需4个采样点,并且前者所需的内存量约为后者的5.5倍.
关键词
三角网格谱元法
压缩存储行(
csr
)格式
PML吸收边界条件
Newmark算法
显式有限元法
Koornwinder-Dubiner多项式
Fekete点
Keywords
the SEM based on triangles(TSEM)
compressive store
row
(
csr
)
format
PML absorbing boundary condition
Newmark algorithm
explicit finite element method
Koornwinder-Dubiner(KD)polynomials
Fekete points
分类号
P315 [天文地球—地震学]
原文传递
题名
基于GPU的稀疏线性系统的预条件共轭梯度法
被引量:
11
6
作者
张健飞
沈德飞
机构
河海大学力学与材料学院
出处
《计算机应用》
CSCD
北大核心
2013年第3期825-829,共5页
基金
国家自然科学基金资助项目(51109072)
文摘
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。
关键词
图形处理器
稀疏线性方程组
预条件共轭梯度法
压缩稀疏行
统一计算设备架构
Keywords
Graphic Processing Unit (GPU)
sparse
linear equations
preconditioned conjugate gradient method
compressed
sparse
row
(
csr
)
Compute Unified Device Architecture (CUDA)
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
大范围点质量模型快速构建方法研究
被引量:
3
7
作者
黄佳喜
王庆宾
张超
冯进凯
机构
信息工程大学地理空间信息学院
出处
《大地测量与地球动力学》
CSCD
北大核心
2017年第1期11-15,共5页
基金
国家973计划(6132220202)
国家自然科学基金(41504018)~~
文摘
针对大范围点质量模型构建中遇到的大型线性方程解算的难题,提出基于窗口控制的残差点质量模型构建方法。将点质量模型由原来的稠密线性方程转化为稀疏线性方程,并在普通计算机上完成112 896阶稀疏线性方程的求解。以空中扰动引力计算为例,与传统的点质量模型和位系数模型的计算结果进行比较。结果表明,该方法能够在保证计算精度的同时有效扩大解算范围,提高解算效率。
关键词
点质量模型
窗口半径
稀疏矩阵
行压缩存储
扰动引力
Keywords
point mass model
window control
sparse
matrix
compressed
sparse
row
(
csr
)
disturbing gravity
分类号
P223 [天文地球—大地测量学与测量工程]
在线阅读
下载PDF
职称材料
题名
面向稀疏矩阵向量乘的DMA设计与验证
8
作者
曹亚松
刘胜
机构
国防科技大学计算机学院
出处
《计算机与数字工程》
2019年第11期2686-2690,共5页
文摘
稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操作,降低了系统计算性能。基于X-DSP项目,在DMA中设计一条面向SpMV的专用数据通道实现不规则访存的功能,提高HPCG算法运算速度。设计代码的验证与综合结果表明预期的功能实现正确,且满足项目对时序、面积和功耗的要求。
关键词
稀疏矩阵向量乘法(SpMV)
直接内存存取(DMA)
压缩稀疏行(
csr
)
Keywords
sparse
Matrix-Vector Multiplication(SpMV)
Direct Memory Access(DMA)
compressed
sparse
row
(
csr
)
分类号
O183.1 [理学—基础数学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
扩展有限元刚度矩阵的CSR存储实现
刘尧喜
唐进元
周炜
何玉辉
余洋
《机械强度》
CAS
CSCD
北大核心
2019
2
在线阅读
下载PDF
职称材料
2
TEB:GPU上矩阵分解重构的高效SpMV存储格式
王宇华
张宇琪
何俊飞
徐悦竹
崔环宇
《计算机科学与探索》
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
3
基于便笺式存储器的向量化SpMV算法的性能评估与分析
张宗茂
董德尊
王子聪
常俊胜
张晓云
王绍聪
《计算机工程与科学》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
4
稀疏存储的显式有限元三角网格地震波数值模拟及其PML吸收边界条件
刘有山
滕吉文
刘少林
徐涛
《地球物理学报》
SCIE
EI
CAS
CSCD
北大核心
2013
33
在线阅读
下载PDF
职称材料
5
三角网格谱元法地震波场数值模拟
刘有山
滕吉文
徐涛
刘少林
司芗
马学英
《地球物理学进展》
CSCD
北大核心
2014
18
原文传递
6
基于GPU的稀疏线性系统的预条件共轭梯度法
张健飞
沈德飞
《计算机应用》
CSCD
北大核心
2013
11
在线阅读
下载PDF
职称材料
7
大范围点质量模型快速构建方法研究
黄佳喜
王庆宾
张超
冯进凯
《大地测量与地球动力学》
CSCD
北大核心
2017
3
在线阅读
下载PDF
职称材料
8
面向稀疏矩阵向量乘的DMA设计与验证
曹亚松
刘胜
《计算机与数字工程》
2019
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部