期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
扩展有限元刚度矩阵的CSR存储实现 被引量:2
1
作者 刘尧喜 唐进元 +2 位作者 周炜 何玉辉 余洋 《机械强度》 CAS CSCD 北大核心 2019年第6期1384-1390,共7页
扩展有限元方法(XFEM)是处理裂纹、孔洞、夹杂等不连续问题中应用最为广泛的数值方法之一。XFEM基于单位分解方法,在标准有限元方法的位移近似函数中引入附加函数项来反映位移场的间断特性和奇异特性。附加函数项的引入,导致XFEM单元刚... 扩展有限元方法(XFEM)是处理裂纹、孔洞、夹杂等不连续问题中应用最为广泛的数值方法之一。XFEM基于单位分解方法,在标准有限元方法的位移近似函数中引入附加函数项来反映位移场的间断特性和奇异特性。附加函数项的引入,导致XFEM单元刚度矩阵大小不定,标准有限元方法的总体刚度矩阵的组集方法不能直接使用于扩展有限元方法中。本文提出一种基于‘广义相邻节点对’的非零元素存储方案,该方案通过使用“广义相邻节点对”和总体刚度矩阵中非零元素的位置一一对应的关系,配合大型稀疏矩阵的CSR存储格式(Compressed Sparse Row format:行压缩存储格式),直接从单元刚度矩阵组集形成压缩存储的总体刚度矩阵。该方案较好的解决了扩展有限元总体刚度矩阵的压缩存储和组集问题,详细阐述该方案的实现过程,将此方案成功实现于Fortran语言自主开发的扩展有限元程序中,并对程序的准确性进行了验证。 展开更多
关键词 扩展有限元法 总体刚度矩阵 csr 存储 刚度矩阵组集
在线阅读 下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:2
2
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 csr格式 负载均衡 存储格式 图形处理器(GPU)
在线阅读 下载PDF
基于便笺式存储器的向量化SpMV算法的性能评估与分析
3
作者 张宗茂 董德尊 +3 位作者 王子聪 常俊胜 张晓云 王绍聪 《计算机工程与科学》 CSCD 北大核心 2024年第9期1521-1528,共8页
便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算... 便笺式存储器是一种结构简单、访问延迟固定且软件可直接控制的片上高速存储,在现代处理器设计中得到了广泛应用。稀疏矩阵向量乘SpMV是高性能计算、人工智能等应用领域重要的内核计算函数之一。在传统多级Cache处理器中,SpMV算法计算过程中对稠密输入向量的不规则访问操作会导致大量Cache访问请求失效,从而影响SpMV算法执行效率。为了评估便笺式存储器对SpMV向量算法的性能影响,使用ARM SVE指令对基于CSR格式的SpMV算法向量化,并将算法中的热点数据即稠密输入向量存储在便笺式存储器中,在集成了便笺式存储器的ARM架构处理器中对SpMV向量算法进行了性能分析。在gem5模拟器中针对来自真实应用程序的2562个稀疏矩阵进行了实验。实验结果表明,集成了便笺式存储器的处理器与传统多级Cache处理器相比,针对向量化SpMV算法能够实现的最大加速比为7.45,平均加速比为1.11。 展开更多
关键词 稀疏矩阵向量乘 便笺式存储器 csr ARM SVE
在线阅读 下载PDF
稀疏存储的显式有限元三角网格地震波数值模拟及其PML吸收边界条件 被引量:33
4
作者 刘有山 滕吉文 +1 位作者 刘少林 徐涛 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2013年第9期3085-3099,共15页
有限元法是复杂介质地震模拟的有力工具,它能比较客观地反映地震波的传播,比较细致地再现地震图像.但是,为了获得较精确的结果,有限元法模拟地震波的传播需要的网格点数多,具有计算量大和消耗内存多的缺点.针对上述缺点,本文对刚度矩阵... 有限元法是复杂介质地震模拟的有力工具,它能比较客观地反映地震波的传播,比较细致地再现地震图像.但是,为了获得较精确的结果,有限元法模拟地震波的传播需要的网格点数多,具有计算量大和消耗内存多的缺点.针对上述缺点,本文对刚度矩阵采用压缩存储行(CSR)格式,以减少计算量并节省内存;采用集中质量矩阵得到对角的质量矩阵以提高有限元法(显式有限元)的计算效率;时间离散采用保能量的Newmark算法以提高有限元法的计算精度;采用变分形式(弱形式)的PML吸收边界条件对人工截断边界进行处理.通过与高精度的数值方法——谱元法的数值试验的对比表明,上述方法的引入可使有限元法在计算精度和计算效率方面均可取得比较显著的改进.为了获得相当的计算精度,相比于7阶谱元法,显式有限元法需要更精细的网格.然而,显式有限元法的计算速度比前者快近2倍,而内存需求仅为谱元法的1/4~1/6. 展开更多
关键词 显式有限元法 压缩存储行(csr)格式 集中质量矩阵 Newmark算法 PML吸收边界条件 谱元法
在线阅读 下载PDF
三角网格谱元法地震波场数值模拟 被引量:18
5
作者 刘有山 滕吉文 +3 位作者 徐涛 刘少林 司芗 马学英 《地球物理学进展》 CSCD 北大核心 2014年第4期1715-1726,共12页
谱元法结合了有限元法的灵活性和谱方法的指数收敛性,高效且高精度,是近年来发展的一种重要的地震波场数值模拟方法.经典的谱元法采用四边形(六面体)网格,利用一维Gauss-Legendre-Lobatto(GLL)积分的张量积得到对角的质量矩阵,以大大提... 谱元法结合了有限元法的灵活性和谱方法的指数收敛性,高效且高精度,是近年来发展的一种重要的地震波场数值模拟方法.经典的谱元法采用四边形(六面体)网格,利用一维Gauss-Legendre-Lobatto(GLL)积分的张量积得到对角的质量矩阵,以大大提高计算效率,但是四边形(六面体)网格不能够灵活地刻画复杂的几何模型的弯曲界面.为此,在谱元法中引入三角形(四面体)网格到二维(三维)是十分必要的.不同于经典的谱元法,在非结构化网格中不能使用GLL积分的张量积,使得非结构化网格的谱元法的实现存在着诸多的困难.目前,比较流行的三角网格谱元法,通过使用KoornwinderDubiner(KD)正交多项式,并正交化这些KD多项式构建基函数,同时利用重合的插值节点和积分节点以获取对角的质量矩阵;它所使用的积分点为优化的点集——Fekete点,且这些积分点能与四边形网格完全耦合.相比于四边形,三角网格谱元法能显著提高复杂模型的描述能力,对起伏地表模型有很大优势.本文引入高效的最佳匹配层(PML)吸收边界条件,并通过数值试验将三角网格谱元法与经典的谱元法进行对比研究.相比于经典的谱元法,三角网格谱元法显著缺点为较低的计算精度.对于7阶谱元,为了能够精确地模拟面波,三角网格谱元法需要在每个最短的面波波长内至少有11个采样点,然而经典的谱元法仅需4个采样点,并且前者所需的内存量约为后者的5.5倍. 展开更多
关键词 三角网格谱元法 压缩存储行(csr)格式 PML吸收边界条件 Newmark算法 显式有限元法 Koornwinder-Dubiner多项式 Fekete点
原文传递
基于GPU的稀疏线性系统的预条件共轭梯度法 被引量:11
6
作者 张健飞 沈德飞 《计算机应用》 CSCD 北大核心 2013年第3期825-829,共5页
研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算... 研究了基于GPU的稀疏线性方程组的预条件共轭梯度法加速求解问题,并基于统一计算设备架构(CUDA)平台编制了程序,在NVIDIAGT430 GPU平台上进行了程序性能测试和分析。稀疏矩阵采用压缩稀疏行(CSR)格式压缩存储,针对预条件共轭梯度法的算法特性,研究了基于GPU的稀疏矩阵与向量相乘的性能优化、数据从CPU端传到GPU端的加速传输措施。将编制的稀疏矩阵与向量相乘的kernel函数和CUSPARSE函数库中的cusparseDcsrmv函数性能进行了对比,最优得到了2.1倍的加速效果。对于整个预条件共轭梯度法,通过自编kernel函数来实现的算法较之采用CUBLAS库和CUSPARSE库实现的算法稍具优势,与CPU端的预条件共轭梯度法相比,最优可以得到7.4倍的加速效果。 展开更多
关键词 图形处理器 稀疏线性方程组 预条件共轭梯度法 压缩稀疏行 统一计算设备架构
在线阅读 下载PDF
大范围点质量模型快速构建方法研究 被引量:3
7
作者 黄佳喜 王庆宾 +1 位作者 张超 冯进凯 《大地测量与地球动力学》 CSCD 北大核心 2017年第1期11-15,共5页
针对大范围点质量模型构建中遇到的大型线性方程解算的难题,提出基于窗口控制的残差点质量模型构建方法。将点质量模型由原来的稠密线性方程转化为稀疏线性方程,并在普通计算机上完成112 896阶稀疏线性方程的求解。以空中扰动引力计算为... 针对大范围点质量模型构建中遇到的大型线性方程解算的难题,提出基于窗口控制的残差点质量模型构建方法。将点质量模型由原来的稠密线性方程转化为稀疏线性方程,并在普通计算机上完成112 896阶稀疏线性方程的求解。以空中扰动引力计算为例,与传统的点质量模型和位系数模型的计算结果进行比较。结果表明,该方法能够在保证计算精度的同时有效扩大解算范围,提高解算效率。 展开更多
关键词 点质量模型 窗口半径 稀疏矩阵 行压缩存储 扰动引力
在线阅读 下载PDF
面向稀疏矩阵向量乘的DMA设计与验证
8
作者 曹亚松 刘胜 《计算机与数字工程》 2019年第11期2686-2690,共5页
稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操... 稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操作,降低了系统计算性能。基于X-DSP项目,在DMA中设计一条面向SpMV的专用数据通道实现不规则访存的功能,提高HPCG算法运算速度。设计代码的验证与综合结果表明预期的功能实现正确,且满足项目对时序、面积和功耗的要求。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 直接内存存取(DMA) 压缩稀疏行(csr)
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部