期刊文献+
共找到4,806篇文章
< 1 2 241 >
每页显示 20 50 100
三维直流电阻率法全息数值模拟及CPU-GPU并行架构
1
作者 戴世坤 朱德祥 +4 位作者 凌嘉宣 陈轻蕊 田红军 赵文学 才智杰 《地球物理学报》 北大核心 2026年第4期1727-1740,共14页
针对传统数值模拟方法在计算量大、边界条件近似及三维偏微分方程物理信息准确模拟等方面的局限性,本文提出了一种高效、高精度的全息数值模拟方法.该方法基于真实地球物理模型,通过恰当的途径准确获取异常电位的空间-波数谱,并将其转... 针对传统数值模拟方法在计算量大、边界条件近似及三维偏微分方程物理信息准确模拟等方面的局限性,本文提出了一种高效、高精度的全息数值模拟方法.该方法基于真实地球物理模型,通过恰当的途径准确获取异常电位的空间-波数谱,并将其转换回空间域,从而得到真实的电场分布.具体而言,本文对空间域异常电位满足的三维偏微分方程进行水平方向的二维傅里叶正变换,将其转化为不同波数下的一维常微分方程求解.水平方向采用全息傅里叶变换,垂直方向引入行波分解,有效消除上下边界效应,确保空间域与波数域信息的完整性,因此将该方法称为全息数值模拟理论.网格大小在水平和垂直方向上均可自由调整.基于算法的高度并行性,实现了CPUGPU并行架构.通过设计异常球体模型,分析了异常场的波数谱分布特征,验证了波数域对数采样规则的正确性;构建随机模型,验证了算法的准确性;设计边界异常体,将本文算法与有限元算法进行对比.结果表明,本文算法在保持计算精度的同时显著提升了运算效率.此外,并行实验表明,CPU-GPU并行架构适用于本文算法,千万级节点模型单次迭代计算仅需数秒.此外,通过设计起伏地形模型,验证了算法对复杂地形的适应性. 展开更多
关键词 三维直流电阻率法 全息数值模拟 全息傅里叶变换 CPU-gpu并行架构
在线阅读 下载PDF
基于GPU和Spark框架的VLBI相关处理架构研究
2
作者 谢科屹 张娟 +3 位作者 童锋贤 郑为民 童力 刘磊 《天文学进展》 北大核心 2026年第1期126-138,共13页
甚长基线干涉测量技术(VLBI)正逐渐向高灵敏度、高时空分辨率方向发展,观测台站数量和观测带宽成倍增加,以至VLBI观测数据量急剧增长,给现有数据处理系统带来了严峻挑战。为满足大规模VLBI数据相关处理的需求,提出并实现了一种基于GPU与... 甚长基线干涉测量技术(VLBI)正逐渐向高灵敏度、高时空分辨率方向发展,观测台站数量和观测带宽成倍增加,以至VLBI观测数据量急剧增长,给现有数据处理系统带来了严峻挑战。为满足大规模VLBI数据相关处理的需求,提出并实现了一种基于GPU与Spark框架的VLBI相关处理架构。测试结果表明,该架构具备高可扩展性与高可靠性,加速比随计算资源扩展呈近线性提升,能够高效处理大规模VLBI数据。这为应对未来VLBI观测任务中的海量数据处理需求奠定了技术基础,也为脉冲星测时阵列中信号合成所需的高速相关处理技术提供了有力支撑。 展开更多
关键词 VLBI 相关处理机 gpu 分布式计算 SPARK
在线阅读 下载PDF
基于Cache功能模拟的GPU内存系统建模
3
作者 袁福焱 郝晓宇 +3 位作者 曹振伟 张森 陈俊仕 安虹 《小型微型计算机系统》 北大核心 2026年第2期477-486,共10页
重用距离分析是一种常用的基于Trace的Cache性能分析方法.然而,随着现代GPU微架构的持续演进,现有基于重用距离理论的GPU内存分析模型由于简化了过多硬件特性,导致了显著的失真.为此,本文提出一种基于Trace和Cache功能模拟的GPU内存系... 重用距离分析是一种常用的基于Trace的Cache性能分析方法.然而,随着现代GPU微架构的持续演进,现有基于重用距离理论的GPU内存分析模型由于简化了过多硬件特性,导致了显著的失真.为此,本文提出一种基于Trace和Cache功能模拟的GPU内存系统建模框架,针对现代GPU的关键内存特性进行了精确建模,包括Sector Cache、自适应L1缓存分配机制以及写直达与写回策略等.通过在Volta架构及多个基准测试套件上的实验验证,论文模型相较现有最先进模型PPT-GPU-Mem在多个关键指标上显著提升了预测精度:L2命中率误差从43.39%降至15.86%,显存读写事务次数误差从42%降至16.85%. 展开更多
关键词 gpu 内存模型 重用距离 功能模拟 NVIDIA NVBit
在线阅读 下载PDF
基于GPU共享的深度学习训练任务加速调度框架
4
作者 林辰汐 李嘉伦 +2 位作者 莫萱 周杰英 吴维刚 《计算机工程与科学》 北大核心 2026年第3期389-397,共9页
深度学习DL在众多业务场景中的应用越来越广泛。如何在GPU集群中高效利用资源训练DL任务并缩短任务的完成时间,受到了工业界和学术界的持续关注。单个DL训练任务往往无法充分利用GPU的全部计算资源,传统调度器的独占式GPU分配导致资源... 深度学习DL在众多业务场景中的应用越来越广泛。如何在GPU集群中高效利用资源训练DL任务并缩短任务的完成时间,受到了工业界和学术界的持续关注。单个DL训练任务往往无法充分利用GPU的全部计算资源,传统调度器的独占式GPU分配导致资源利用率低下。提出一种基于GPU共享的任务调度框架G-Share,允许多个DL任务共享同一个GPU进行训练,即进行混部调度。在感知任务间混部干扰的基础上进行任务调度与资源分配,以提高GPU利用率进而加速任务的执行。具体来说,首先通过离线建模与在线更新的方式刻画任务间相互干扰的信息,并将基于GPU共享的调度问题建模为一个带权二部图最小匹配问题,通过求解该问题来获得资源分配结果,并结合时间片机制实现任务的动态调度来感知在线场景中任务最优混部组合的变化。在商汤科技的DL任务负载数据集上的实验表明,G-Share相比于对比方法实现了20.6%的任务平均完成时间减少。 展开更多
关键词 云计算 深度学习 资源调度 gpu共享 任务间干扰
在线阅读 下载PDF
GPU加速的高维向量聚类算法
5
作者 李忠根 龚盛豪 +3 位作者 于浩然 朱轶凡 柳晴 高云君 《软件学报》 北大核心 2026年第3期1037-1057,共21页
聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领... 聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领域得到了广泛应用.然而,现有的基于密度的聚类算法在处理高维向量数据时将产生极高的时间代价且面临维度灾难等问题,难以在实际场景中部署应用.此外,随着信息技术的发展,高维向量数据规模急剧增加,使用CPU进行高维向量聚类在时间代价和可扩展性等方面将面临更大的挑战.为此,提出一种GPU加速的高维向量聚类算法,通过引入K近邻(K-nearest neighbor,KNN)图索引加速DBSCAN的计算.首先,设计了GPU加速的并行K近邻图构建算法,显著降低了K近邻图索引的构建开销.其次,提出了基于层间并行的K-means树分区算法及基于广度优先搜索和核心近邻图的并行聚类算法,改进了DBSCAN算法的计算流程,实现了高并发向量聚类.最后,在真实向量数据集上进行了大量实验,并将所提出的方法与现有方法进行了性能对比.实验结果表明,所提方法在保证聚类精度的前提下,将大规模向量聚类的效率提高了5.7–2822.5倍. 展开更多
关键词 基于密度的聚类 高维向量 gpu加速 并行计算 K近邻图
在线阅读 下载PDF
面向分布式集群的GPU性能分析与建模方法:现状及展望
6
作者 赵海燕 李志凯 +1 位作者 钱诗友 曹健 《小型微型计算机系统》 北大核心 2026年第1期58-72,共15页
随着人工智能与高性能计算的快速发展,模型复杂度和数据规模持续增长,使得单个GPU难以应对大规模计算任务.因此,分布式GPU集群已成为现代深度学习与科学计算任务的重要基础设施.为了充分发挥此类系统的计算潜力,高效的性能分析与建模方... 随着人工智能与高性能计算的快速发展,模型复杂度和数据规模持续增长,使得单个GPU难以应对大规模计算任务.因此,分布式GPU集群已成为现代深度学习与科学计算任务的重要基础设施.为了充分发挥此类系统的计算潜力,高效的性能分析与建模方法在识别系统瓶颈、优化资源利用以及指导系统设计决策方面显得尤为关键.本文系统综述了分布式集群环境中GPU性能分析与建模的前沿方法.首先深入剖析了当前主流GPU架构及其内部机制,解释其在并行计算任务中高效性的来源.随后介绍了常用的性能指标与分析工具,为架构师与运维工程师根据具体应用需求选择合适的分析框架提供实践指导.文章进一步探讨了包括瓶颈识别、故障归因及细粒度性能刻画在内的先进建模方法.最后,本文讨论了该领域仍存在的挑战,并展望了未来构建更精准、可扩展且可解释的GPU性能分析方法的发展方向. 展开更多
关键词 gpu性能分析方法 分布式集群 深度学习训练及推理 性能建模
在线阅读 下载PDF
基于斯托克斯平面近似函数与GPU并行的海洋重力梯度模型计算
7
作者 卜靖宇 叶周润 +3 位作者 梁星辉 刘金钊 柳林涛 王嘉琛 《合肥工业大学学报(自然科学版)》 北大核心 2026年第2期253-259,共7页
相对于其他重力场元素,扰动重力梯度能更多地反映变化的不规则地球产生的高频信息。在计算扰动重力梯度时,由于斯托克斯积分较为复杂导致被积函数复杂难以直接用牛顿-莱布尼茨公式计算、且计算的数据量过于庞大导致计算耗时过长。为有... 相对于其他重力场元素,扰动重力梯度能更多地反映变化的不规则地球产生的高频信息。在计算扰动重力梯度时,由于斯托克斯积分较为复杂导致被积函数复杂难以直接用牛顿-莱布尼茨公式计算、且计算的数据量过于庞大导致计算耗时过长。为有效解决该问题,文章使用高斯数值积分解决被积函数复杂的问题,同时利用统一计算设备架构(compute unified device architecture,CUDA)在计算过程中实现了在图形处理器(graphics processing unit,GPU)端的并行计算,根据拉普拉斯方程可以检验计算结果的准确性,并且选取了某海域3°×2°范围海平面的重力异常数据进行计算。结果表明,使用高斯数值积分以及CUDA并行计算的方法,提供准确计算结果的同时也提高了计算效率。 展开更多
关键词 扰动重力梯度 重力异常 CUDA并行计算 图形处理器(gpu) 高斯数值积分
在线阅读 下载PDF
面向稀疏矩阵向量乘法的GPU性能建模和算法优化
8
作者 马澄宇 李锁兰 +3 位作者 刘一诺 赵文哲 任鹏举 夏天 《集成电路与嵌入式系统》 2026年第1期5-11,共7页
针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别... 针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别采用线程级和线程块级并行策略进行计算,从而有效缓解GPU SIMT执行特性与稀疏矩阵非规则数据分布之间的矛盾。为量化预处理过程中引入的额外开销,分别建立了针对Atomic Conflict和Padding的性能损失模型,将额外的访存和计算转换为可计算的开销函数。基于上述模型,构建了参数空间搜索算法,通过预先获取硬件性能指标和矩阵非零元分布信息,快速在参数集合中搜索得到最优预处理参数。实验结果表明,该优化算法在多种典型稀疏矩阵数据集上均优于传统的GPU稀疏计算库cuSPARSE,在部分场景下性能提升达1.26倍及1.17倍。此外,参数搜索开销较低,且该方法具备良好的通用性,可适配不同的输入矩阵与GPU硬件架构。 展开更多
关键词 gpu性能建模 并行算法优化 稀疏矩阵 SpMV
在线阅读 下载PDF
基于GPU的双模量材料结构拓扑优化设计方法
9
作者 冯俊杰 易继军 +2 位作者 陈书祥 陈康霖 周泉 《机械工程师》 2026年第2期90-94,107,共6页
针对双模量材料结构弹性模量矩阵的非光滑性和其结构有限元分析及拓扑优化计算量大等问题,提出了一种基于GPU的双模量材料结构拓扑优化方法。首先,研究了基于免组装和预处理共轭梯度法的结构线性方程内循环求解方法,显著提高了线性方程... 针对双模量材料结构弹性模量矩阵的非光滑性和其结构有限元分析及拓扑优化计算量大等问题,提出了一种基于GPU的双模量材料结构拓扑优化方法。首先,研究了基于免组装和预处理共轭梯度法的结构线性方程内循环求解方法,显著提高了线性方程组求解的计算效率;其次,发展了基于Newton Raphson法的双模量材料结构有限元并行迭代方法,改进了光滑化的弹性模量矩阵表达式和柔顺度对设计变量的求导公式,并提出了基于GPU并行技术的双模量材料结构拓扑优化求解方法。最后,完成了方法的并行计算核函数和MATLAB编程及联调验算。给出的算例验证了提出方法的有效性和高的计算效率。 展开更多
关键词 双模量材料 拓扑优化 gpu并行 免组装方法 有限元分析
在线阅读 下载PDF
基于GPU并行计算的拉-压结构拓扑优化设计方法研究
10
作者 钟宇 易继军 +2 位作者 陈康霖 陈书祥 周泉 《机械工程师》 2026年第2期10-13,共4页
拓扑优化是实现创新、轻质与高效结构设计的有效方法,然而,实际工程中的大规模复杂结构的拓扑优化存在计算量大等问题,限制了该技术技术的实际应用。针对上述问题,文中开展了基于GPU并行计算的拉-压结构拓扑优化方法研究。首先,建立了... 拓扑优化是实现创新、轻质与高效结构设计的有效方法,然而,实际工程中的大规模复杂结构的拓扑优化存在计算量大等问题,限制了该技术技术的实际应用。针对上述问题,文中开展了基于GPU并行计算的拉-压结构拓扑优化方法研究。首先,建立了一种基于单元主应力的单元拉/压状态判断方法,以实现基于单元应力状态的材料插值模型的构建;其次,基于逐单元策略开展了优化模型、灵敏度分析及有限元分析等拉-压结构拓扑优化并行求解算法研究;最后,完成了提出方法的MATLAB和C++并行计算核函数编程及验算。算例结果验证了该方法的有效性和较高的计算效率。 展开更多
关键词 拓扑优化 gpu并行 拉-压结构 有限元分析
在线阅读 下载PDF
面向GPU的稀疏对角矩阵自适应SpMV优化方法
11
作者 王宇华 何俊飞 +2 位作者 张宇琪 兰海燕 曹林琳 《计算机工程》 北大核心 2026年第3期332-345,共14页
稀疏矩阵向量乘(SpMV)是稀疏线性系统的计算核心和瓶颈,其运算效率会影响迭代求解器的整体性能,其优化研究一直是科学计算和工程应用领域中的研究热点之一。偏微分方程的离散化会产生稀疏对角矩阵,由于其多样的非零元分布,导致没有一种... 稀疏矩阵向量乘(SpMV)是稀疏线性系统的计算核心和瓶颈,其运算效率会影响迭代求解器的整体性能,其优化研究一直是科学计算和工程应用领域中的研究热点之一。偏微分方程的离散化会产生稀疏对角矩阵,由于其多样的非零元分布,导致没有一种方法能够在所有矩阵中取得最优时间性能。针对上述问题,提出一种面向图形处理单元(GPU)的稀疏对角矩阵自适应SpMV优化方法AST(Adaptive SpMV Tuning)。该方法通过设计特征空间,构建特征提取器,提取矩阵结构精细特征,通过深入分析特征和SpMV方法的相关性,建立可扩展的候选方法集合,形成特征和最优方法的映射关系,构建性能预测工具,实现矩阵最优方法的高效预测。实验结果表明,AST能够取得85.8%的预测准确率,平均时间性能损失为0.09,相比于DIA(Diagonal)、HDIA(Hacked DIA)、HDC(Hybrid of DIA and Compressed Sparse Row)、DIA-Adaptive和DRM(Divide-Rearrange and Merge),能够获得平均20.19、1.86、3.06、3.72和1.53倍的内核运行时间加速和1.05、1.28、12.45、1.94和0.97倍的浮点运算性能加速。 展开更多
关键词 稀疏矩阵向量乘 稀疏对角矩阵 图形处理单元 自适应优化方法 矩阵结构特征
在线阅读 下载PDF
基于缓存区搬移策略的GPU高效信道化方法
12
作者 罗玲 崔峻豪 +1 位作者 王基岙 陈章鑫 《电子科技大学学报》 北大核心 2026年第2期184-190,共7页
信道化处理是现代电子战数字系统中的首要任务。基于CPU的信道化处理以多相滤波为基础,使用分段卷积的方式保证信道化结果的相位连续。然而,随着数据量的增大,该方法无法满足实时处理的要求,研究如何基于GPU实现高性能信道化处理是目前... 信道化处理是现代电子战数字系统中的首要任务。基于CPU的信道化处理以多相滤波为基础,使用分段卷积的方式保证信道化结果的相位连续。然而,随着数据量的增大,该方法无法满足实时处理的要求,研究如何基于GPU实现高性能信道化处理是目前急需解决的问题。首先分析了传统分段卷积方法在GPU架构上的低效性,随后结合GPU架构特点提出了一种缓存空间需求更低、计算量更低、逻辑控制更方便的缓存区搬移策略来保证信道化结果的相位连续性。此外,分析了在GPU架构下基于多相滤波和直接滤波的两种多级滤波方式,说明了GPU架构下采用直接滤波方式的优越性。仿真实验表明所提方法能正确保证信道化结果的相位连续性,给出了GPU和CPU下实现直接滤波的加速比,直观说明了基于GPU的高效信道化方法带来运算效率的巨大提升,同时GPU架构下直接滤波快于多相滤波。所提的基于缓存区搬移策略的GPU高效信道化方法在处理速度和数据相位连续性上具有显著优势,尤其适用于大规模数据的实时处理应用。 展开更多
关键词 信道化处理 gpu 相位连续性 多相滤波 直接滤波
在线阅读 下载PDF
基于SPH-GPU方法的船舶入水砰击特性研究
13
作者 陈鑫 缪东青 侍鹏程 《舰船科学技术》 北大核心 2026年第1期42-49,共8页
针对极端条件船舶航行时的砰击入水问题,本文提出一种基于GPU加速技术的三维光滑粒子流体动力学(SPH)数值模型,以提升SPH方法在三维问题中的计算效率。相较于CPU并行计算,GPU加速技术使得计算效率提升约54倍,同时与商用CFD软件对比证明... 针对极端条件船舶航行时的砰击入水问题,本文提出一种基于GPU加速技术的三维光滑粒子流体动力学(SPH)数值模型,以提升SPH方法在三维问题中的计算效率。相较于CPU并行计算,GPU加速技术使得计算效率提升约54倍,同时与商用CFD软件对比证明所建立数值模型的计算精度,也表明了SPH方法在捕捉自由液面飞溅破碎问题中的优势。在此基础上,本文针对船舶砰击入水问题开展系统性研究,结果表明,速度对于船舶出入水过程中纵荡运动的影响远大于质量的影响,在初始阶段(t<0.15 s),速度越大,横向砰击力越大,而垂向砰击力与之相反,船首入水深度也相对较小;当初始纵倾角较小时,船体受到的砰击力越小,船舶入水时更加安全。 展开更多
关键词 SPH方法 船舶入水 gpu加速技术 流固耦合
在线阅读 下载PDF
面向电力系统AI训练的GPU虚拟化弹性调度算法研究
14
作者 张田佳 奥伟 +1 位作者 张作宇 樊淑炎 《电气自动化》 2026年第1期55-58,共4页
针对电力系统人工智能训练中图形处理器(graphics processing unit,GPU)资源利用率低、碎片化严重及边缘-中心协同适配性差的问题,提出一种基于GPU虚拟化弹性调度优化框架。通过NVIDIA多实例GPU硬件分区与轻量级虚拟图形处理单元软件切... 针对电力系统人工智能训练中图形处理器(graphics processing unit,GPU)资源利用率低、碎片化严重及边缘-中心协同适配性差的问题,提出一种基于GPU虚拟化弹性调度优化框架。通过NVIDIA多实例GPU硬件分区与轻量级虚拟图形处理单元软件切片技术构建细粒度资源池,实现计算与显存资源解耦;融合改进型首次适应算法与模拟退火优化模块,降低显存碎片率,结合改进型Conv-Seq2Seq模型的三路异构卷积核,提高负载预测准确率。试验结果表明:所提研究方法在省级电网GPU调度系统中显著提升资源利用率至81.2%,响应延迟≤50 ms,显存碎片率降至11.8%,为电力AI训练提供了从硬件解耦到智能决策的一体化支撑。 展开更多
关键词 显存碎片率优化 gpu虚拟化弹性调度 边缘-中心协同 首次适应算法 电力系统人工智能训练
在线阅读 下载PDF
A Subdomain-Based GPU Parallel Scheme for Accelerating Perdynamics Modeling with Reduced Graphics Memory
15
作者 Zuokun Yang Jun Li +1 位作者 Xin Lai Lisheng Liu 《Computer Modeling in Engineering & Sciences》 2026年第1期256-285,共30页
Peridynamics(PD)demonstrates unique advantages in addressing fracture problems,however,its nonlocality and meshfree discretization result in high computational and storage costs.Moreover,in its engineering application... Peridynamics(PD)demonstrates unique advantages in addressing fracture problems,however,its nonlocality and meshfree discretization result in high computational and storage costs.Moreover,in its engineering applications,the computational scale of classical GPU parallel schemes is often limited by the finite graphics memory of GPU devices.In the present study,we develop an efficient particle information management strategy based on the cell-linked list method and on this basis propose a subdomain-based GPU parallel scheme,which exhibits outstanding acceleration performance in specific compute kernels while significantly reducing graphics memory usage.Compared to the classical parallel scheme,the cell-linked list method facilitates efficient management of particle information within subdomains,enabling the proposed parallel scheme to effectively reduce graphics memory usage by optimizing the size and number of subdomains while significantly improving the speed of neighbor search.As demonstrated in PD examples,the proposed parallel scheme enhances the neighbor search efficiency dramatically and achieves a significant speedup relative to serial programs.For instance,without considering the time of data transmission,the proposed scheme achieves a remarkable speedup of nearly 1076.8×in one test case,due to its excellent computational efficiency in the neighbor search.Additionally,for 2D and 3D PD models with tens of millions of particles,the graphics memory usage can be reduced up to 83.6%and 85.9%,respectively.Therefore,this subdomain-based GPU parallel scheme effectively avoids graphics memory shortages while significantly improving the computational efficiency,providing new insights into studying more complex large-scale problems. 展开更多
关键词 PERIDYNAMICS gpu CUDA parallel computing cell-linked list
在线阅读 下载PDF
计算机图形处理器(GPU)并行计算能力测试技术研究
16
作者 高优 任力子 刘勇 《中国信息界》 2026年第3期224-226,共3页
引言,自GPU(Graphics Processing Unit,图形处理器)从图形渲染硬件演进为通用并行计算核心以来,其在深度学习、科学模拟等领域的应用日益广泛,但不同架构GPU的性能差异与复杂场景下的计算、内存瓶颈动态转换,使并行计算能力评估面临挑... 引言,自GPU(Graphics Processing Unit,图形处理器)从图形渲染硬件演进为通用并行计算核心以来,其在深度学习、科学模拟等领域的应用日益广泛,但不同架构GPU的性能差异与复杂场景下的计算、内存瓶颈动态转换,使并行计算能力评估面临挑战。当前研究多聚焦单一指标或工具,缺乏架构、指标、方法的系统性关联分析,且传统测试体系难以适配混合精度计算等新需求。本文从GPU并行计算原理与架构特性出发,梳理浮点运算性能、内存带宽等核心测试指标,剖析基准测试、压力测试以及应用程序测试的技术路径,构建贴合实际场景的测试技术框架,为GPU选型、算法优化以及高性能计算系统构建提供量化支撑。 展开更多
关键词 浮点运算 基准测试 性能测试 gpu 并行计算
在线阅读 下载PDF
A Parallelized Grey Wolf Optimizer-Based Fuzzy C-Means for Fast and Accurate MRI Segmentation on GPU
17
作者 Mohammed Debakla Ali Mezaghrani +1 位作者 Khalifa Djemal Imane Zouaneb 《Computers, Materials & Continua》 2026年第2期668-688,共21页
Magnetic Resonance Imaging(MRI)has a pivotal role in medical image analysis,for its ability in supporting disease detection and diagnosis.Fuzzy C-Means(FCM)clustering is widely used for MRI segmentation due to its abi... Magnetic Resonance Imaging(MRI)has a pivotal role in medical image analysis,for its ability in supporting disease detection and diagnosis.Fuzzy C-Means(FCM)clustering is widely used for MRI segmentation due to its ability to handle image uncertainty.However,the latter still has countless limitations,including sensitivity to initialization,susceptibility to local optima,and high computational cost.To address these limitations,this study integrates Grey Wolf Optimization(GWO)with FCM to enhance cluster center selection,improving segmentation accuracy and robustness.Moreover,to further refine optimization,Fuzzy Entropy Clustering was utilized for its distinctive features from other traditional objective functions.Fuzzy entropy effectively quantifies uncertainty,leading to more well-defined clusters,improved noise robustness,and better preservation of anatomical structures in MRI images.Despite these advantages,the iterative nature of GWO and FCM introduces significant computational overhead,which restricts their applicability to high-resolution medical images.To overcome this bottleneck,we propose a Parallelized-GWO-based FCM(P-GWO-FCM)approach using GPU acceleration,where both GWO optimization and FCM updates(centroid computation and membership matrix updates)are parallelized.By concurrently executing these processes,our approach efficiently distributes the computational workload,significantly reducing execution time while maintaining high segmentation accuracy.The proposed parallel method,P-GWO-FCM,was evaluated on both simulated and clinical brain MR images,focusing on segmenting white matter,gray matter,and cerebrospinal fluid regions.The results indicate significant improvements in segmentation accuracy,achieving a Jaccard Similarity(JS)of 0.92,a Partition Coefficient Index(PCI)of 0.91,a Partition Entropy Index(PEI)of 0.25,and a Davies-Bouldin Index(DBI)of 0.30.Experimental comparisons demonstrate that P-GWO-FCM outperforms existing methods in both segmentation accuracy and computational efficiency,making it a promising solution for real-time medical image segmentation. 展开更多
关键词 Grey wolf optimizer FCM gpu parallel MRI segmentation
在线阅读 下载PDF
AI推理GPU芯片公司曦望完成近30亿元融资
18
《中国集成电路》 2026年第3期86-86,共1页
近日,AI推理GPU芯片公司曦望(Sunrise)宣布,一年内已完成近30亿元融资。投资方包括三一集团旗下华胥基金、范式智能、杭州数据集团等产业投资方,以及IDG资本、高榕创投、无极资本等知名VC/PE机构,更获得诚通混改基金等国资背景资本加持... 近日,AI推理GPU芯片公司曦望(Sunrise)宣布,一年内已完成近30亿元融资。投资方包括三一集团旗下华胥基金、范式智能、杭州数据集团等产业投资方,以及IDG资本、高榕创投、无极资本等知名VC/PE机构,更获得诚通混改基金等国资背景资本加持。资金将用于下一代推理GPU研发、规模化量产及生态共建。 展开更多
关键词 AI推理 曦望 gpu芯片 规模化量产 融资 产业投资
在线阅读 下载PDF
GPU‑accelerated Monte Carlo method for dose calculation of mesh‑type computational phantoms
19
作者 Shu‑Chang Yan Rui Qiu +3 位作者 Xi‑Yu Luo An‑Kang Hu Zhen Wu Jun‑Li Li 《Nuclear Science and Techniques》 2026年第1期297-308,共12页
Computational phantoms play an essential role in radiation dosimetry and health physics.Although mesh-type phantoms offer a high resolution and adjustability,their use in dose calculations is limited by their slow com... Computational phantoms play an essential role in radiation dosimetry and health physics.Although mesh-type phantoms offer a high resolution and adjustability,their use in dose calculations is limited by their slow computational speed.Progress in heterogeneous computing has allowed for substantial acceleration in the computation of mesh-type phantoms by utilizing hardware accelerators.In this study,a GPU-accelerated Monte Carlo method was developed to expedite the dose calculation for mesh-type computational phantoms.This involved designing and implementing the entire procedural flow of a GPUaccelerated Monte Carlo program.We employed acceleration structures to process the mesh-type phantom,optimized the traversal methodology,and achieved a flattened structure to overcome the limitations of GPU stack depths.Particle transport methods were realized within the mesh-type phantom,encompassing particle location and intersection techniques.In response to typical external irradiation scenarios,we utilized Geant4 along with the GPU program and its CPU serial code for dose calculations,assessing both computational accuracy and efficiency.In comparison with the benchmark simulated using Geant4 on the CPU using one thread,the relative differences in the organ dose calculated by the GPU program predominantly lay within a margin of 5%,whereas the computational time was reduced by a factor ranging from 120 to 2700.To the best of our knowledge,this study achieved a GPU-accelerated dose calculation method for mesh-type phantoms for the first time,reducing the computational time from hours to seconds per simulation of ten million particles and offering a swift and precise Monte Carlo method for dose calculation in mesh-type computational phantoms. 展开更多
关键词 gpu Monte Carloference Mesh-type phantom External exposure Heterogeneous
暂未订购
CUDA‑based GPU‑only computation for efficient tracking simulation of single and multi‑bunch collective effects
20
作者 Keon Hee Kim Eun‑San Kim 《Nuclear Science and Techniques》 2026年第1期61-79,共19页
Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based met... Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based methods,tracking on a single CPU core,or parallelizing the computation across multiple cores via the message passing interface(MPI).Although these approaches work well for single-bunch tracking,scaling them to multiple bunches significantly increases the computational load,which often necessitates the use of a dedicated multi-CPU cluster.To address this challenge,alternative methods leveraging General-Purpose computing on Graphics Processing Units(GPGPU)have been proposed,enabling tracking studies on a standalone desktop personal computer(PC).However,frequent CPU-GPU interactions,including data transfers and synchronization operations during tracking,can introduce communication overheads,potentially reducing the overall effectiveness of GPU-based computations.In this study,we propose a novel approach that eliminates this overhead by performing the entire tracking simulation process exclusively on the GPU,thereby enabling the simultaneous processing of all bunches and their macro-particles.Specifically,we introduce MBTRACK2-CUDA,a Compute Unified Device Architecture(CUDA)ported version of MBTRACK2,which facilitates efficient tracking of single-and multi-bunch collective effects by leveraging the full GPU-resident computation. 展开更多
关键词 Code development gpu computing Collective effects
在线阅读 下载PDF
上一页 1 2 241 下一页 到第
使用帮助 返回顶部