期刊文献+
共找到4,736篇文章
< 1 2 237 >
每页显示 20 50 100
面向分布式集群的GPU性能分析与建模方法:现状及展望
1
作者 赵海燕 李志凯 +1 位作者 钱诗友 曹健 《小型微型计算机系统》 北大核心 2026年第1期58-72,共15页
随着人工智能与高性能计算的快速发展,模型复杂度和数据规模持续增长,使得单个GPU难以应对大规模计算任务.因此,分布式GPU集群已成为现代深度学习与科学计算任务的重要基础设施.为了充分发挥此类系统的计算潜力,高效的性能分析与建模方... 随着人工智能与高性能计算的快速发展,模型复杂度和数据规模持续增长,使得单个GPU难以应对大规模计算任务.因此,分布式GPU集群已成为现代深度学习与科学计算任务的重要基础设施.为了充分发挥此类系统的计算潜力,高效的性能分析与建模方法在识别系统瓶颈、优化资源利用以及指导系统设计决策方面显得尤为关键.本文系统综述了分布式集群环境中GPU性能分析与建模的前沿方法.首先深入剖析了当前主流GPU架构及其内部机制,解释其在并行计算任务中高效性的来源.随后介绍了常用的性能指标与分析工具,为架构师与运维工程师根据具体应用需求选择合适的分析框架提供实践指导.文章进一步探讨了包括瓶颈识别、故障归因及细粒度性能刻画在内的先进建模方法.最后,本文讨论了该领域仍存在的挑战,并展望了未来构建更精准、可扩展且可解释的GPU性能分析方法的发展方向. 展开更多
关键词 gpu性能分析方法 分布式集群 深度学习训练及推理 性能建模
在线阅读 下载PDF
面向稀疏矩阵向量乘法的GPU性能建模和算法优化
2
作者 马澄宇 李锁兰 +3 位作者 刘一诺 赵文哲 任鹏举 夏天 《集成电路与嵌入式系统》 2026年第1期5-11,共7页
针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别... 针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别采用线程级和线程块级并行策略进行计算,从而有效缓解GPU SIMT执行特性与稀疏矩阵非规则数据分布之间的矛盾。为量化预处理过程中引入的额外开销,分别建立了针对Atomic Conflict和Padding的性能损失模型,将额外的访存和计算转换为可计算的开销函数。基于上述模型,构建了参数空间搜索算法,通过预先获取硬件性能指标和矩阵非零元分布信息,快速在参数集合中搜索得到最优预处理参数。实验结果表明,该优化算法在多种典型稀疏矩阵数据集上均优于传统的GPU稀疏计算库cuSPARSE,在部分场景下性能提升达1.26倍及1.17倍。此外,参数搜索开销较低,且该方法具备良好的通用性,可适配不同的输入矩阵与GPU硬件架构。 展开更多
关键词 gpu性能建模 并行算法优化 稀疏矩阵 SpMV
在线阅读 下载PDF
面向电力系统AI训练的GPU虚拟化弹性调度算法研究
3
作者 张田佳 奥伟 +1 位作者 张作宇 樊淑炎 《电气自动化》 2026年第1期55-58,共4页
针对电力系统人工智能训练中图形处理器(graphics processing unit,GPU)资源利用率低、碎片化严重及边缘-中心协同适配性差的问题,提出一种基于GPU虚拟化弹性调度优化框架。通过NVIDIA多实例GPU硬件分区与轻量级虚拟图形处理单元软件切... 针对电力系统人工智能训练中图形处理器(graphics processing unit,GPU)资源利用率低、碎片化严重及边缘-中心协同适配性差的问题,提出一种基于GPU虚拟化弹性调度优化框架。通过NVIDIA多实例GPU硬件分区与轻量级虚拟图形处理单元软件切片技术构建细粒度资源池,实现计算与显存资源解耦;融合改进型首次适应算法与模拟退火优化模块,降低显存碎片率,结合改进型Conv-Seq2Seq模型的三路异构卷积核,提高负载预测准确率。试验结果表明:所提研究方法在省级电网GPU调度系统中显著提升资源利用率至81.2%,响应延迟≤50 ms,显存碎片率降至11.8%,为电力AI训练提供了从硬件解耦到智能决策的一体化支撑。 展开更多
关键词 显存碎片率优化 gpu虚拟化弹性调度 边缘-中心协同 首次适应算法 电力系统人工智能训练
在线阅读 下载PDF
GPU‑accelerated Monte Carlo method for dose calculation of mesh‑type computational phantoms
4
作者 Shu‑Chang Yan Rui Qiu +3 位作者 Xi‑Yu Luo An‑Kang Hu Zhen Wu Jun‑Li Li 《Nuclear Science and Techniques》 2026年第1期297-308,共12页
Computational phantoms play an essential role in radiation dosimetry and health physics.Although mesh-type phantoms offer a high resolution and adjustability,their use in dose calculations is limited by their slow com... Computational phantoms play an essential role in radiation dosimetry and health physics.Although mesh-type phantoms offer a high resolution and adjustability,their use in dose calculations is limited by their slow computational speed.Progress in heterogeneous computing has allowed for substantial acceleration in the computation of mesh-type phantoms by utilizing hardware accelerators.In this study,a GPU-accelerated Monte Carlo method was developed to expedite the dose calculation for mesh-type computational phantoms.This involved designing and implementing the entire procedural flow of a GPUaccelerated Monte Carlo program.We employed acceleration structures to process the mesh-type phantom,optimized the traversal methodology,and achieved a flattened structure to overcome the limitations of GPU stack depths.Particle transport methods were realized within the mesh-type phantom,encompassing particle location and intersection techniques.In response to typical external irradiation scenarios,we utilized Geant4 along with the GPU program and its CPU serial code for dose calculations,assessing both computational accuracy and efficiency.In comparison with the benchmark simulated using Geant4 on the CPU using one thread,the relative differences in the organ dose calculated by the GPU program predominantly lay within a margin of 5%,whereas the computational time was reduced by a factor ranging from 120 to 2700.To the best of our knowledge,this study achieved a GPU-accelerated dose calculation method for mesh-type phantoms for the first time,reducing the computational time from hours to seconds per simulation of ten million particles and offering a swift and precise Monte Carlo method for dose calculation in mesh-type computational phantoms. 展开更多
关键词 gpu Monte Carloference Mesh-type phantom External exposure Heterogeneous
暂未订购
CUDA‑based GPU‑only computation for efficient tracking simulation of single and multi‑bunch collective effects
5
作者 Keon Hee Kim Eun‑San Kim 《Nuclear Science and Techniques》 2026年第1期61-79,共19页
Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based met... Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based methods,tracking on a single CPU core,or parallelizing the computation across multiple cores via the message passing interface(MPI).Although these approaches work well for single-bunch tracking,scaling them to multiple bunches significantly increases the computational load,which often necessitates the use of a dedicated multi-CPU cluster.To address this challenge,alternative methods leveraging General-Purpose computing on Graphics Processing Units(GPGPU)have been proposed,enabling tracking studies on a standalone desktop personal computer(PC).However,frequent CPU-GPU interactions,including data transfers and synchronization operations during tracking,can introduce communication overheads,potentially reducing the overall effectiveness of GPU-based computations.In this study,we propose a novel approach that eliminates this overhead by performing the entire tracking simulation process exclusively on the GPU,thereby enabling the simultaneous processing of all bunches and their macro-particles.Specifically,we introduce MBTRACK2-CUDA,a Compute Unified Device Architecture(CUDA)ported version of MBTRACK2,which facilitates efficient tracking of single-and multi-bunch collective effects by leveraging the full GPU-resident computation. 展开更多
关键词 Code development gpu computing Collective effects
在线阅读 下载PDF
GPU数据库OLAP优化技术研究 被引量:1
6
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合CPU-gpu平台 gpu加速OLAP OLAP gpu内存 gpu量化处理模型
在线阅读 下载PDF
高性能GPU计算集群应用体系建设 被引量:2
7
作者 杨敏 何芸 +1 位作者 许涛 景少军 《信息系统工程》 2025年第3期102-105,共4页
在长期分析研究高密度数据处理项目作业运行特点的基础上,归纳常规处理和偏移处理两大类应用下,不同处理方法实现模块的资源需求特点及处理员的作业模式,优化组合集群计算、存储、网络三元素技术发展路线及产品性能参数,搭建了硬件架构... 在长期分析研究高密度数据处理项目作业运行特点的基础上,归纳常规处理和偏移处理两大类应用下,不同处理方法实现模块的资源需求特点及处理员的作业模式,优化组合集群计算、存储、网络三元素技术发展路线及产品性能参数,搭建了硬件架构上适用于地震勘探处理应用的高性能GPU计算集群系统。综合应用镜像管理、多种子点分发等多种集群管理及作业调度技术,实现异构集群统一管理及监控,实现油田高性能计算资源共享,高效提升处理生产大规模计算能力,实现绿色高效体系建设。 展开更多
关键词 高性能计算 gpu XCAT 集群管理
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
8
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于GPU加速的三维椭球各向异性介质解耦P波逆时偏移
9
作者 陈娟 黄建平 +2 位作者 吴朦朦 牟阳 王浩坤 《石油物探》 北大核心 2025年第6期1072-1081,共10页
弹性波方程能够较为准确地刻画地震波在实际地层中的运动学和动力学特征,然而,其需要消耗大量的计算时间和占用高额的计算内存。针对弹性波方程求解计算效率低、内存消耗大且纵、横波耦合的问题,从三维VTI介质弹性波方程出发,求解弹性Ch... 弹性波方程能够较为准确地刻画地震波在实际地层中的运动学和动力学特征,然而,其需要消耗大量的计算时间和占用高额的计算内存。针对弹性波方程求解计算效率低、内存消耗大且纵、横波耦合的问题,从三维VTI介质弹性波方程出发,求解弹性Christoffel矩阵特征值,经椭圆近似后推导出椭球各向异性介质解耦P波、SV波和SH波的一阶速度-应力方程。解耦方程正演模拟结果表明,P波、SV波和SH波可以完全解耦且独立传播,适用于弱/强各向异性介质。基于GPU加速技术,实现了一种高效的椭球各向异性介质解耦P波逆时偏移算法。模型试算验证了所提逆时偏移方法在保证成像精度的同时能够显著提升计算效率。 展开更多
关键词 三维逆时偏移 gpu加速 解耦P波 椭球各向异性
在线阅读 下载PDF
CPU+GPU并行加速的星链信号实时高精度频率估计算法
10
作者 代传金 秦培杰 +1 位作者 李林 臧博 《航空学报》 北大核心 2025年第24期215-228,共14页
星链下行信号实时高精度频率估计算法设计与实现是LEO卫星动态机会导航工程应用的关键技术。针对传统极大似然估计、频域滑窗估计及卡尔曼滤波等算法在低信噪比星链信号捕获中鲁棒性差、实时性不足的问题,提出多子载波联合频偏估计(MC-J... 星链下行信号实时高精度频率估计算法设计与实现是LEO卫星动态机会导航工程应用的关键技术。针对传统极大似然估计、频域滑窗估计及卡尔曼滤波等算法在低信噪比星链信号捕获中鲁棒性差、实时性不足的问题,提出多子载波联合频偏估计(MC-JFE)算法,通过深度挖掘信号多子载波结构特征,联合优化载波频率与频率间隔参数,提升频率估计精度与实时性。为突破MC-JFE算法工程应用中密集计算瓶颈,创新构建了一种CPU+GPU异构并行的加速处理架构,通过协同调度CPU逻辑控制与GPU大规模并行计算能力,算法执行效率实现超一个数量级提升。为验证设计算法的理论与技术实现有效性,基于半实物仿真平台生成的星链下行信标数据,开展了5978颗星链卫星信号实时频率估计试验,并结合我国边境地区实测信号进行多普勒估计算法对比研究。结果表明:所提出的MC-JFE算法在−10~10 dB全信噪比范围内保持最低估计误差边界,估计精度提升50%以上(0 dB);通过相位信息融合机制,在部分子载波中断时维持稳定输出;基于CUDA最优线程块配置的CPU+GPU异构架构,加速比峰值达47倍,较传统CPU方案提升2.8倍,且精度与加速比呈正相关特性,为LEO卫星动态机会导航提供了高可靠、强实时的频率估计技术支撑,具有重要工程应用价值。 展开更多
关键词 星链下行信号 高精度频率估计 CPU+gpu异构 并行加速 多线程处理
原文传递
异构CPU-GPU系统机密计算综述
11
作者 郝萌 李佳勇 +1 位作者 杨洪伟 张伟哲 《信息网络安全》 北大核心 2025年第11期1658-1672,共15页
随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为... 随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为保护使用中的数据提供了有效方案,但现有技术主要集中在CPU端。将TEE安全边界无缝扩展至计算引擎核心GPU,已成为当前学术界与工业界关注的焦点。文章对CPU-GPU异构系统中的机密计算技术进行系统性综述。首先,文章回顾了机密计算的基本概念并剖析了针对GPU的典型攻击向量。然后,对现有GPU机密计算方案进行分类,涵盖硬件辅助、软硬件协同及纯软件实现等技术范式。最后,文章总结了该领域面临的关键挑战,并展望了未来研究方向。 展开更多
关键词 机密计算 可信执行环境 异构计算 gpu
在线阅读 下载PDF
基于HTJ2K算法和国产GPU实现的数字电影图像编解码技术研究
12
作者 崔强 《现代电影技术》 2025年第11期7-13,共7页
为满足数字电影对高分辨率、高帧率、高动态范围等技术的发展需求,解决传统JPEG 2000解码速度慢、难以适配国产设备的问题,本文通过算法优化与软硬件协同设计,基于国产GPU及MUSA编程框架,提出了基于CPU/GPU异构协同计算架构的数字电影... 为满足数字电影对高分辨率、高帧率、高动态范围等技术的发展需求,解决传统JPEG 2000解码速度慢、难以适配国产设备的问题,本文通过算法优化与软硬件协同设计,基于国产GPU及MUSA编程框架,提出了基于CPU/GPU异构协同计算架构的数字电影高吞吐量JPEG 2000(HTJ2K)编解码方案,通过离散小波变换(DWT)、量化/反量化及FBCOT算法编解码的并行化实现,结合共享内存优化与数据布局调整,在严格遵循DCI规范的基础上,实现了2K/4K/8K分辨率图像的高效处理。该成果为国产数字电影设备提供了低成本、高效率的图像编解码解决方案,有助于打破国外技术垄断,推动国产LED显示与4K/8K标准的自主发展,对实现中国电影行业全链路技术自主可控具有较大应用价值。 展开更多
关键词 HTJ2K gpu 数字电影 JPEG 2000
在线阅读 下载PDF
联合K-D树和GPU并行运算的CUBE快速滤波方法 被引量:1
13
作者 李枭凯 王力 +2 位作者 李广云 高欣圆 靳海峰 《海洋测绘》 北大核心 2025年第2期14-18,共5页
针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理... 针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理器进行并行处理,从而显著提升了执行速度。实验部分通过比较K-D树与八叉树的索引效率,验证了K-D树在处理大规模点云数据时的优势。将本算法与串行CUBE算法及CARIS HIPS软件的CUBE模块进行对比,结果显示在亿级数据量处理中,滤波速度提高了约13.8倍。此外,本算法在保持数据真实性和去噪效果的前提下,展现了与商业软件相当的处理效率,为多波束测深数据的高效处理提供了有价值的参考。 展开更多
关键词 多波束测深 数据处理 CUBE算法 K-D树 gpu加速
在线阅读 下载PDF
GPU上基于环展开的RTL模拟加速技术研究 被引量:1
14
作者 田茜 李暾 +2 位作者 程悦 皮彦 邹鸿基 《计算机工程与科学》 北大核心 2025年第2期191-199,共9页
随着开源和敏捷硬件设计方法学的发展,为其提供高效的RTL模拟支持变得日益重要。GPU的并行能力使得利用RTL模拟的结构级和激励级并行性加速RTL模拟成为可能。然而,由于时序设计中存在反馈环,如何实现单个Testbench内的数据级并行仍然是... 随着开源和敏捷硬件设计方法学的发展,为其提供高效的RTL模拟支持变得日益重要。GPU的并行能力使得利用RTL模拟的结构级和激励级并行性加速RTL模拟成为可能。然而,由于时序设计中存在反馈环,如何实现单个Testbench内的数据级并行仍然是一个很大的挑战。提出了一种新的利用GPU加速RTL模拟的方法,该方法的核心技术是RTL设计中反馈环的识别与展开,以及基于此的RTL电路划分技术。电路划分和环展开从单个Testbench内的结构并行和数据并行2个方面,发挥了基于GPU的并行能力来加速RTL模拟。实验结果表明,所提出的GPU加速RTL模拟方法,相比传统的基于GPU的RTL模拟方法得到了1.2~107.1倍的加速,相比目前最快的RTL模拟器ESSENT得到了2.2~14倍的加速。 展开更多
关键词 RTL模拟 gpu加速 PyRTL 硬件构造语言 环展开
在线阅读 下载PDF
星脉网络:面向GPU集群集合通信与集中式路由的协同优化 被引量:1
15
作者 李宝嘉 何春志 +2 位作者 夏寅贲 何泽坤 王晓亮 《中兴通讯技术》 北大核心 2025年第2期3-13,共11页
图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信... 图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信库和网络路由控制器,以实现多路径的高效集合通信。为此,针对星脉网络研发了端侧集合通信库(TCCL)以实现最短的跨节点路径规划,同时还开发了全局优化路由器(GOR)以避免路径冲突导致的网络拥塞。在腾讯大模型GPU集群中,星脉网络方案和公开GPU集群方案(NVIDIA NCCL)的对比结果表明:星脉网络可以实现25%的集合通信带宽提升,同时避免80%的由流量冲突造成的网络拥塞问题。 展开更多
关键词 大规模gpu集群 集合通信 负载均衡
在线阅读 下载PDF
一种基于GPU计算的自适应局部降噪并行算法
16
作者 肖汉 杜莹 +1 位作者 王平 周清雷 《南京师大学报(自然科学版)》 北大核心 2025年第4期139-152,共14页
随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件... 随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件架构特征,研究了自适应局部降噪算法在CPU+GPU异构计算平台上的并行计算和性能优化.实验结果显示,在处理8 182×8 182分辨率的图像时,相比CPU串行计算获得了27.39倍加速比,具有较好的数据扩展性.并行算法充分发挥了GPU的并行处理能力.文中提出的方法对图像处理算法的GPU加速提供了新的研究思路. 展开更多
关键词 自适应滤波器 局部噪声 信噪比 gpu CUDA 并行算法
在线阅读 下载PDF
面向边缘GPU设备的快速光流估计算法
17
作者 石珂 聂苏珍 +4 位作者 李东兴 曹杰 盛云龙 姚斌 陈泓霖 《应用光学》 北大核心 2025年第2期355-363,共9页
提出了一种适用于边缘GPU设备的光流估计网络,旨在解决稠密光流估计由于巨大计算量而难以在嵌入式系统上部署的问题。首先,针对充分发挥GPU资源的需求,设计了一个高效的特征提取网络,以降低内存访问成本;其次,通过采用扁平形结构的迭代... 提出了一种适用于边缘GPU设备的光流估计网络,旨在解决稠密光流估计由于巨大计算量而难以在嵌入式系统上部署的问题。首先,针对充分发挥GPU资源的需求,设计了一个高效的特征提取网络,以降低内存访问成本;其次,通过采用扁平形结构的迭代更新模块来估计光流,进一步缩小了模型的尺寸,并提升了GPU带宽的利用率。在不同数据集上的实验结果表明,本文模型具备高效的推理能力和出色的光流估计能力。特别地,与目前先进的轻量级模型相比,所提出的模型在仅使用0.54 Mb参数的情况下,误差减少了12.8%,推理速度提升了22.2%,在嵌入式开发板上展现出了令人满意的性能。 展开更多
关键词 光流估计 嵌入式系统 边缘gpu设备 推理速度
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
18
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
面向GPU平台的通用Stencil自动调优框架
19
作者 孙庆骁 杨海龙 《计算机研究与发展》 北大核心 2025年第10期2622-2634,共13页
Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理... Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理和分块的优化技术.由于Stencil计算模式和GPU架构的多样性,没有单一的优化技术适合所有Stencil实例.因此,研究人员提出了Stencil自动调优机制来对给定优化技术组合进行参数搜索.然而,现有机制引入了庞大的离线分析成本和在线预测开销,并且无法灵活地推广到任意Stencil模式.为了解决上述问题,提出了通用Stencil自动调优框架GeST,其在GPU平台上实现Stencil计算的极致性能优化.具体来说,GeST通过零填充格式构建全局搜索空间,利用变异系数量化参数相关性并生成参数组;之后,GeST迭代地从参数组选取参数值,根据奖励策略调整采样比例并通过哈希编码避免冗余执行.实验结果表明,与其他先进的自动调优工作相比,Ge ST能够在短时间内识别出性能更优的参数设置. 展开更多
关键词 Stencil计算 gpu 自动调优 性能优化 参数搜索
在线阅读 下载PDF
Canny-Devernay亚像素边缘检测GPU加速算法研究
20
作者 张喜民 詹海生 《仪表技术与传感器》 北大核心 2025年第9期113-119,共7页
针对基于CPU的边缘检测算法精度低、处理时间长的问题,采用CUDA核心优化配置、GPU存储访问优化技术和改进轮廓生成方法,设计了基于GPU的Canny-Devernay亚像素边缘检测加速算法。应用Nvidia GeForce RTX 3080高性能显卡等构建了机器视觉... 针对基于CPU的边缘检测算法精度低、处理时间长的问题,采用CUDA核心优化配置、GPU存储访问优化技术和改进轮廓生成方法,设计了基于GPU的Canny-Devernay亚像素边缘检测加速算法。应用Nvidia GeForce RTX 3080高性能显卡等构建了机器视觉实验系统并对算法进行验证。实验结果表明:文中提出的算法对1296像素×964像素高清图像的边缘检测计算平均耗时小于12 ms,与基于CPU的算法相比,检测的边缘更完整、准确、贴近真实边缘,对512像素×512像素以上像素图像的边缘检测计算加速比超过20倍。 展开更多
关键词 边缘检测 亚像素 Canny-Devernay算法 并行加速 gpu
在线阅读 下载PDF
上一页 1 2 237 下一页 到第
使用帮助 返回顶部