期刊文献+
共找到2,424篇文章
< 1 2 122 >
每页显示 20 50 100
面向GPU的稀疏对角矩阵自适应SpMV优化方法
1
作者 王宇华 何俊飞 +2 位作者 张宇琪 兰海燕 曹林琳 《计算机工程》 北大核心 2026年第3期332-345,共14页
稀疏矩阵向量乘(SpMV)是稀疏线性系统的计算核心和瓶颈,其运算效率会影响迭代求解器的整体性能,其优化研究一直是科学计算和工程应用领域中的研究热点之一。偏微分方程的离散化会产生稀疏对角矩阵,由于其多样的非零元分布,导致没有一种... 稀疏矩阵向量乘(SpMV)是稀疏线性系统的计算核心和瓶颈,其运算效率会影响迭代求解器的整体性能,其优化研究一直是科学计算和工程应用领域中的研究热点之一。偏微分方程的离散化会产生稀疏对角矩阵,由于其多样的非零元分布,导致没有一种方法能够在所有矩阵中取得最优时间性能。针对上述问题,提出一种面向图形处理单元(GPU)的稀疏对角矩阵自适应SpMV优化方法AST(Adaptive SpMV Tuning)。该方法通过设计特征空间,构建特征提取器,提取矩阵结构精细特征,通过深入分析特征和SpMV方法的相关性,建立可扩展的候选方法集合,形成特征和最优方法的映射关系,构建性能预测工具,实现矩阵最优方法的高效预测。实验结果表明,AST能够取得85.8%的预测准确率,平均时间性能损失为0.09,相比于DIA(Diagonal)、HDIA(Hacked DIA)、HDC(Hybrid of DIA and Compressed Sparse Row)、DIA-Adaptive和DRM(Divide-Rearrange and Merge),能够获得平均20.19、1.86、3.06、3.72和1.53倍的内核运行时间加速和1.05、1.28、12.45、1.94和0.97倍的浮点运算性能加速。 展开更多
关键词 稀疏矩阵向量乘 稀疏对角矩阵 图形处理单元 自适应优化方法 矩阵结构特征
在线阅读 下载PDF
基于GPU和Spark框架的VLBI相关处理架构研究
2
作者 谢科屹 张娟 +3 位作者 童锋贤 郑为民 童力 刘磊 《天文学进展》 北大核心 2026年第1期126-138,共13页
甚长基线干涉测量技术(VLBI)正逐渐向高灵敏度、高时空分辨率方向发展,观测台站数量和观测带宽成倍增加,以至VLBI观测数据量急剧增长,给现有数据处理系统带来了严峻挑战。为满足大规模VLBI数据相关处理的需求,提出并实现了一种基于GPU与... 甚长基线干涉测量技术(VLBI)正逐渐向高灵敏度、高时空分辨率方向发展,观测台站数量和观测带宽成倍增加,以至VLBI观测数据量急剧增长,给现有数据处理系统带来了严峻挑战。为满足大规模VLBI数据相关处理的需求,提出并实现了一种基于GPU与Spark框架的VLBI相关处理架构。测试结果表明,该架构具备高可扩展性与高可靠性,加速比随计算资源扩展呈近线性提升,能够高效处理大规模VLBI数据。这为应对未来VLBI观测任务中的海量数据处理需求奠定了技术基础,也为脉冲星测时阵列中信号合成所需的高速相关处理技术提供了有力支撑。 展开更多
关键词 VLBI 相关处理机 gpu 分布式计算 SPARK
在线阅读 下载PDF
基于斯托克斯平面近似函数与GPU并行的海洋重力梯度模型计算
3
作者 卜靖宇 叶周润 +3 位作者 梁星辉 刘金钊 柳林涛 王嘉琛 《合肥工业大学学报(自然科学版)》 北大核心 2026年第2期253-259,共7页
相对于其他重力场元素,扰动重力梯度能更多地反映变化的不规则地球产生的高频信息。在计算扰动重力梯度时,由于斯托克斯积分较为复杂导致被积函数复杂难以直接用牛顿-莱布尼茨公式计算、且计算的数据量过于庞大导致计算耗时过长。为有... 相对于其他重力场元素,扰动重力梯度能更多地反映变化的不规则地球产生的高频信息。在计算扰动重力梯度时,由于斯托克斯积分较为复杂导致被积函数复杂难以直接用牛顿-莱布尼茨公式计算、且计算的数据量过于庞大导致计算耗时过长。为有效解决该问题,文章使用高斯数值积分解决被积函数复杂的问题,同时利用统一计算设备架构(compute unified device architecture,CUDA)在计算过程中实现了在图形处理器(graphics processing unit,GPU)端的并行计算,根据拉普拉斯方程可以检验计算结果的准确性,并且选取了某海域3°×2°范围海平面的重力异常数据进行计算。结果表明,使用高斯数值积分以及CUDA并行计算的方法,提供准确计算结果的同时也提高了计算效率。 展开更多
关键词 扰动重力梯度 重力异常 CUDA并行计算 图形处理器(gpu) 高斯数值积分
在线阅读 下载PDF
基于GPU共享的深度学习训练任务加速调度框架
4
作者 林辰汐 李嘉伦 +2 位作者 莫萱 周杰英 吴维刚 《计算机工程与科学》 北大核心 2026年第3期389-397,共9页
深度学习DL在众多业务场景中的应用越来越广泛。如何在GPU集群中高效利用资源训练DL任务并缩短任务的完成时间,受到了工业界和学术界的持续关注。单个DL训练任务往往无法充分利用GPU的全部计算资源,传统调度器的独占式GPU分配导致资源... 深度学习DL在众多业务场景中的应用越来越广泛。如何在GPU集群中高效利用资源训练DL任务并缩短任务的完成时间,受到了工业界和学术界的持续关注。单个DL训练任务往往无法充分利用GPU的全部计算资源,传统调度器的独占式GPU分配导致资源利用率低下。提出一种基于GPU共享的任务调度框架G-Share,允许多个DL任务共享同一个GPU进行训练,即进行混部调度。在感知任务间混部干扰的基础上进行任务调度与资源分配,以提高GPU利用率进而加速任务的执行。具体来说,首先通过离线建模与在线更新的方式刻画任务间相互干扰的信息,并将基于GPU共享的调度问题建模为一个带权二部图最小匹配问题,通过求解该问题来获得资源分配结果,并结合时间片机制实现任务的动态调度来感知在线场景中任务最优混部组合的变化。在商汤科技的DL任务负载数据集上的实验表明,G-Share相比于对比方法实现了20.6%的任务平均完成时间减少。 展开更多
关键词 云计算 深度学习 资源调度 gpu共享 任务间干扰
在线阅读 下载PDF
GPU加速的高维向量聚类算法
5
作者 李忠根 龚盛豪 +3 位作者 于浩然 朱轶凡 柳晴 高云君 《软件学报》 北大核心 2026年第3期1037-1057,共21页
聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领... 聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领域得到了广泛应用.然而,现有的基于密度的聚类算法在处理高维向量数据时将产生极高的时间代价且面临维度灾难等问题,难以在实际场景中部署应用.此外,随着信息技术的发展,高维向量数据规模急剧增加,使用CPU进行高维向量聚类在时间代价和可扩展性等方面将面临更大的挑战.为此,提出一种GPU加速的高维向量聚类算法,通过引入K近邻(K-nearest neighbor,KNN)图索引加速DBSCAN的计算.首先,设计了GPU加速的并行K近邻图构建算法,显著降低了K近邻图索引的构建开销.其次,提出了基于层间并行的K-means树分区算法及基于广度优先搜索和核心近邻图的并行聚类算法,改进了DBSCAN算法的计算流程,实现了高并发向量聚类.最后,在真实向量数据集上进行了大量实验,并将所提出的方法与现有方法进行了性能对比.实验结果表明,所提方法在保证聚类精度的前提下,将大规模向量聚类的效率提高了5.7–2822.5倍. 展开更多
关键词 基于密度的聚类 高维向量 gpu加速 并行计算 K近邻图
在线阅读 下载PDF
近场三维CZT波束形成算法的GPU实现及性能优化
6
作者 徐浚洋 刘祖延 +2 位作者 于晓阳 周天 陈宝伟 《应用声学》 北大核心 2026年第2期434-443,共10页
针对在面阵波束形成过程中运算量大、难以做到实时成像的问题,文章使用图形处理器(GPU)在Visual Studio2019平台上对三维线性调频Z变换(CZT)波束形成算法进行加速,实现了三维CZT波束形成算法的并行化,从存储结构和对数据的访存等方面进... 针对在面阵波束形成过程中运算量大、难以做到实时成像的问题,文章使用图形处理器(GPU)在Visual Studio2019平台上对三维线性调频Z变换(CZT)波束形成算法进行加速,实现了三维CZT波束形成算法的并行化,从存储结构和对数据的访存等方面进行了针对性的设计,有效地利用了GPU的单指令多线程的特性,这些改进提升了算法的运行效率。通过实测数据显示,对于相同的声呐数据,GPU并行处理的计算效率高于CPU串行处理38倍以上,在采样点数量较少的情况下,三维CZT波束形成算法的计算效率明显优于传统的相移波束形成算法。这些发现证实了该方法在小型声呐设备中的应用前景广阔,具有一定的应用价值。 展开更多
关键词 CZT波束形成 图形处理器 平面阵列 并行计算 算法优化
在线阅读 下载PDF
A Subdomain-Based GPU Parallel Scheme for Accelerating Perdynamics Modeling with Reduced Graphics Memory
7
作者 Zuokun Yang Jun Li +1 位作者 Xin Lai Lisheng Liu 《Computer Modeling in Engineering & Sciences》 2026年第1期256-285,共30页
Peridynamics(PD)demonstrates unique advantages in addressing fracture problems,however,its nonlocality and meshfree discretization result in high computational and storage costs.Moreover,in its engineering application... Peridynamics(PD)demonstrates unique advantages in addressing fracture problems,however,its nonlocality and meshfree discretization result in high computational and storage costs.Moreover,in its engineering applications,the computational scale of classical GPU parallel schemes is often limited by the finite graphics memory of GPU devices.In the present study,we develop an efficient particle information management strategy based on the cell-linked list method and on this basis propose a subdomain-based GPU parallel scheme,which exhibits outstanding acceleration performance in specific compute kernels while significantly reducing graphics memory usage.Compared to the classical parallel scheme,the cell-linked list method facilitates efficient management of particle information within subdomains,enabling the proposed parallel scheme to effectively reduce graphics memory usage by optimizing the size and number of subdomains while significantly improving the speed of neighbor search.As demonstrated in PD examples,the proposed parallel scheme enhances the neighbor search efficiency dramatically and achieves a significant speedup relative to serial programs.For instance,without considering the time of data transmission,the proposed scheme achieves a remarkable speedup of nearly 1076.8×in one test case,due to its excellent computational efficiency in the neighbor search.Additionally,for 2D and 3D PD models with tens of millions of particles,the graphics memory usage can be reduced up to 83.6%and 85.9%,respectively.Therefore,this subdomain-based GPU parallel scheme effectively avoids graphics memory shortages while significantly improving the computational efficiency,providing new insights into studying more complex large-scale problems. 展开更多
关键词 PERIDYNAMICS gpu CUDA parallel computing cell-linked list
在线阅读 下载PDF
CUDA‑based GPU‑only computation for efficient tracking simulation of single and multi‑bunch collective effects
8
作者 Keon Hee Kim Eun‑San Kim 《Nuclear Science and Techniques》 2026年第1期61-79,共19页
Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based met... Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based methods,tracking on a single CPU core,or parallelizing the computation across multiple cores via the message passing interface(MPI).Although these approaches work well for single-bunch tracking,scaling them to multiple bunches significantly increases the computational load,which often necessitates the use of a dedicated multi-CPU cluster.To address this challenge,alternative methods leveraging General-Purpose computing on Graphics Processing Units(GPGPU)have been proposed,enabling tracking studies on a standalone desktop personal computer(PC).However,frequent CPU-GPU interactions,including data transfers and synchronization operations during tracking,can introduce communication overheads,potentially reducing the overall effectiveness of GPU-based computations.In this study,we propose a novel approach that eliminates this overhead by performing the entire tracking simulation process exclusively on the GPU,thereby enabling the simultaneous processing of all bunches and their macro-particles.Specifically,we introduce MBTRACK2-CUDA,a Compute Unified Device Architecture(CUDA)ported version of MBTRACK2,which facilitates efficient tracking of single-and multi-bunch collective effects by leveraging the full GPU-resident computation. 展开更多
关键词 Code development gpu computing Collective effects
在线阅读 下载PDF
Enhancing SS-OCT 3D image reconstruction:A real-time system with stripe artifact suppression and GPU parallel acceleration
9
作者 Dandan LIU 《虚拟现实与智能硬件(中英文)》 2026年第1期115-130,共16页
Optical coherence tomography(OCT),particularly Swept-Source OCT,is widely employed in medical diagnostics and industrial inspections owing to its high-resolution imaging capabilities.However,Swept-Source OCT 3D imagin... Optical coherence tomography(OCT),particularly Swept-Source OCT,is widely employed in medical diagnostics and industrial inspections owing to its high-resolution imaging capabilities.However,Swept-Source OCT 3D imaging often suffers from stripe artifacts caused by unstable light sources,system noise,and environmental interference,posing challenges to real-time processing of large-scale datasets.To address this issue,this study introduces a real-time reconstruction system that integrates stripe-artifact suppression and parallel computing using a graphics processing unit.This approach employs a frequency-domain filtering algorithm with adaptive anti-suppression parameters,dynamically adjusted through an image quality evaluation function and optimized using a convolutional neural network for complex frequency-domain feature learning.Additionally,a graphics processing unit integrated 3D reconstruction framework is developed,enhancing data processing throughput and real-time performance via a dual-queue decoupling mechanism.Experimental results demonstrate significant improvements in structural similarity(0.92),peak signal-to-noise ratio(31.62 dB),and stripe suppression ratio(15.73 dB)compared with existing methods.On the RTX 4090 platform,the proposed system achieved an end-to-end delay of 94.36 milliseconds,a frame rate of 10.3 frames per second,and a throughput of 121.5 million voxels per second,effectively suppressing artifacts while preserving image details and enhancing real-time 3D reconstruction performance. 展开更多
关键词 Stripe artifact suppression 3D reconstruction gpu parallel computing Adaptive frequency domain filtering Convolutional neural network
在线阅读 下载PDF
基于CPU-GPU的超音速流场N-S方程数值模拟
10
作者 卢志伟 张皓茹 +3 位作者 刘锡尧 王亚东 张卓凯 张君安 《中国机械工程》 北大核心 2025年第9期1942-1950,共9页
为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并... 为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并行计算速度明显高于CPU串行计算速度,其加速比随流场网格规模的增大而明显提高。GPU并行计算可以有效提高超音速流场的计算速度,为超音速飞行器的设计、优化、性能评估及其研发提供一种强有力的并行计算方法。 展开更多
关键词 超音速流场 中央处理器-图形处理器 异构计算 有限差分
在线阅读 下载PDF
异构CPU-GPU系统机密计算综述
11
作者 郝萌 李佳勇 +1 位作者 杨洪伟 张伟哲 《信息网络安全》 北大核心 2025年第11期1658-1672,共15页
随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为... 随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为保护使用中的数据提供了有效方案,但现有技术主要集中在CPU端。将TEE安全边界无缝扩展至计算引擎核心GPU,已成为当前学术界与工业界关注的焦点。文章对CPU-GPU异构系统中的机密计算技术进行系统性综述。首先,文章回顾了机密计算的基本概念并剖析了针对GPU的典型攻击向量。然后,对现有GPU机密计算方案进行分类,涵盖硬件辅助、软硬件协同及纯软件实现等技术范式。最后,文章总结了该领域面临的关键挑战,并展望了未来研究方向。 展开更多
关键词 机密计算 可信执行环境 异构计算 gpu
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
12
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
CPU+GPU并行加速的星链信号实时高精度频率估计算法
13
作者 代传金 秦培杰 +1 位作者 李林 臧博 《航空学报》 北大核心 2025年第24期215-228,共14页
星链下行信号实时高精度频率估计算法设计与实现是LEO卫星动态机会导航工程应用的关键技术。针对传统极大似然估计、频域滑窗估计及卡尔曼滤波等算法在低信噪比星链信号捕获中鲁棒性差、实时性不足的问题,提出多子载波联合频偏估计(MC-J... 星链下行信号实时高精度频率估计算法设计与实现是LEO卫星动态机会导航工程应用的关键技术。针对传统极大似然估计、频域滑窗估计及卡尔曼滤波等算法在低信噪比星链信号捕获中鲁棒性差、实时性不足的问题,提出多子载波联合频偏估计(MC-JFE)算法,通过深度挖掘信号多子载波结构特征,联合优化载波频率与频率间隔参数,提升频率估计精度与实时性。为突破MC-JFE算法工程应用中密集计算瓶颈,创新构建了一种CPU+GPU异构并行的加速处理架构,通过协同调度CPU逻辑控制与GPU大规模并行计算能力,算法执行效率实现超一个数量级提升。为验证设计算法的理论与技术实现有效性,基于半实物仿真平台生成的星链下行信标数据,开展了5978颗星链卫星信号实时频率估计试验,并结合我国边境地区实测信号进行多普勒估计算法对比研究。结果表明:所提出的MC-JFE算法在−10~10 dB全信噪比范围内保持最低估计误差边界,估计精度提升50%以上(0 dB);通过相位信息融合机制,在部分子载波中断时维持稳定输出;基于CUDA最优线程块配置的CPU+GPU异构架构,加速比峰值达47倍,较传统CPU方案提升2.8倍,且精度与加速比呈正相关特性,为LEO卫星动态机会导航提供了高可靠、强实时的频率估计技术支撑,具有重要工程应用价值。 展开更多
关键词 星链下行信号 高精度频率估计 CPU+gpu异构 并行加速 多线程处理
原文传递
An incompressible flow solver on a GPU/CPU heterogeneous architecture parallel computing platform 被引量:1
14
作者 Qianqian Li Rong Li Zixuan Yang 《Theoretical & Applied Mechanics Letters》 CSCD 2023年第5期387-393,共7页
A computational fluid dynamics(CFD)solver for a GPU/CPU heterogeneous architecture parallel computing platform is developed to simulate incompressible flows on billion-level grid points.To solve the Poisson equation,t... A computational fluid dynamics(CFD)solver for a GPU/CPU heterogeneous architecture parallel computing platform is developed to simulate incompressible flows on billion-level grid points.To solve the Poisson equation,the conjugate gradient method is used as a basic solver,and a Chebyshev method in combination with a Jacobi sub-preconditioner is used as a preconditioner.The developed CFD solver shows good performance on parallel efficiency,which exceeds 90%in the weak-scalability test when the number of grid points allocated to each GPU card is greater than 2083.In the acceleration test,it is found that running a simulation with 10403 grid points on 125 GPU cards accelerates by 203.6x over the same number of CPU cores.The developed solver is then tested in the context of a two-dimensional lid-driven cavity flow and three-dimensional Taylor-Green vortex flow.The results are consistent with previous results in the literature. 展开更多
关键词 gpu Acceleration Parallel computing Poisson equation PRECONDITIONER
在线阅读 下载PDF
The inversion of density structure by graphic processing unit(GPU) and identification of igneous rocks in Xisha area 被引量:1
15
作者 Lei Yu Jian Zhang +2 位作者 Wei Lin Rongqiang Wei Shiguo Wu 《Earthquake Science》 2014年第1期117-125,共9页
Organic reefs, the targets of deep-water petro- leum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the ig... Organic reefs, the targets of deep-water petro- leum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the igneous rocks have become interference for future explo- ration by having similar seismic reflection characteristics. Yet, the density and magnetism of organic reefs are very different from igneous rocks. It has obvious advantages to identify organic reefs and igneous rocks by gravity and magnetic data. At first, frequency decomposition was applied to the free-air gravity anomaly in Xisha area to obtain the 2D subdivision of the gravity anomaly and magnetic anomaly in the vertical direction. Thus, the dis- tribution of igneous rocks in the horizontal direction can be acquired according to high-frequency field, low-frequency field, and its physical properties. Then, 3D forward model- ing of gravitational field was carried out to establish the density model of this area by reference to physical properties of rocks based on former researches. Furthermore, 3D inversion of gravity anomaly by genetic algorithm method of the graphic processing unit (GPU) parallel processing in Xisha target area was applied, and 3D density structure of this area was obtained. By this way, we can confine the igneous rocks to the certain depth according to the density of the igneous rocks. The frequency decomposition and 3D inversion of gravity anomaly by genetic algorithm method of the GPU parallel processing proved to be a useful method for recognizing igneous rocks to its 3D geological position. So organic reefs and igneous rocks can be identified, which provide a prescient information for further exploration. 展开更多
关键词 Xisha area Organic reefs and igneous rocks -Frequency decomposition of potential field 3D inversionof the graphic processing unit gpu parallel processing
在线阅读 下载PDF
Study of a GPU-based parallel computing method for the Monte Carlo program 被引量:2
16
作者 罗志飞 邱睿 +3 位作者 李明 武祯 曾志 李君利 《Nuclear Science and Techniques》 SCIE CAS CSCD 2014年第A01期27-30,共4页
关键词 并行计算方法 蒙特卡罗程序 gpu GEANT4 模拟程序 蒙特卡洛方法 并行处理能力 图形处理单元
在线阅读 下载PDF
The Changing Face of High Performance Computing in the United States 被引量:2
17
作者 Ann Haves(Advanced Computing Laboratory Los Alamos National Laboratory Los Alamos. NM 87545, USA) 《Wuhan University Journal of Natural Sciences》 CAS 1996年第Z1期309-311,共3页
TheChangingFaceofHighPerformanceComputingintheUnitedStatesAnnHaves(AdvancedComputingLaboratoryLosAlamosNatio... TheChangingFaceofHighPerformanceComputingintheUnitedStatesAnnHaves(AdvancedComputingLaboratoryLosAlamosNationalLaboratoryLosA... 展开更多
关键词 The Changing Face of High Performance computing in the united States
在线阅读 下载PDF
Real-time 3D Microtubule Gliding Simulation Accelerated by GPU Computing
18
作者 Gregory Gutmann Daisuke Inoue +1 位作者 Akira Kakugo Akihiko Konagaya 《International Journal of Automation and computing》 EI CSCD 2016年第2期108-116,共9页
A microtubule gliding assay is a biological experiment observing the dynamics of microtubules driven by motor proteins fixed on a glass surface. When appropriate microtubule interactions are set up on gliding assay ex... A microtubule gliding assay is a biological experiment observing the dynamics of microtubules driven by motor proteins fixed on a glass surface. When appropriate microtubule interactions are set up on gliding assay experiments, microtubules often organize and create higher-level dynamics such as ring and bundle structures. In order to reproduce such higher-level dynamics on computers, we have been focusing on making a real-time 3D microtubule simulation. This real-time 3D microtubule simulation enables us to gain more knowledge on microtubule dynamics and their swarm movements by means of adjusting simulation paranleters in a real-time fashion. One of the technical challenges when creating a real-time 3D simulation is balancing the 3D rendering and the computing performance. Graphics processor unit (GPU) programming plays an essential role in balancing the millions of tasks, and makes this real-time 3D simulation possible. By the use of general-purpose computing on graphics processing units (GPGPU) programming we are able to run the simulation in a massively parallel fashion, even when dealing with more complex interactions between microtubules such as overriding and snuggling. Due to performance being an important factor, a performance n, odel has also been constructed from the analysis of the microtubule simulation and it is consistent with the performance measurements on different GPGPU architectures with regards to the number of cores and clock cycles. 展开更多
关键词 Microtubule gliding assay 3D computer graphics and simulation parallel computing performance analysis general- purpose computing on graphics processing units (GPgpu compute unified device arshitecture (CUDA) DirectX.
原文传递
Regularized focusing inversion for large-scale gravity data based on GPU parallel computing
19
作者 WANG Haoran DING Yidan +1 位作者 LI Feida LI Jing 《Global Geology》 2019年第3期179-187,共9页
Processing large-scale 3-D gravity data is an important topic in geophysics field. Many existing inversion methods lack the competence of processing massive data and practical application capacity. This study proposes... Processing large-scale 3-D gravity data is an important topic in geophysics field. Many existing inversion methods lack the competence of processing massive data and practical application capacity. This study proposes the application of GPU parallel processing technology to the focusing inversion method, aiming at improving the inversion accuracy while speeding up calculation and reducing the memory consumption, thus obtaining the fast and reliable inversion results for large complex model. In this paper, equivalent storage of geometric trellis is used to calculate the sensitivity matrix, and the inversion is based on GPU parallel computing technology. The parallel computing program that is optimized by reducing data transfer, access restrictions and instruction restrictions as well as latency hiding greatly reduces the memory usage, speeds up the calculation, and makes the fast inversion of large models possible. By comparing and analyzing the computing speed of traditional single thread CPU method and CUDA-based GPU parallel technology, the excellent acceleration performance of GPU parallel computing is verified, which provides ideas for practical application of some theoretical inversion methods restricted by computing speed and computer memory. The model test verifies that the focusing inversion method can overcome the problem of severe skin effect and ambiguity of geological body boundary. Moreover, the increase of the model cells and inversion data can more clearly depict the boundary position of the abnormal body and delineate its specific shape. 展开更多
关键词 LARGE-SCALE gravity data gpu parallel computing CUDA equivalent geometric TRELLIS FOCUSING INVERSION
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
20
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
上一页 1 2 122 下一页 到第
使用帮助 返回顶部