期刊文献+
共找到2,363篇文章
< 1 2 119 >
每页显示 20 50 100
基于CPU-GPU的超音速流场N-S方程数值模拟
1
作者 卢志伟 张皓茹 +3 位作者 刘锡尧 王亚东 张卓凯 张君安 《中国机械工程》 北大核心 2025年第9期1942-1950,共9页
为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并... 为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并行计算速度明显高于CPU串行计算速度,其加速比随流场网格规模的增大而明显提高。GPU并行计算可以有效提高超音速流场的计算速度,为超音速飞行器的设计、优化、性能评估及其研发提供一种强有力的并行计算方法。 展开更多
关键词 超音速流场 中央处理器-图形处理器 异构计算 有限差分
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
2
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
3
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
A Hybrid Parallel Strategy for Isogeometric Topology Optimization via CPU/GPU Heterogeneous Computing
4
作者 Zhaohui Xia Baichuan Gao +3 位作者 Chen Yu Haotian Han Haobo Zhang Shuting Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第2期1103-1137,共35页
This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstr... This paper aims to solve large-scale and complex isogeometric topology optimization problems that consumesignificant computational resources. A novel isogeometric topology optimization method with a hybrid parallelstrategy of CPU/GPU is proposed, while the hybrid parallel strategies for stiffness matrix assembly, equationsolving, sensitivity analysis, and design variable update are discussed in detail. To ensure the high efficiency ofCPU/GPU computing, a workload balancing strategy is presented for optimally distributing the workload betweenCPU and GPU. To illustrate the advantages of the proposedmethod, three benchmark examples are tested to verifythe hybrid parallel strategy in this paper. The results show that the efficiency of the hybrid method is faster thanserial CPU and parallel GPU, while the speedups can be up to two orders of magnitude. 展开更多
关键词 Topology optimization high-efficiency isogeometric analysis CPU/gpu parallel computing hybrid OpenMPCUDA
在线阅读 下载PDF
基于GPU的OMCSS水声通信M元解扩算法并行实现
5
作者 彭海源 王巍 +4 位作者 李德瑞 刘彦君 李宇 迟骋 田亚男 《系统工程与电子技术》 北大核心 2025年第3期978-986,共9页
针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现... 针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现的可行性,针对算法内部基础运算单元进行并行优化处理。然后,为了进一步提升GPU并行运行速度,对算法进行基于并发内核执行的M元并行解扩计算架构设计。在中央处理器(central processing unit,CPU)+GPU异构平台上对算法性能进行测试。测试结果表明,设计的M元并行解扩算法相比M元串行解扩算法在运行速度上有最大90.47%的提升,最大加速比为10.5。 展开更多
关键词 正交多载波扩频 水声通信 M元解扩 图形处理模块 并行实现
在线阅读 下载PDF
面向GPU平台的通用Stencil自动调优框架
6
作者 孙庆骁 杨海龙 《计算机研究与发展》 北大核心 2025年第10期2622-2634,共13页
Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理... Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理和分块的优化技术.由于Stencil计算模式和GPU架构的多样性,没有单一的优化技术适合所有Stencil实例.因此,研究人员提出了Stencil自动调优机制来对给定优化技术组合进行参数搜索.然而,现有机制引入了庞大的离线分析成本和在线预测开销,并且无法灵活地推广到任意Stencil模式.为了解决上述问题,提出了通用Stencil自动调优框架GeST,其在GPU平台上实现Stencil计算的极致性能优化.具体来说,GeST通过零填充格式构建全局搜索空间,利用变异系数量化参数相关性并生成参数组;之后,GeST迭代地从参数组选取参数值,根据奖励策略调整采样比例并通过哈希编码避免冗余执行.实验结果表明,与其他先进的自动调优工作相比,Ge ST能够在短时间内识别出性能更优的参数设置. 展开更多
关键词 Stencil计算 gpu 自动调优 性能优化 参数搜索
在线阅读 下载PDF
基于国产GPU的国产公钥密码SM2高性能并行加速方法
7
作者 吴雯 董建阔 +4 位作者 刘鹏博 董振江 胡昕 张品昌 肖甫 《通信学报》 北大核心 2025年第5期15-28,共14页
为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击... 为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击。其次,基于雅可比(Jacobian)坐标实现点加和倍点运算,充分利用寄存器和全局内存的特性,设计离线/在线预计算表以提高点乘计算效率。最后,根据海光深度计算单元(DCU)的特点进行实验设计,实现高性能的SM2签名和验签算法,分别达到6816kops/s的签名吞吐量和1385kops/s的验签吞吐量。研究验证了基于国产GPU的国产公钥密码SM2数字签名算法的可行性和有效性,为国内信息安全自主可控领域提供了重要的技术支持。 展开更多
关键词 国家商用密码 数字签名 图形处理器 异构计算
在线阅读 下载PDF
Providing Robust and Low-Cost Edge Computing in Smart Grid:An Energy Harvesting Based Task Scheduling and Resource Management Framework 被引量:1
8
作者 Xie Zhigang Song Xin +1 位作者 Xu Siyang Cao Jing 《China Communications》 2025年第2期226-240,共15页
Recently,one of the main challenges facing the smart grid is insufficient computing resources and intermittent energy supply for various distributed components(such as monitoring systems for renewable energy power sta... Recently,one of the main challenges facing the smart grid is insufficient computing resources and intermittent energy supply for various distributed components(such as monitoring systems for renewable energy power stations).To solve the problem,we propose an energy harvesting based task scheduling and resource management framework to provide robust and low-cost edge computing services for smart grid.First,we formulate an energy consumption minimization problem with regard to task offloading,time switching,and resource allocation for mobile devices,which can be decoupled and transformed into a typical knapsack problem.Then,solutions are derived by two different algorithms.Furthermore,we deploy renewable energy and energy storage units at edge servers to tackle intermittency and instability problems.Finally,we design an energy management algorithm based on sampling average approximation for edge computing servers to derive the optimal charging/discharging strategies,number of energy storage units,and renewable energy utilization.The simulation results show the efficiency and superiority of our proposed framework. 展开更多
关键词 edge computing energy harvesting energy storage unit renewable energy sampling average approximation task scheduling
在线阅读 下载PDF
复杂地质条件的间断有限元地震波数值模拟及GPU加速
9
作者 韩德超 刘卫华 +2 位作者 张春丽 袁媛 白鹏 《石油物探》 北大核心 2025年第4期639-652,共14页
间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质... 间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质波动方程模拟的DGFEM编程计算矩阵,并进一步得出了适用于各类复杂介质模拟的单一波场分量的通用计算格式。该通用计算格式能够有效提升DGFEM算法编程的可拓展性。基于该格式给出了DGFEM的通用CUDA核函数的构建方法,并形成CPU+GPU的二维DGFEM并行计算程序框架。通用CUDA核函数可以将DGFEM算法进一步延伸到更加复杂的介质以及三维情况。理论模型和复杂山地模型的数值实验结果表明,构建的通用计算格式和CUDA核函数可以准确模拟声波、弹性波、粘弹性波、孔隙弹性波方程描述的纵波、横波以及慢纵波等波现象。相比单核CPU模拟,二维DGFEM弹性波GPU计算加速比平均在100倍左右。同时,弹性波、粘弹性波、孔隙弹性波模拟耗时约为声波模拟的1.7,2.3,3.0倍。此结果可以指导复杂介质耦合条件模拟时多进程的负载平衡。 展开更多
关键词 间断Galerkin有限元方法 弹性波 粘弹性波 孔隙弹性波 数值模拟 gpu并行计算.
在线阅读 下载PDF
基于算网状态感知的多集群GPU算力资源调度平台设计与实现
10
作者 胡亚辉 张宸康 +4 位作者 王越嶙 洪雨琛 范鹏飞 宋俊平 周旭 《通信学报》 北大核心 2025年第10期175-190,共16页
针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全... 针对大规模深度学习任务的多集群GPU调度中资源粒度粗放、缺乏统一vGPU视图及跨集群网络感知不足等问题,设计算网状态感知的多集群GPU算力调度平台。平台采用集中式架构,通过实时感知跨集群算力资源与网络状态并协同调度,实现细粒度全局资源编排调度。平台先构建设备、集群、vGPU及网络层多维度指标体系,实时采集核心利用率、显存、带宽等关键数据;设计节点级vGPU编排部署模块,突破“作业到集群”局限,达成“作业到节点”精准调度,提升GPU共享效率与资源利用率。实验表明,平台可实现多集群vGPU与网络信息的实时采集可视化,经DDPG强化学习及BestFit算法验证,具备高效资源管理能力。 展开更多
关键词 多集群 图形处理器 算力资源 算网状态感知 编排调度
在线阅读 下载PDF
基于NVIDIA GPU的高轨SAR快速BP算法子孔径成像CUDA设计与实现
11
作者 雷苏力 苏翔 +3 位作者 杨娟娟 高阳 向天舜 党红杏 《空间电子技术》 2025年第3期54-59,共6页
后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFB... 后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFBP算法的巨大的运算量仍然在工程中难以满足时效性需求,文章使用图形处理器(GPU)作为CPU的协处理器,提出基于FFBP算法的子孔径(CUDA)实现方案,使用流实现回波数据分块传输延迟隐藏的同时避免了高频次切换进程,另外设计超细颗粒度线程,实现子孔径FFBP算法成像的GPU大规模并发。经验证,使用该CUDA解决方案完成高轨SAR卫星FFBP子孔径成像时,设备的执行效率大于90%,相较于CPU 32线程并发程序具有120倍加速比。 展开更多
关键词 高轨SAR 快速后向投影(FFBP)成像算法 图形处理器(gpu)
在线阅读 下载PDF
基于GPU并行计算的目标声散射Kirchhoff近似积分方法
12
作者 杨晨轩 安俊英 +1 位作者 孙阳 张毅 《声学技术》 北大核心 2025年第4期499-505,共7页
为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确... 为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确积分模型,建立基于GPU线程分配的并行化模式,形成可并行计算的算法模型;然后,以半径为1 m的刚性球为目标,采用GPU并行模型计算其声散射目标强度,并通过与解析解的对比验证算法的准确性;最后,以Benchmark模型为目标,通过仿真计算不同条件下的声散射目标强度,对比分析GPU并行计算模型的加速比。结果表明,常量元模型的GPU并行计算效率相比传统串行计算效率提高4~5倍;面元精确积分模型的GPU并行计算效率相比于传统串行计算效率提高8~11倍。基于GPU的并行化模式对目标声散射的Kirchhoff近似积分方法的计算具有明显的加速效果,且随着面元数增加,GPU计算优势更加明显。 展开更多
关键词 基尔霍夫(Kirchhoff)近似积分 图形处理器(gpu) 并行计算 目标散射
在线阅读 下载PDF
GPIC:A GPU-based parallel independent cascade algorithm in complex networks
13
作者 Chang Su Xu Na +1 位作者 Fang Zhou Linyuan Lü 《Chinese Physics B》 2025年第3期20-30,共11页
Independent cascade(IC)models,by simulating how one node can activate another,are important tools for studying the dynamics of information spreading in complex networks.However,traditional algorithms for the IC model ... Independent cascade(IC)models,by simulating how one node can activate another,are important tools for studying the dynamics of information spreading in complex networks.However,traditional algorithms for the IC model implementation face significant efficiency bottlenecks when dealing with large-scale networks and multi-round simulations.To settle this problem,this study introduces a GPU-based parallel independent cascade(GPIC)algorithm,featuring an optimized representation of the network data structure and parallel task scheduling strategies.Specifically,for this GPIC algorithm,we propose a network data structure tailored for GPU processing,thereby enhancing the computational efficiency and the scalability of the IC model.In addition,we design a parallel framework that utilizes the full potential of GPU's parallel processing capabilities,thereby augmenting the computational efficiency.The results from our simulation experiments demonstrate that GPIC not only preserves accuracy but also significantly boosts efficiency,achieving a speedup factor of 129 when compared to the baseline IC method.Our experiments also reveal that when using GPIC for the independent cascade simulation,100-200 simulation rounds are sufficient for higher-cost studies,while high precision studies benefit from 500 rounds to ensure reliable results,providing empirical guidance for applying this new algorithm to practical research. 展开更多
关键词 complex networks information spreading independent cascade model parallel computing gpu
原文传递
Accelerating Hartree-Fock Self-consistent Field Calculation on C86/DCU Heterogenous Computing Platform
14
作者 Ji Qi Huimin Zhang +1 位作者 Dezun Shan Minghui Yang 《Chinese Journal of Chemical Physics》 2025年第1期81-94,I0056,共15页
In this study,we investigate the ef-ficacy of a hybrid parallel algo-rithm aiming at enhancing the speed of evaluation of two-electron repulsion integrals(ERI)and Fock matrix generation on the Hygon C86/DCU(deep compu... In this study,we investigate the ef-ficacy of a hybrid parallel algo-rithm aiming at enhancing the speed of evaluation of two-electron repulsion integrals(ERI)and Fock matrix generation on the Hygon C86/DCU(deep computing unit)heterogeneous computing platform.Multiple hybrid parallel schemes are assessed using a range of model systems,including those with up to 1200 atoms and 10000 basis func-tions.The findings of our research reveal that,during Hartree-Fock(HF)calculations,a single DCU ex-hibits 33.6 speedups over 32 C86 CPU cores.Compared with the efficiency of Wuhan Electronic Structure Package on Intel X86 and NVIDIA A100 computing platform,the Hygon platform exhibits good cost-effective-ness,showing great potential in quantum chemistry calculation and other high-performance scientific computations. 展开更多
关键词 Quantum chemistry Self-consistent field HARTREE-FOCK Electron repulsion inte-grals Heterogenous parallel computing C86/deep computing unit
在线阅读 下载PDF
基于Vulkan的电大复杂目标电磁散射SBR计算方法与GPU加速技术
15
作者 王思凡 吴扬 +5 位作者 贾浩文 胡志明 申子昂 徐若锋 梁达 赵雷 《电波科学学报》 北大核心 2025年第3期457-463,共7页
提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令... 提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。 展开更多
关键词 雷达散射截面(RCS) 弹跳射线(SBR)法 光线追踪 gpu加速计算 电大复杂目标
在线阅读 下载PDF
基于Tensor Cores的新型GPU架构的高性能Cholesky分解
16
作者 石璐 邹高远 +1 位作者 伍思琦 张少帅 《计算机工程与科学》 北大核心 2025年第7期1170-1180,共11页
稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩... 稠密矩阵乘法(GEMMs)在Tensor Cores上可以实现高度优化。然而,现有的Cholesky分解的实现由于其有限的并行性无法达到Tensor Cores大部分的峰值性能。研究使用一种递归Cholesky分解的算法,通过将对角线块的递归细分,将原本的对称矩阵秩K更新(SYRK)和三角方程组求解(TRSM)操作转化为大量的通用矩阵乘法(GEMMs),从而更充分地发挥Tensor Cores的峰值性能。实验结果表明,提出的递归Cholesky分解算法在FP32和FP16上分别比MAGMA/cuSOLVER算法提高了1.72倍和1.62倍。 展开更多
关键词 CHOLESKY分解 高性能计算 数值线性代数 通用图形处理器(GPgpu)
在线阅读 下载PDF
基于GPU的洪涝模型计算效率提升方法研究
17
作者 康永德 康爱泽 +2 位作者 侯精明 许尔文 任小凤 《中国水利》 2025年第12期64-72,共9页
受全球气候变暖和极端暴雨的双重影响,洪涝灾害频发,提高洪涝模型计算效率对洪涝实时模拟预报至关重要。然而,精细化洪涝模拟带来的巨大计算量导致模型无法满足实时计算结果并发布洪涝预警的需求。构建了基于GPU加速技术的高效高精度全... 受全球气候变暖和极端暴雨的双重影响,洪涝灾害频发,提高洪涝模型计算效率对洪涝实时模拟预报至关重要。然而,精细化洪涝模拟带来的巨大计算量导致模型无法满足实时计算结果并发布洪涝预警的需求。构建了基于GPU加速技术的高效高精度全水动力数值模型,定量研究了GPU和CPU在洪涝模拟时的计算效率。结果表明:①相同情境下,NVIDIA Tesla P100-PCIE相比其他类型计算引擎的计算效率最优;②DEM网格分辨率相同时,GPU计算效率随着降雨重现期的增加而提升,GPU/CPU并行计算效率加速比为1.25~16.28倍;③降雨重现期相同时,DEM网格分辨率精度越高,GPU加速效率越显著,网格分辨率为3 m和5 m时,NVIDIA GeForce GTX 980Ti计算效率分别为CPU(单核)的4.32倍和3.26倍,NVIDIA Tesla P100-PCIE分别为CPU(单核)的16.28倍和7.86倍。综上,在保障较好的模拟精度的同时,DEM网格分辨率越精细,GPU加速计算效率越高。 展开更多
关键词 洪涝灾害 二维水动力模型 gpu 计算效率
在线阅读 下载PDF
多GPU平台上三维格子Boltzmann方法的并行化实现
18
作者 向星 孙培杰 +1 位作者 张华海 王利民 《数据与计算发展前沿(中英文)》 2025年第5期16-27,共12页
【目的】针对大规模科学计算问题,计算范式的转变推动了通用图形处理器的发展,在计算流体力学领域新兴的格子Boltzmann方法在耦合先进物理模型时具有内在的计算效率和并行可扩展性的显著优势。【方法】本研究基于标准格子模型D3Q19,考... 【目的】针对大规模科学计算问题,计算范式的转变推动了通用图形处理器的发展,在计算流体力学领域新兴的格子Boltzmann方法在耦合先进物理模型时具有内在的计算效率和并行可扩展性的显著优势。【方法】本研究基于标准格子模型D3Q19,考虑三维区域分解和分布式数据通信方法,对三维格子Boltzmann方法进行了并行算法设计与优化。【结果】在某国产异构加速计算平台,对三维流动基准算例进行了不同网格规模下数值验证和精度测试,实现了高保真度瞬态模拟,并捕捉了不同时刻下三维涡结构的非定常演化。在单卡不同网格规模的性能测试中,在正确性验证的基础上,讨论了数据通信部分对并行性能的影响,并给出了单卡对于单核的加速比。在强/弱扩展性测试中,设置了单节点单卡和单节点四卡两组对照数值实验来研究节点间/节点内数据通信的差异。其中单节点单卡组最大计算网格规模约为21.5亿,使用了128节点上总计128张加速卡,运行时间为262.119s,并行性能为81.927GLUPS(每秒十亿格点更新,1GLUPS=103MLUPS),并行效率为94.76%;单节点四卡组最大计算网格规模约为85.9亿,使用了128节点上总计512张加速卡,并行性能为241.185GLUPS,并行效率为69.71%。【结论】本研究提出的并行化实现方法具有线性加速比和良好的并行可扩展性,展示了在E级超算系统上实现高效模拟的潜力。 展开更多
关键词 图形处理器 格子BOLTZMANN方法 扩展性测试 大规模并行计算 三维Taylor-Green涡流
在线阅读 下载PDF
基于GP-GPU技术应用的导引头信号处理模块架构设计
19
作者 马啸龙 许新鹏 +2 位作者 任书磊 李晨 崔闪 《空天防御》 2025年第2期84-92,共9页
针对目前主动导引头信号级建模仿真效率不高、实时性不强的问题,提出了一种基于图形处理器通用计算(General-Purpose Computing on Graphics Processing Units,GP-GPU)并行加速技术的导引头信号处理模块架构方法。采用CUDA编程形式对信... 针对目前主动导引头信号级建模仿真效率不高、实时性不强的问题,提出了一种基于图形处理器通用计算(General-Purpose Computing on Graphics Processing Units,GP-GPU)并行加速技术的导引头信号处理模块架构方法。采用CUDA编程形式对信号处理模块整体及其子模块进行基于GPU加速的架构搭建和接口设计,并对所构建的并行化模块架构进行仿真,对比全CPU状态下的耗时,以验证架构的可靠性与加速性能。仿真结果表明,基于GPU的并行化模块构架的时间速率是全CPU构架时间速率的12.67倍,初步验证了所搭建架构的可行性和加速效率。 展开更多
关键词 导引头仿真系统 图形处理器 异构并行 信号处理
在线阅读 下载PDF
基于GPU计算架构的激光大气湍流传输模拟方法
20
作者 娄虎 张冬晓 +5 位作者 张俊杰 关奇 杜太焦 高银军 田文丽 白玉 《现代应用物理》 2025年第4期104-112,共9页
激光在大气传输时,大气湍流引起的波前畸变会导致激光能量发散和相干性退化,从而严重影响传输效率。大气湍流具有随机性和复杂性,目前尚缺乏统一解析理论,主要采用基于波动理论的随机相位屏数值计算方法。近年来,研究者们致力于提升计... 激光在大气传输时,大气湍流引起的波前畸变会导致激光能量发散和相干性退化,从而严重影响传输效率。大气湍流具有随机性和复杂性,目前尚缺乏统一解析理论,主要采用基于波动理论的随机相位屏数值计算方法。近年来,研究者们致力于提升计算精度和速度,提出了多种改进算法,显著提高效率。然而,这些基于CPU架构的算法在实际应用中仍存在速度瓶颈。本文提出基于GPU计算架构的激光大气湍流传输模拟方法,首先分析了相位屏生成和衍射计算模块;然后利用Numba编译器和CUDA内核重构计算流程,实现并行加速;最后基于CuPy构建了GPU的数值算法,比较了GPU通用计算与CUDA调用的效率差异。结果表明,基于GPU的方法在计算精度上与传统方法一致,而在速度上提升显著,尤其在大规模计算网格上,加速效果显著。 展开更多
关键词 激光大气传输 大气湍流 数值模拟 随机相位屏 gpu计算框架
在线阅读 下载PDF
上一页 1 2 119 下一页 到第
使用帮助 返回顶部