期刊文献+
共找到425篇文章
< 1 2 22 >
每页显示 20 50 100
面向对象方法在SPEEDUP中的应用
1
作者 陈捷 徐亦方 +2 位作者 沈复 陈志奎 王丙申 《炼油设计》 1997年第5期51-55,共5页
SPEEDUP是目前唯一采用面向方程法进行动态模拟的商品化软件,该软件也可对化工过程进行稳态模拟以及优化分析,是一个非常有前途的软件,但该软件使用起来很不方便,主要原因是输入困难。本文首次采用面向对象的方法在OOME(面向对象... SPEEDUP是目前唯一采用面向方程法进行动态模拟的商品化软件,该软件也可对化工过程进行稳态模拟以及优化分析,是一个非常有前途的软件,但该软件使用起来很不方便,主要原因是输入困难。本文首次采用面向对象的方法在OOME(面向对象建模环境)下,为生成SPEEDUP的输入文件和建立新模型提供了一个很方便的接口,这可以促进SPEEDUP软件在我国的推广使用,为在线优化、控制提供良好的工具。结果表明,采用面向对象方法不仅程序层次清晰,而且复用度可比传统方法提高2-3倍。 展开更多
关键词 面向对象 模拟仿真 speedup 化工过程
在线阅读 下载PDF
SPEEDUP指标的适用性分析
2
作者 刘德才 王鼎兴 +1 位作者 沈美明 郑纬民 《计算机研究与发展》 EI CSCD 北大核心 1995年第5期52-56,共5页
长期以来,speeduP一直被视为衡量并行处理性能的主要指标之一。不论是并行计算机系统的设计者,还是并行算法的设计者,均非常重视speedup指标。那么,speedup能否像人们想象的那样正确地描述并行处理的性能呢?... 长期以来,speeduP一直被视为衡量并行处理性能的主要指标之一。不论是并行计算机系统的设计者,还是并行算法的设计者,均非常重视speedup指标。那么,speedup能否像人们想象的那样正确地描述并行处理的性能呢?迄今为止,人们对这一问题尚缺乏认识。本文从speedup的定义出发,结合实例,全面分析了speedup度量并行处理的性能所存在的问题以及可能导致的错误,还讨论了speedup的适应条件。 展开更多
关键词 并行处理 性能评价 并行计算机
在线阅读 下载PDF
Achieving 100% Throughput for Integrated Uni- and Multicast Traffic without Speedup
3
作者 Fulong Yan Qingxu Xiong +1 位作者 Han Xiao Jiacheng Liang 《International Journal of Communications, Network and System Sciences》 2017年第5期35-42,共8页
Along with the unbounded speedup and exponential growth of virtual queues requirement aiming for 100% throughput of multicast scheduling as the size of the high-speed switches scale, the issues of low throughput of mu... Along with the unbounded speedup and exponential growth of virtual queues requirement aiming for 100% throughput of multicast scheduling as the size of the high-speed switches scale, the issues of low throughput of multicast under non-speedup or fixed crosspoint buffer size is addressed. Inspired by the load balance two-stage Birkhoff-von Neumann architecture that can provide 100% throughput for all kinds of unicast traffic, a novel 3-stage architecture, consisting of the first stage for multicast fan-out splitting, the second stage for load balancing, and the last stage for switching (FSLBS) is proposed. And the dedicated multicast fan-out splitting to unicast (M2U) scheduling algorithm is developed for the first stage, while the scheduling algorithms in the last two stages adopt the periodic permutation matrix. FSLBS can achieve 100% throughput for integrated uni- and multicast traffic without speedup employing the dedicated M2U and periodic permutation matrix scheduling algorithm. The operation is theoretically validated adopting the fluid model. 展开更多
关键词 speedup MULTICAST SWITCH Architecture 100% THROUGHPUT
暂未订购
The Memory-Bounded Speedup Model and Its Impacts in Computing
4
作者 孙贤和 鲁潇阳 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第1期64-79,共16页
With the surge of big data applications and the worsening of the memory-wall problem,the memory system,instead of the computing unit,becomes the commonly recognized major concern of computing.However,this“memorycent... With the surge of big data applications and the worsening of the memory-wall problem,the memory system,instead of the computing unit,becomes the commonly recognized major concern of computing.However,this“memorycentric”common understanding has a humble beginning.More than three decades ago,the memory-bounded speedup model is the first model recognizing memory as the bound of computing and provided a general bound of speedup and a computing-memory trade-off formulation.The memory-bounded model was well received even by then.It was immediately introduced in several advanced computer architecture and parallel computing textbooks in the 1990’s as a must-know for scalable computing.These include Prof.Kai Hwang’s book“Scalable Parallel Computing”in which he introduced the memory-bounded speedup model as the Sun-Ni’s Law,parallel with the Amdahl’s Law and the Gustafson’s Law.Through the years,the impacts of this model have grown far beyond parallel processing and into the fundamental of computing.In this article,we revisit the memory-bounded speedup model and discuss its progress and impacts in depth to make a unique contribution to this special issue,to stimulate new solutions for big data applications,and to promote data-centric thinking and rethinking. 展开更多
关键词 memory-bounded speedup scalable computing memory-wall performance modeling and optimization data-centric design
原文传递
Review on the study of entanglement in quantum computation speedup 被引量:35
5
作者 DING ShengChao1,3 & JIN Zhi1,2,1 Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080,China 2 Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100080,China 3 Graduate University of Chinese Academy of Sciences,Beijing 100080,China 《Chinese Science Bulletin》 SCIE EI CAS 2007年第16期2161-2166,共6页
The role the quantum entanglement plays in quantum computation speedup has been widely disputed. Some believe that quantum computation's speedup over classical computation is impossible if entan-glement is absent,... The role the quantum entanglement plays in quantum computation speedup has been widely disputed. Some believe that quantum computation's speedup over classical computation is impossible if entan-glement is absent,while others claim that the presence of entanglement is not a necessary condition for some quantum algorithms. This paper discusses this problem systematically. Simulating quantum computation with classical resources is analyzed and entanglement in known algorithms is reviewed. It is concluded that the presence of entanglement is a necessary but not sufficient condition in the pure state or pseudo-pure state quantum computation speedup. The case with the mixed state remains open. Further work on quantum computation will benefit from the presented results. 展开更多
关键词 量子论 量子纠缠 量子计算 加速 模拟
在线阅读 下载PDF
面向迈创3000异构处理器的多头注意力机制多重并行优化 被引量:1
6
作者 路瑶 栾钟治 +4 位作者 李根 齐家兴 韩斌 杨海龙 钱德沛 《计算机学报》 北大核心 2025年第9期2049-2063,共15页
针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令... 针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令集、片上存储层次和DMA传输特性,设计了三方面的优化策略:在算子方面,对Linear和Softmax等算子进行内核级优化与算子融合,减少计算与访存开销;在访存方面,利用广播机制与全局共享内存(GSM)优化数据流,降低主存带宽依赖;在调度方面,以行为粒度分块并行,隐藏数据传输延迟。实验表明,优化后的Linear算子单簇峰值性能达1.53 TFLOPS,占理论峰值的37.7%,较NVIDIA V100 GPU加速比最高达5.34倍;在典型大语言模型配置下(嵌入维度4096/8192,头数32/64),MHA机制相较NVIDIA V100 GPU实现最高23.53倍加速,且在单节点多簇环境中扩展性良好。本研究为MT-3000在长序列推理任务中的高效部署提供了解决方案,并为天河超算支持大语言模型等复杂AI任务奠定了技术基础。 展开更多
关键词 MT-3000 多头注意力 性能优化 PyTorch 加速比
在线阅读 下载PDF
四级流水线堆栈处理器研究与设计
7
作者 朱恒宇 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2025年第1期265-273,共9页
针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16... 针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16中流水线冒险问题。实验结果表明,在Xilinx XC7A100T FPGA目标芯片上,ZP16的运行主频稳定在230 MHz。与J1堆栈处理器相比,ZP16流水线加速比为1.3,资源占用率基本相当,功耗增加8%,主频提升130%。与其它同类型堆栈处理器在不同的目标芯片上进行比较,ZP16主频有较为明显的提升。 展开更多
关键词 堆栈处理器 流水线 现场可编程门阵列 主频 加速比 资源占用率 功耗
在线阅读 下载PDF
面向天河超算的OpenFOAM不可压缩流体模拟算法优化
8
作者 刘忠民 张翔 +4 位作者 马迪 孙扬 周磊 邱琪 龚春叶 《计算机工程与科学》 北大核心 2025年第12期2119-2128,共10页
流体力学开源软件OpenFOAM中的不可压缩等流体模拟求解器具有跨平台适用性,但它们的性能优化大多是针对Intel等现有架构的超算系统,故其算法优化无法发挥天河超算系统上ARM架构的向量化并行优势。为此,以不可压缩流体模拟求解器为研究对... 流体力学开源软件OpenFOAM中的不可压缩等流体模拟求解器具有跨平台适用性,但它们的性能优化大多是针对Intel等现有架构的超算系统,故其算法优化无法发挥天河超算系统上ARM架构的向量化并行优势。为此,以不可压缩流体模拟求解器为研究对象,运用ARM向量化技术来优化它的对称高斯赛德尔法和对角不完全Cholesky预条件共轭梯度法,提升求解器的运行效率。为实现向量化目标,分析了2类求解算法的一次迭代中近邻网格单元间的关系,发现这些近邻单元数目最多为2,且近邻之间无依赖。利用该先验信息,以尽可能最小的成本改动原有算法代码,即新增4行if-else条件语句,就能向量化近邻单元,加速算法。不同配置下的实验结果表明,改进后算法的单核加速比最高为1.75,多核加速比最高为149.16,且并行效率仍有29.13%。 展开更多
关键词 OPENFOAM 不可压缩流体模拟求解器 性能优化 单指令多数据(SIMD) 循环展开 内联汇编 加速比
在线阅读 下载PDF
面向大规模动态图的异构图计算系统设计
9
作者 张明 郭文康 王海峰 《计算机工程》 北大核心 2025年第3期197-207,共11页
图形处理器(GPU)异构集群中处理大规模动态图时GPU计算资源未被充分利用,并且面向GPU的图划分方法存在局限性导致出现性能瓶颈。为提高图计算系统性能,提出一种中央处理器(CPU)/GPU分布式异构图计算系统引擎(DH-Engine),用于提升异构处... 图形处理器(GPU)异构集群中处理大规模动态图时GPU计算资源未被充分利用,并且面向GPU的图划分方法存在局限性导致出现性能瓶颈。为提高图计算系统性能,提出一种中央处理器(CPU)/GPU分布式异构图计算系统引擎(DH-Engine),用于提升异构处理器的计算性能。首先提出新的异构图分割算法,该分割算法以流式图划分为核心,通过贪心策略调整顶点位置,进而实现计算节点之间、CPU/GPU之间的动态负载均衡。在初始图划分时基于最多邻居顶点分配图顶点,在迭代时基于最少连接边动态调整顶点位置。其次,设计GPU异构计算模型,通过CPU/GPU功能并行的方式实现协同计算。CPU与GPU并行执行图算法,提高CPU核心的利用率,进而提升图计算效率。实验以图算法PageRank、CC(Connected Components)、SSSP(Single-Source Shortest Path)与k-core为例,将DH-Engine与其他图计算系统展开对比。与未考虑异构计算的图引擎相比,DH-Engine能更好地平衡各节点计算负载以及计算节点内部的异构处理器之间的负载,通过缩短局部时延来提高整体的计算速度。实验结果表明DH-Engine的CPU/GPU协同度趋于1。相较于其他图计算系统,DH-Engine异构计算的加速比达到5倍,可以提供更好的图异构计算方案。 展开更多
关键词 异构计算 负载均衡 动态图 加速比 图划分
在线阅读 下载PDF
面向响应系数法的FVCOM模型算法优化:以象山港为例
10
作者 秦志浩 胡松 陈勤思 《海洋学研究》 北大核心 2025年第2期67-78,共12页
基于响应系数的数值模拟是在港湾环境容量评估中的常用方法之一,但目前常见的海洋模型中没有可同时计算多个释放点的响应系数场且互不干扰的示踪物模块。针对响应系数法的特点,本研究对三维水动力海洋数值模型FVCOM(Finite-Volume Commu... 基于响应系数的数值模拟是在港湾环境容量评估中的常用方法之一,但目前常见的海洋模型中没有可同时计算多个释放点的响应系数场且互不干扰的示踪物模块。针对响应系数法的特点,本研究对三维水动力海洋数值模型FVCOM(Finite-Volume Community Ocean Model)的示踪物模块(dyeing tracking,DYE)进行改进,在模型原有DYE模块的基础上增加多个功能与原DYE模块相同的独立模块,即并行计算多个DYE模块,使FVCOM能够同时计算多个互不干扰的保守示踪物模块。以一个理想地形矩形案例和一个象山港理想地形案例进行了测试。结果显示,改进算法模拟的多点源示踪物平流扩散过程互不影响,且模拟的响应系数场与传统算法一致;相较于传统算法,改进算法的计算过程耗时更短,对理想矩形案例的计算效率最高提升了85%,对象山港案例最高提升了78%;在并行运算的条件下,改进算法对CPU进程的利用率更高。使用改进后的DYE计算响应系数场可以缩短海洋环境容量评估的整体用时。 展开更多
关键词 FVCOM DYE 响应系数 多源示踪物独立扩散 并行加速比 CPU利用率
在线阅读 下载PDF
基于嵌套分解Winograd算法的3D-CNN硬件加速器
11
作者 杨家元 刘光柱 肖昊 《复旦学报(自然科学版)》 北大核心 2025年第5期567-578,共12页
卷积神经网络(CNN)在许多机器视觉任务中具有广泛的应用,为使三维(3D-CNN)适应图像语义分割和视频理解等应用场景的需要,本文设计了一种基于嵌套分解的三维Winograd算法,先将大卷积核分解为若干小卷积核,然后通过嵌套的方式将三维Winog... 卷积神经网络(CNN)在许多机器视觉任务中具有广泛的应用,为使三维(3D-CNN)适应图像语义分割和视频理解等应用场景的需要,本文设计了一种基于嵌套分解的三维Winograd算法,先将大卷积核分解为若干小卷积核,然后通过嵌套的方式将三维Winograd与一维Winograd相结合,之后再使用小卷积核的Winograd单元进行加速,实现了基于Winograd算法的3D-CNN的大卷积核加速。基于该嵌套分解算法设计了一种配套的硬件架构,此架构能够兼容常见的大卷积核,同时也提高了数据的访存效率。与直接卷积相比;在计算5×5×5、7×7×7和9×9×9的卷积核时,乘法次数分别减少了70.50%、76.19%和79.03%,与目前先进的OLA-Winograd算法相比,在计算5×5×5、7×7×7和9×9×9的卷积核时,乘法次数分别降低了42.38%、34.60%和29.22%。 展开更多
关键词 三维卷积神经网络 Winograd算法 现场可编程门阵列 硬件加速
在线阅读 下载PDF
GPU在人工智能领域中能效优化策略与实践
12
作者 鲁燕清 《数字通信世界》 2025年第5期76-78,共3页
GPU作为人工智能领域的核心计算引擎,通过并行计算加速深度学习应用。从硬件优化、算法优化、数据预处理到分布式训练等多个层面,系统性地提升GPU计算效率和能源利用率。新一代GPU芯片采用先进制程与创新架构,配合优化的软件生态系统,... GPU作为人工智能领域的核心计算引擎,通过并行计算加速深度学习应用。从硬件优化、算法优化、数据预处理到分布式训练等多个层面,系统性地提升GPU计算效率和能源利用率。新一代GPU芯片采用先进制程与创新架构,配合优化的软件生态系统,在保证模型精度的同时显著提升训练和推理性能,为人工智能应用提供高效的硬件基础支持。 展开更多
关键词 GPU优化 能效提升 深度学习 硬件加速
在线阅读 下载PDF
基于阿姆达尔定律优化的仿真工具加速比研究与实践
13
作者 陈友宣 李文丰 何景峰 《信息与电脑》 2025年第22期181-183,共3页
高性能计算(High Performance Computing,HPC)集群在支撑仿真体系建设方面的重要性日益突显,其核心目标在于实现仿真工具的最佳加速比。围绕这一目标,需要从软件版本兼容性、信息传递接口种类、中央处理器平台架构、内存带宽利用率和通... 高性能计算(High Performance Computing,HPC)集群在支撑仿真体系建设方面的重要性日益突显,其核心目标在于实现仿真工具的最佳加速比。围绕这一目标,需要从软件版本兼容性、信息传递接口种类、中央处理器平台架构、内存带宽利用率和通信开销控制等维度持续开展计算性能优化。文章结合广州汽车集团股份有限公司(以下称广汽)HPC技术路线,基于整车开发流程,根据阿姆达尔定律,改进了加速比理论模型,应用于仿真物理场领域各类工具的计算性能提升,有效实现了降本增效。 展开更多
关键词 高性能计算集群 仿真工具 阿姆达尔定律 加速比
在线阅读 下载PDF
Row Fixation - A Parallel Algorithm for Matrix Computing
14
作者 沈文枫 郁松年 徐炜民 《Advances in Manufacturing》 SCIE CAS 2000年第S1期119-122,共4页
Row fixation is a parallel algorithm based on MPI that can be implemented on high performance computer system. It keeps the characteristics of matrices since row-computations are fixed on different nodes. Therefore t... Row fixation is a parallel algorithm based on MPI that can be implemented on high performance computer system. It keeps the characteristics of matrices since row-computations are fixed on different nodes. Therefore the locality of computation is realized effectively and the acceleration ratio is obtained very well for large scale parallel computations such as solving linear equations using Gaussian reduction method, LU decomposition of matrices and m-th power of matrices. 展开更多
关键词 row fixation MPI SMP augmented matrix speedup ratio
在线阅读 下载PDF
基于GPU并行的重力、重力梯度三维正演快速计算及反演策略 被引量:52
15
作者 陈召曦 孟小红 +1 位作者 郭良辉 刘国峰 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2012年第12期4069-4077,共9页
利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物... 利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物性模型进行组合近似,利用解析方法计算出所有物性模型在计算点的异常值并累加求和,得到整个模型体在某一计算点引起的重力(或重力梯度)值.针对精细的复杂模型体产生的问题,采用GPU并行计算技术,主要包括线程有效索引与优化的并行归约技术进行高效计算.在显卡型号为NVIDIAQuadro 2000相对于单线程CPU程序,重力和重力梯度Uxx、Uxy正演计算可以分别达到60与50倍的加速.本文还讨论了GPU并行计算在两种反演方法中的策略,为快速三维反演技术提供了借鉴. 展开更多
关键词 GPU CUDA 正演计算 重力 重力梯度 加速比
在线阅读 下载PDF
关于并行计算系统中加速比的研究与分析 被引量:19
16
作者 谢超 麦联叨 +1 位作者 都志辉 马群生 《计算机工程与应用》 CSCD 北大核心 2003年第26期66-68,共3页
着眼于并行计算中的加速比,重点讨论了几种通用的并行系统中的加速比模型,并且就它们各自的优点和不足进行了分析和说明,确立了它们之间的内在联系,最后结合并行系统中存在的其他因素,提出了未来加速比模型需要考虑的问题。
关键词 并行处理 加速比 效率 负载
在线阅读 下载PDF
基于MapReduce的多元线性回归预测模型 被引量:17
17
作者 代亮 许宏科 +2 位作者 陈婷 钱超 梁殿鹏 《计算机应用》 CSCD 北大核心 2014年第7期1862-1866,共5页
针对传统的多元线性回归预测方法处理时间长且受内存限制的特点,对时序样本数据设计了基于MapReduce的并行多元线性回归预测模型。模型由三组MapReduce过程组成,分别求解由历史数据所构成叉积矩阵的特征向量和标准正交特征向量,用来预... 针对传统的多元线性回归预测方法处理时间长且受内存限制的特点,对时序样本数据设计了基于MapReduce的并行多元线性回归预测模型。模型由三组MapReduce过程组成,分别求解由历史数据所构成叉积矩阵的特征向量和标准正交特征向量,用来预测未来参数的特征值和特征向量矩阵和未来时刻回归参数的估计量。设计并实现了实验来验证提出的并行多元线性回归预测模型的有效性。实验结果表明,基于MapReduce的多元线性回归预测模型具有较好的加速比和可扩展性,适合于大规模时序数据的分析和预测。 展开更多
关键词 MAPREDUCE 多元线性回归 预测模型 加速比 可扩展性
在线阅读 下载PDF
大规模问题数据并行性能的分析 被引量:14
18
作者 舒继武 est4.cs.tsinghua.edu.cn +2 位作者 郑纬民 沈美明 汪东升 《软件学报》 EI CSCD 北大核心 2000年第5期628-633,共6页
从应用的角度建立了评价大规模问题数据并行处理性能的模型 ,分析了区域的不同划分对解整个问题算法的收敛速度有影响时的并行性能 ,进而就操作重叠、数据规模以及算法选取等几个方面的问题对大规模数据并行性能所产生的影响进行了分析 ... 从应用的角度建立了评价大规模问题数据并行处理性能的模型 ,分析了区域的不同划分对解整个问题算法的收敛速度有影响时的并行性能 ,进而就操作重叠、数据规模以及算法选取等几个方面的问题对大规模数据并行性能所产生的影响进行了分析 .最后 ,给出的例子证明了模型的有效性 . 展开更多
关键词 数据并行 并行处理 性能分析 加速比
在线阅读 下载PDF
基于OpenMP的三维显式物质点法并行化研究 被引量:14
19
作者 黄鹏 张雄 +1 位作者 马上 王汉奎 《计算力学学报》 EI CAS CSCD 北大核心 2010年第1期21-27,共7页
基于OpenMP技术开发了三维显式物质点并行程序MPM3DMP。为了避免节点更新阶段的数据竞争,采用区域分解法将背景网格分解为均匀的子域,每个线程负责一个子域的节点变量更新,然后将更新后的节点变量装配到整体。在质点更新阶段采用了循环... 基于OpenMP技术开发了三维显式物质点并行程序MPM3DMP。为了避免节点更新阶段的数据竞争,采用区域分解法将背景网格分解为均匀的子域,每个线程负责一个子域的节点变量更新,然后将更新后的节点变量装配到整体。在质点更新阶段采用了循环分解方法进行并行。针对Taylor杆碰撞的三种计算模型,在双Intel Woodcrest 4核CPU服务器下进行了测试:粗模型在4核下加速比为3.82,在8核下为6.23,中模型在4核下加速比为3.79,在8核下加速比为6.23;细模型在4核下加速比为3.75,8核下加速比为6.26。因此,本文的并行程序具有较好的并行效率和可扩展性。 展开更多
关键词 OPENMP 显式物质点法 区域分解法 循环分解方法 加速比
在线阅读 下载PDF
城市二维内涝模型的GPU并行方法 被引量:24
20
作者 向小华 陈颖悟 +3 位作者 吴晓玲 李超 王志伟 康爱卿 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期528-533,共6页
针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并... 针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并行模型的效率进行分析,结果表明,基于GPU的并行计算技术可以显著提升模型运行效率,在5 m分辨率下能够8 min内模拟12 h的内涝事件,可用于突发内涝事件下的快速响应;并行模型的加速效果在更高的空间分辨率下表现更明显,在2 m分辨率下取得最高10.86倍的加速比;要最大化发挥GPU计算效率,首先需要单步长有较大的计算量,其次是要尽量减少与GPU的数据频繁传输导致的额外开销。 展开更多
关键词 城市二维内涝模型 GPU加速 CUDA 加速比 网格分辨率
在线阅读 下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部