期刊文献+
共找到155篇文章
< 1 2 8 >
每页显示 20 50 100
基于Multi-GPU平台的大规模图数据处理 被引量:8
1
作者 张珩 张立波 武延军 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期273-288,共16页
在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐... 在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐不能满足缓存整个图数据的应用需求,也催生了大量以单节点上外存I/O优化(out-of-core graph)为主要研究方向的大规模图数据处理系统.为了应对这一瓶颈,现有的算法和系统研究采用对图切分的压缩数据形式(即shards)用以数据传输和迭代计算.然而,这类研究扩展到Multi-GPU平台上往往性能的局限性表现在对PCI-E带宽的高依赖性,同时也由于Multi-GPU上任务负载不均衡而缺乏一定的可扩展性.为了应对上述挑战,提出并设计了基于Multi-GPU平台的支持高效、可扩展的大规模图数据处理系统GFlow.GFlow提出了全新的适用于Multi-GPU下的图数据Grid切分策略和双层滑动窗口算法,在将图的属性数据(点的状态集合、点/边权重值)缓存于各GPU设备之后,顺序加载图的拓扑结构数据(点/边集合)值各GPU中.通过双层滑动窗口,GFlow动态地加载数据分块从SSD存储至GPU设备内存,并顺序化聚合并应用处理过程中各GPU所生成的Updates.通过在9个现实图数据集上的实验结果可以看出,GFlow在Multi-GPU平台下相比其他支持外存图(out-of-core graph)处理的相关系统性能表现更为优异,对比CPU下的GraphChi和X-Stream分别提升25.6X和20.3X,对比GPU下支持外存图数据处理的GraphReduce系统单GPU提升1.3~2.5X.同时GFlow可扩展性在Multi-GPU上也表现良好. 展开更多
关键词 大规模图数据 multi-gpu 图分块 双层滑动窗口 数据传输
在线阅读 下载PDF
Multi-GPU加速的二元合金定向凝固三维相场模型 被引量:1
2
作者 朱昶胜 徐升 +1 位作者 冯力 李浩 《兰州理工大学学报》 CAS 北大核心 2018年第6期24-29,共6页
基于三维相场模型,使用MPI+CUDA异构协同并行技术,在GPU集群上建立三维合金定向凝固的MultiGPU计算模型,实现了Al-Cu二元合金三维定向凝固的模拟.再现了Al-Cu二元合金三维定向凝固的过程,以及不同取向晶粒间的竞争生长现象.通过与传统CP... 基于三维相场模型,使用MPI+CUDA异构协同并行技术,在GPU集群上建立三维合金定向凝固的MultiGPU计算模型,实现了Al-Cu二元合金三维定向凝固的模拟.再现了Al-Cu二元合金三维定向凝固的过程,以及不同取向晶粒间的竞争生长现象.通过与传统CPU串行计算模型相比较,验证了Multi-GPU计算模型的计算效率和加速效果.实现了二元合金定向凝固的加速模拟计算,其加速比最大可达57.7. 展开更多
关键词 multi-gpu MPI+CUDA 定向凝固 相场法
在线阅读 下载PDF
An effi cient scheme for multi-GPU TTI reverse time migration 被引量:1
3
作者 Liu Guo-Feng Meng Xiao-Hong +1 位作者 Yu Zhen-Jiang Liu Ding-Jin 《Applied Geophysics》 SCIE CSCD 2019年第1期56-63,共8页
Reverse time migration (RTM) is an indispensable but computationally intensive seismic exploration technique. Graphics processing units (GPUs) by NVIDIA■offer the option for parallel computations and speed improvemen... Reverse time migration (RTM) is an indispensable but computationally intensive seismic exploration technique. Graphics processing units (GPUs) by NVIDIA■offer the option for parallel computations and speed improvements in such high-density processes. With increasing seismic imaging space, the problems associated with multi-GPU techniques need to be addressed. We propose an efficient scheme for multi-GPU programming based on the features of the compute-unified device Architecture (CUDA) using GPU hardware, including concurrent kernel execution, CUDA streams, and peer-to-peer (P2P) communication between the different GPUs. In addition, by adjusting the computing time for imaging during RTM, the data communication times between GPUs become negligible. This means that the overall computation effi ciency improves linearly, as the number of GPUs increases. We introduce the multi-GPU scheme by using the acoustic wave propagation and then describe the implementation of RTM in tilted transversely isotropic (TTI) media. Next, we compare the multi-GPU and the unifi ed memory schemes. The results suggest that the proposed multi- GPU scheme is superior and, with increasing number of GPUs, the computational effi ciency improves linearly. 展开更多
关键词 multi-gpu KERNEL PEER-TO-PEER FORWARD MODELING TTI RTM
在线阅读 下载PDF
Large-Eddy Simulation of Airflow over a Steep, Three-Dimensional Isolated Hill with Multi-GPUs Computing
4
作者 Takanori Uchida 《Open Journal of Fluid Dynamics》 2018年第4期416-434,共19页
The present research attempted a Large-Eddy Simulation (LES) of airflow over a steep, three-dimensional isolated hill by using the latest multi-cores multi-CPUs systems. As a result, it was found that 1) turbulence si... The present research attempted a Large-Eddy Simulation (LES) of airflow over a steep, three-dimensional isolated hill by using the latest multi-cores multi-CPUs systems. As a result, it was found that 1) turbulence simulations using approximately 50 million grid points are feasible and 2) the use of this system resulted in the achievement of a high computation speed, which exceeded the speed of parallel computation attained by a single CPU on one of the latest supercomputers. Furthermore, LES was conducted by using the multi-GPUs systems. The results of these simulations revealed the following findings: 1) the multi-GPUs environment which used the NVDIA? Tesla M2090 or the M2075 could simulate turbulence in a model with as many as approximately 50 million grid points. 2) The computation speed achieved by the multi-GPUs environments exceeded that by parallel computation which used four to six CPUs of one of the latest supercomputers. 展开更多
关键词 LES ISOLATED HILL multi-Cores multi-CPUs COMPUTING multi-gpus COMPUTING
暂未订购
融合图Transformer和Vina-GPU+的多模态虚拟筛选新方法
5
作者 张豪 张堃然 +2 位作者 阮晓东 沐勇 吴建盛 《南京大学学报(自然科学版)》 北大核心 2025年第1期83-93,共11页
现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和6... 现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和65.6倍的加速.近年来,大规模预训练模型在自然语言处理和计算机视觉领域取得了巨大成功,这种范式对解决虚拟筛选面临的重大挑战也具有巨大潜力.因此,提出一种多模态虚拟筛选新方法Vina-GPU GT,结合了Vina-GPU+分子对接技术和预训练的Graph Transformer(GT)模型,以实现快速精确的虚拟筛选.该方法包括三个连续步骤:(1)通过对已有分子属性预测的预训练GT模型进行知识蒸馏,学到一个小的SMILES Transformer(ST)模型;(2)通过ST模型推理化合物库中所有分子,并根据主动学习规则微调ST模型;(3)利用微调后的ST模型进行虚拟筛选.在三个重要靶点和两个化合物库上进行了虚拟筛选实验,并与两种虚拟筛选方法进行了比较,结果表明,Vina-GPU GT的虚拟筛选性能最优. 展开更多
关键词 虚拟筛选 Graph Transformer Vina-gpu+ 多模态 知识蒸馏 主动学习
在线阅读 下载PDF
三维井筒声场模拟多GPU并行算法研究与实现
6
作者 王华 何伟丙 +3 位作者 强晓勇 汪强 黄方 李萌 《测井技术》 2025年第2期152-163,170,共13页
井筒声场测量是油气和地热等资源勘探开发过程中重要的检测手段。利用三维数值模拟可以分析复杂井筒环境对声场传播规律的影响,为复杂井筒环境下地层和水泥环空介质弹性信息的准确反演奠定基础。弹性波有限差分数值模拟技术通常需要消... 井筒声场测量是油气和地热等资源勘探开发过程中重要的检测手段。利用三维数值模拟可以分析复杂井筒环境对声场传播规律的影响,为复杂井筒环境下地层和水泥环空介质弹性信息的准确反演奠定基础。弹性波有限差分数值模拟技术通常需要消耗大量的计算资源,特别是在处理大规模三维模型时计算时间和存储需求急剧增加。提出一种基于CUDA(Compute Unified Device Architecture)构架技术的三维井筒声场多图形处理单元(Graphics Processing Unit,GPU)并行数值模拟算法,以套管井超声弯曲波声场数值模拟为例,通过模型划分、资源分配和计算协调,利用多块GPU的计算资源,实现三维复杂井筒环境声场的高效数值模拟。实验结果表明,在单块GPU上实现的算法可以使小尺度模型的模拟加速比达到8.93;在4块GPU上实现的算法可以使大尺度模型的模拟加速比达到9.95。多GPU并行算法为三维复杂井筒声场的数值模拟提供了一种高效的解决方案,为基于高性能图像处理单元并行计算的声学测井数值模拟技术提供了新思路。 展开更多
关键词 声波测井 井筒声场 三维弹性波有限差分 gpu并行计算
在线阅读 下载PDF
基于GPU的刚体动力学并行求解性能分析
7
作者 梁睿凯 罗旭锟 +1 位作者 郭煜中 何小伟 《图学学报》 北大核心 2025年第3期642-654,共13页
包含刚体和约束的多体动力学模拟在物理仿真中占有重要地位,广泛应用于工程分析、虚拟现实以及游戏动画等领域。传统的刚体物理引擎主要依赖于CPU进行计算,而在现代计算机图形学和实时物理模拟中,GPU的并行计算能力被证明能够显著提高... 包含刚体和约束的多体动力学模拟在物理仿真中占有重要地位,广泛应用于工程分析、虚拟现实以及游戏动画等领域。传统的刚体物理引擎主要依赖于CPU进行计算,而在现代计算机图形学和实时物理模拟中,GPU的并行计算能力被证明能够显著提高计算性能。为此,研究探索了5种基于雅可比方法的约束求解器在GPU上的实现并对其进行了性能与稳定性分析。具体包括:投影雅可比求解器(PJ)、结合投影雅可比与非线性雅可比的求解器(PJNJ)、投影雅可比与软约束求解器(PJSoft)、基于子步骤策略的雅可比求解器(TJ)和结合子步骤策略的雅可比与软约束求解器(TJSoft)。在基准测试中,软约束方法展现出平滑的约束冲量响应,且子步骤策略在处理高质量比和复杂场景时提供了更为稳定的解决方案。本研究为评估多体模拟中基于GPU的约束求解方案提供了新的视角,对实时物理模拟和交互式计算机图形学具有重要参考价值。 展开更多
关键词 多体动力学模拟 gpu实现 雅可比法 软约束 子步骤 性能与稳定性分析
在线阅读 下载PDF
一种基于GPU加速的非小细胞肺癌分型框架
8
作者 韩鑫胤 韩子栋 +2 位作者 冀德韬 李晨 陆忠华 《数据与计算发展前沿(中英文)》 2025年第3期149-161,共13页
【目的】本研究基于Morphgene框架,优化其计算性能,以解决非小细胞肺癌(Non-small-cellLung Cancer,NSCLC)分型过程中大规模病理图像与多组学数据处理效率低下的问题。【方法】通过CPU线程池调度、张量计算与深度学习推理优化技术,对框... 【目的】本研究基于Morphgene框架,优化其计算性能,以解决非小细胞肺癌(Non-small-cellLung Cancer,NSCLC)分型过程中大规模病理图像与多组学数据处理效率低下的问题。【方法】通过CPU线程池调度、张量计算与深度学习推理优化技术,对框架的病理图像子块处理、特征提取以及K-means聚类模块进行全面优化。实验采用TCGA数据库的NSCLC样本,验证了优化效果和分型性能。【结果】优化后的框架在大规模数据处理中实现了67.81倍以上的加速比,并保证了分型准确性。优化后的框架成功识别出多个与患者预后相关的亚型,为个性化治疗和生存预测提供了重要支持。【局限】当前优化方案针对特定文件格式和子块尺寸,尚需进一步研究以适应更小文件或更大子块的处理需求。【结论】GPU加速策略显著提升了Morphgene框架的计算效率,为精准医学中的NSCLC亚型分类提供了强有力支持。未来将重点优化其多模态数据融合和广泛适应性,以拓展临床应用场景。 展开更多
关键词 gpu 非小细胞肺癌 多组学数据融合 病理图像分析 精准医学
暂未订购
基于CUDA的多GPU加速SART迭代重建算法 被引量:7
9
作者 雷德川 陈浩 +3 位作者 王远 张成鑫 陈云斌 胡栋材 《强激光与粒子束》 EI CAS CSCD 北大核心 2013年第9期2418-2422,共5页
为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步... 为解决SART迭代重建算法计算耗时的问题,在单GPU基础上,利用多块GPU的并行计算能力,提出了一种多GPU加速迭代重建算法。实验结果表明,与CPU重建相比,在不影响重建图像质量的情况下,采用GPU重建速度有明显提高,且增加GPU数量可以进一步提高重建速度。 展开更多
关键词 计算机断层成像 统一计算机架构 SART gpu
在线阅读 下载PDF
多GPU协同三维叠前逆时偏移方法研究与应用 被引量:8
10
作者 唐祥功 匡斌 +4 位作者 杜继修 孟祥宾 隋志强 单联瑜 王华忠 《石油地球物理勘探》 EI CSCD 北大核心 2013年第6期910-914,1016+849,共5页
为满足精细勘探对地震成像的要求,野外地震采集单炮数据的规模持续增大,基于单GPU的逆时偏移策略不再满足需要。为此,本文在地震数据区域分解基础上,研究并形成了多GPU协同快速计算方法,实现了任意规模三维地震数据的叠前逆时偏移成像... 为满足精细勘探对地震成像的要求,野外地震采集单炮数据的规模持续增大,基于单GPU的逆时偏移策略不再满足需要。为此,本文在地震数据区域分解基础上,研究并形成了多GPU协同快速计算方法,实现了任意规模三维地震数据的叠前逆时偏移成像。数值试验表明,多块GPU卡协同叠前逆时偏移算法的整体效率较高,达到工业化应用的水平。对中国西部多块三维实际地震资料的处理表明,该方法不仅成像精度高,且计算效率也高。 展开更多
关键词 三维叠前逆时偏移 大规模单炮数据 数据区域分解 gpu协同计算
在线阅读 下载PDF
简化混合域全波形反演多GPU加速策略 被引量:6
11
作者 桂生 刘洪 张玉洁 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2017年第2期665-677,共13页
全波形反演利用地震记录中的振幅、走时和相位等信息,通过拟合实际地震记录和计算波场来定量提取地下介质的弹性参数,进而为勘探地震成像、速度建模以及大尺度构造演化分析等提供可靠依据.但全波形反演计算量巨大,特别是应用于三维大区... 全波形反演利用地震记录中的振幅、走时和相位等信息,通过拟合实际地震记录和计算波场来定量提取地下介质的弹性参数,进而为勘探地震成像、速度建模以及大尺度构造演化分析等提供可靠依据.但全波形反演计算量巨大,特别是应用于三维大区块叠前数据时,生产成本仍然很高.本文介绍并比较了时间域和频率域的全波形反演方法,综合两者的优点,最终采用混合域的反演算法,并且在此基础上做了进一步的简化以提高计算效率.针对全波形反演方法应用于大规模叠前数据时易陷入局部极小值的问题,我们提出对模型数据进行分割,同时在数个小模型内进行梯度搜索,然后对比各个局域的梯度,最终找出合适的全局下降方向,以克服局部极小的隐患.该方法能够充分利用GPU的硬件特性.在GPU环境下实现本文所提出的简化混合域全波形反演算法.数值计算实例体现出新方法具有良好的计算效率、反演精度和算法可扩展性. 展开更多
关键词 全波形反演 混合域 三维模型 大规模 gpu并行
在线阅读 下载PDF
基于多GPU的格子Boltzmann法对槽道湍流的直接数值模拟 被引量:3
12
作者 许丁 陈刚 +1 位作者 王娴 李跃明 《应用数学和力学》 CSCD 北大核心 2013年第9期956-964,共9页
采用多GPU并行的格子Boltzmann方法(lattice Boltzmann method,LBM)对充分发展的槽道湍流进行了直接数值模拟.GPU(graphic processing unit)的数据并行单指令多线程(single-instruction multiple-thread,SIMT)特征与LBM完美的并行性相匹... 采用多GPU并行的格子Boltzmann方法(lattice Boltzmann method,LBM)对充分发展的槽道湍流进行了直接数值模拟.GPU(graphic processing unit)的数据并行单指令多线程(single-instruction multiple-thread,SIMT)特征与LBM完美的并行性相匹配,使得LBM求解器在GPU上运行获得了极高的性能,亦使得大规模DNS(direct numerical simulation)在桌面级计算机上进行成为可能.采用8个GPU,网格数目达到6.7×107,全场网格尺寸Δ+=1.41.模拟3×106个时间步长,用时仅24 h.另外,直接模拟结果无论是在平均流速或湍流统计量上均与Moser等的结果吻合得很好,这也证实了二阶精度的格子Boltzmann法直接模拟湍流的能力与有效性. 展开更多
关键词 格子Boltzmann法 gpu并行 槽道湍流 直接数值模拟(DNS)
在线阅读 下载PDF
一种基于GPU的二维离散多分辨率小波变换加速方法 被引量:3
13
作者 刘磊 张子佳 +1 位作者 刘雷 张睿 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第2期267-272,共6页
针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求,提出一种基于GPU的并行小波变换算法,并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术,利用多Kernel并行提高多种分辨率下... 针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求,提出一种基于GPU的并行小波变换算法,并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术,利用多Kernel并行提高多种分辨率下小波变换的性能.实验结果表明,与CPU串并行版本相比,GPU并行优化算法在高分辨率变换情况下,加速比最高可达30~60倍,可满足对变换实时性的要求. 展开更多
关键词 小波变换 多分辨率 gpu加速
在线阅读 下载PDF
基于GPU并行技术的超大型海面舰船电磁散射仿真 被引量:6
14
作者 郑文军 杨伟 周礼来 《电子科技大学学报》 EI CAS CSCD 北大核心 2023年第4期549-554,共6页
为了解决超电大尺寸海面舰船场景中电磁散射计算的瓶颈问题,研究基于多图像处理单元(Multi-GPU)并行加速技术的弹跳射线法(SBR)。借助统一设备计算架构(CUDA)提供的多线程服务(MPS),构建Multi-GPU并行加速框架,研究基于区域射线束划分GP... 为了解决超电大尺寸海面舰船场景中电磁散射计算的瓶颈问题,研究基于多图像处理单元(Multi-GPU)并行加速技术的弹跳射线法(SBR)。借助统一设备计算架构(CUDA)提供的多线程服务(MPS),构建Multi-GPU并行加速框架,研究基于区域射线束划分GPU计算任务和实现方式;研究基于矩阵网格的任务分割技术,最大限度提高GPU全局内存利用率;针对不同运算单元间的差异所带来的计算不同步问题,设计基于动态负载均衡算法的调度系统,进而提高计算资源利用率。仿真结果表明,在双GPU硬件平台上,该方案与现有并行技术算法相比,在确保结果准确性的情况下加速比接近甚至超过200%。因此,该技术方案能够有效解决超电大海面舰船电磁散射问题。 展开更多
关键词 超电大 multi-gpu 雷达散射截面 海面舰船 射线追踪法
在线阅读 下载PDF
CPU+多GPU异构协同计算的体系结构研究 被引量:3
15
作者 李龙飞 贺占庄 徐丹妮 《微电子学与计算机》 CSCD 北大核心 2014年第3期98-101,共4页
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法.
关键词 图形处理器 统一计算设备架构 gpu 异构协同计算
在线阅读 下载PDF
前列腺癌辅助诊断GPU并行算法设计 被引量:4
16
作者 苏庆华 付景超 +5 位作者 谷焓 张姗姗 李奕飞 江方舟 白翰林 赵地 《计算机科学》 CSCD 北大核心 2019年第S11期524-527,共4页
在癌症高发的当代,前列腺癌作为男性特有的疾病,其发病率逐年升高。卷积神经网络因其在图像识别领域的强大性能而倍受关注,也非常适用于计算机辅助诊断(Computer Aided Design,CAN)领域。由于神经网络模型中通常包含大量参数,因此训练... 在癌症高发的当代,前列腺癌作为男性特有的疾病,其发病率逐年升高。卷积神经网络因其在图像识别领域的强大性能而倍受关注,也非常适用于计算机辅助诊断(Computer Aided Design,CAN)领域。由于神经网络模型中通常包含大量参数,因此训练一个卷积神经网络十分耗时。如何加快神经网络的训练成为了深度学习领域中一个十分重要的问题。为了解决这个问题,一般采用多GPU并行方案。其中,数据同步在GPU性能均衡的情况下表现更佳。因此,文中借鉴已有的基于数据并行算法对前列腺三维卷积网络进行加速。 展开更多
关键词 卷积网络 深度学习 gpu并行 数据并行 神经网络
在线阅读 下载PDF
基于多GPU集群的编程框架 被引量:3
17
作者 王刚 唐杰 武港山 《计算机技术与发展》 2014年第1期9-13,共5页
现如今,GPU作为一种低功耗高性能图形处理器单元,被广泛应用于高度并行化的应用程序中。其线程和内存的层次结构在诸多成功的多线程应用和科学研究中表现出巨大的优势。为了简化多GPU集群的编程模式以及更好地利用GPU的计算性能,设计并... 现如今,GPU作为一种低功耗高性能图形处理器单元,被广泛应用于高度并行化的应用程序中。其线程和内存的层次结构在诸多成功的多线程应用和科学研究中表现出巨大的优势。为了简化多GPU集群的编程模式以及更好地利用GPU的计算性能,设计并实现了一个新的基于多GPU的MapReduce并行编程框架。使用了并行虚拟文件系统(PVFS)来存储数据,考虑了动态的负载平衡和GPU相关的权重要素以达到优化系统的效率、透明性以及系统的可伸缩性的目的。在文中,将演示使用该编程模式解决地质应用的一个典型的偏移应用-叠前时间偏移(PKTM),并给出实验结果。 展开更多
关键词 gpu集群 MAPREDUCE 地震偏移 负载平衡
在线阅读 下载PDF
基于多线程多GPU并行加速的最小二乘逆时偏移算法 被引量:6
18
作者 柯璇 石颖 +2 位作者 张伟 张振 何伟 《石油物探》 EI CSCD 北大核心 2019年第1期88-102,共15页
最小二乘逆时偏移算法可对地下复杂构造精确成像,但由于计算量大,目前仍难以在实际资料处理中广泛推广应用,因此研究该方法的高效计算策略具有重要意义。结合Pthread标准,提出了多线程多图形处理器(Graphics Processing Unit,GPU)并行... 最小二乘逆时偏移算法可对地下复杂构造精确成像,但由于计算量大,目前仍难以在实际资料处理中广泛推广应用,因此研究该方法的高效计算策略具有重要意义。结合Pthread标准,提出了多线程多图形处理器(Graphics Processing Unit,GPU)并行加速策略,在共炮点道集域分解计算任务,由多GPU并行计算并实时更新数据;并结合GPU存储器优化方法,调用GPU端共享存储和寄存器等高速存储器,提高波场模拟的计算效率;最终实现了二维空间的时域最小二乘逆时偏移算法大幅加速计算。分别对Marmousi2截断模型和Marmousi模型进行加速成像测试,结果表明:基于多线程多GPU并行加速的最小二乘逆时偏移算法具有普适性;随着数据规模的增加,该方法的加速效率可逐渐逼近线性加速,数据同步延迟小,加速效率显著。 展开更多
关键词 时域最小二乘逆时偏移 gpu 多线程 Pthread 存储器优化 共享存储器 寄存器
在线阅读 下载PDF
GPU并行加速的多步逆时偏移在东濮前梨园地区的应用 被引量:2
19
作者 张慧 蔡其新 +2 位作者 秦广胜 高爱荣 林玉英 《物探与化探》 CAS CSCD 2015年第1期161-165,共5页
为了解决东濮油田复杂断块成像难题,笔者采用了多步逆时偏移成像方法,并使用了GPU进行并行加速。经过GPU并行加速的多步逆时偏移成像方法解决了RTM计算效率低的应用限制问题,并成功应用于复杂断层成像处理中。通过对前梨园三维地震资料... 为了解决东濮油田复杂断块成像难题,笔者采用了多步逆时偏移成像方法,并使用了GPU进行并行加速。经过GPU并行加速的多步逆时偏移成像方法解决了RTM计算效率低的应用限制问题,并成功应用于复杂断层成像处理中。通过对前梨园三维地震资料的偏移成像处理,验证了逆时偏移成像技术在处理东濮地下复杂小断块和兰聊大断层上具有成像优越性;偏移效率分析试验证明了基于GPU并行加速的逆时偏移成像方法,能有效地提高计算效率75倍。 展开更多
关键词 东濮油田 逆时偏移 gpu 多步法 偏移成像
在线阅读 下载PDF
一种GPU及深度置信网络的语音识别加速算法研究 被引量:1
20
作者 景维鹏 姜涛 +1 位作者 朱良宽 刘美玲 《小型微型计算机系统》 CSCD 北大核心 2018年第3期551-555,共5页
为解决语音识别中深度置信网络(DBN)参数过多,GPU无法一次性存储全部参数和现有DBN的GPU实现效率过低问题,提出一种基于GPU的DBN优化算法(op CD-k).利用Kaldi语音识别工具提取语音数据的f MLLR特征,将DBN模型的权重矩阵进行合理划分,充... 为解决语音识别中深度置信网络(DBN)参数过多,GPU无法一次性存储全部参数和现有DBN的GPU实现效率过低问题,提出一种基于GPU的DBN优化算法(op CD-k).利用Kaldi语音识别工具提取语音数据的f MLLR特征,将DBN模型的权重矩阵进行合理划分,充分利用GPU的共享内存,并采用GPU的流处理模式;为解决多GPU中基于数据并行的参数交换成为制约DBN性能提高的问题,使用参数服务器模式,并在多GPU中使用op CD-k算法.实验结果证明:op CD-k算法在保证语音识别正确率的前提下,可以显著提升DBN模型的训练速度. 展开更多
关键词 深度置信网络 权重矩阵 流处理 数据并行 参数服务器 gpu
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部