期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
利用CUDA技术实现锥束CT图像快速重建 被引量:10
1
作者 王珏 曹思远 邹永宁 《核电子学与探测技术》 CAS CSCD 北大核心 2010年第3期315-320,共6页
锥束CT三维重建算法的计算量和传输量巨大,仅利用CPU来计算,无法满足实时、快速、准确重建的要求,根据图形处理器运算能力强、存储带宽大的特点,研究了一种不需要学习图形API,就可以在图形处理器上实现三维重建算法的快速运算的方法。... 锥束CT三维重建算法的计算量和传输量巨大,仅利用CPU来计算,无法满足实时、快速、准确重建的要求,根据图形处理器运算能力强、存储带宽大的特点,研究了一种不需要学习图形API,就可以在图形处理器上实现三维重建算法的快速运算的方法。该方法采用基于统一计算设备架构的图形处理器,通过这种新架构的编程模式,利用图形处理器中的流处理器来加快滤波和反投影计算,实现了FDK算法的重建加速,与利用图形API的重建方法相比,开发门槛较低。对于尺寸为5123的单精度浮点数据格式的图像,重建时间可以缩短到一分钟以内,并且GPU与计算机的传输时间小于1秒。实验结果表明与仅利用CPU的重建方法相比,本文提出的图像加速方法得到了较高的时间加速比。 展开更多
关键词 锥束CT 图形处理器 统一计算设备架构 流处理器FDK算法 重建加速
在线阅读 下载PDF
基于CUDA的离散粒子系统模拟仿真及其实现 被引量:3
2
作者 江顺亮 黄强强 +1 位作者 董添文 徐少平 《南昌大学学报(工科版)》 CAS 2011年第3期290-294,共5页
使用CUDA(compute unified device architecture,统一计算架构),利用GPU(graphic processing unit,图像处理器)强大的并行能力实现DEM(discrete element method,离散单元法)的离散粒子系统模拟仿真。邻域搜索时使用基于哈希表排序的邻... 使用CUDA(compute unified device architecture,统一计算架构),利用GPU(graphic processing unit,图像处理器)强大的并行能力实现DEM(discrete element method,离散单元法)的离散粒子系统模拟仿真。邻域搜索时使用基于哈希表排序的邻域搜索算法,依据CUDA内存模型的特点对系统做出有效的内存规划,并使用CUDA流技术通过将粒子碰撞和数据输出分割成4个流异步执行,来隐藏数据拷贝的部分延迟。通过使用CUDA的事件作为GPU计时器监测,实验证明本文中的并行搜索算法的执行效率很高,而使用合理的内存策略和流技术也可以有效的提高系统的性能。 展开更多
关键词 GPU 并行程序设计 cuda 粒子系统
在线阅读 下载PDF
基于CUDA流技术的深度学习系统优化 被引量:4
3
作者 蒋文斌 刘湃 +1 位作者 陈雨浩 张杨松 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第7期107-111,共5页
为了在不损失模型准确率的同时优化Caffe深度学习框架的训练速度,提出了一种面向Caffe并基于计算统一设备架构(CUDA)流技术的深度学习系统优化方法,以便充分利用GPU资源,提高计算的并行度.在Caffe网络的各层使用异步CUDA流,使其运行在... 为了在不损失模型准确率的同时优化Caffe深度学习框架的训练速度,提出了一种面向Caffe并基于计算统一设备架构(CUDA)流技术的深度学习系统优化方法,以便充分利用GPU资源,提高计算的并行度.在Caffe网络的各层使用异步CUDA流,使其运行在独立线程以并行执行GPU计算任务;同时将批处理块划分成多个数据片,使用调度算法在前向传播和反向传播过程中以流水线形式进行处理.在数据集MNIST和CIFAR-10上的实验结果表明:优化后的系统在训练速度上有明显提升,同时准确率基本无损失. 展开更多
关键词 深度学习 计算统一设备架构(cuda)流 训练速度 调度算法 准确率
原文传递
基于CUDA的快速图像压缩 被引量:6
4
作者 郭静 陈庆奎 《计算机工程与设计》 CSCD 北大核心 2010年第14期3302-3304,3308,共4页
为了进一步提高JPEG编码效率,对JPEG压缩算法进行研究,分析得出JPEG核心步骤可以并行化处理。因此,实现平台宜采用以并行计算为优势的GPU,而不是以串行计算为主的CPU。NVIDIA新推出的CUDA(计算统一设备架构)为此实现提供了软硬件环境。C... 为了进一步提高JPEG编码效率,对JPEG压缩算法进行研究,分析得出JPEG核心步骤可以并行化处理。因此,实现平台宜采用以并行计算为优势的GPU,而不是以串行计算为主的CPU。NVIDIA新推出的CUDA(计算统一设备架构)为此实现提供了软硬件环境。CUDA是基于GPU进行通用计算的开发平台,非常适合大规模的并行数据计算。在GPU流处理器架构下用CUDA技术实现编码并行化,并针对流处理器架构特点进行内存读写等方面的优化,提高了JPEG编码的速度。实验结果表明了CUDA技术在并行处理方面的优越性,JPEG编码效率得到了极大提高。 展开更多
关键词 JPEG 并行处理 计算统一设备架构 流处理器 GPU
在线阅读 下载PDF
基于CUDA的细分曲面阴影体算法 被引量:4
5
作者 赵杰伊 唐敏 童若锋 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第7期1301-1306,共6页
为了在虚拟现实、电脑游戏等图形应用中更快速生成和实时绘制细分曲面的阴影,提出采用CUDA架构的GPU阴影体生成算法.该算法采用基于CUDA的曲面细分算法,通过CUDA共享内存结构使表面细分过程更加高效.采用基于CUDA的阴影体算法产生阴影... 为了在虚拟现实、电脑游戏等图形应用中更快速生成和实时绘制细分曲面的阴影,提出采用CUDA架构的GPU阴影体生成算法.该算法采用基于CUDA的曲面细分算法,通过CUDA共享内存结构使表面细分过程更加高效.采用基于CUDA的阴影体算法产生阴影轮廓线以及拉伸出阴影体.通过基于CUDA的流式缩减算法对阴影体数组进行压缩.通过优化CUDA和OpenGL的互操作,将绘制过程从以往算法的3步减少为2步.该算法在具有CUDA硬件的标准PC上进行测试.实验结果表明,与之前的GPU的算法相比,该算法可以生成更复杂细分曲面的阴影体,阴影体数组占用显存空间降低到2%以下,并可获得高达4倍的绘制速度提升. 展开更多
关键词 cuda 细分曲面 阴影体生成 流式缩减
在线阅读 下载PDF
基于CUDA的DVB-S2大规模IP数据提取方法 被引量:1
6
作者 邵光远 刘凯 《电子测量技术》 2019年第17期119-123,共5页
随着新一代卫星广播系统(DVB-S2)中IP业务的不断扩大,原有的串行接收机渐渐无法满足实时性要求。提出了一种基于统一计算设备架构(CUDA)的GS流和IP数据的提取方法,从任务划分,降低耦合度,负载均衡的角度进行了设计和优化;同时针对通信... 随着新一代卫星广播系统(DVB-S2)中IP业务的不断扩大,原有的串行接收机渐渐无法满足实时性要求。提出了一种基于统一计算设备架构(CUDA)的GS流和IP数据的提取方法,从任务划分,降低耦合度,负载均衡的角度进行了设计和优化;同时针对通信时间瓶颈隐藏了传输时间,实现了多粒度的协调并行。实验结果表明,相比于用CPU进行处理,基于CUDA的解决方案获得了极大的性能提升,在GTX 1050Ti平台上达到了20~22倍的加速比,有利于满足大规模系统中实时性的要求。 展开更多
关键词 DVB-S2 GS流 IP数据 cuda 并行计算
原文传递
采用CUDA技术的视频图像块效应评价算法
7
作者 魏晓娟 陈庆奎 王海峰 《微电子学与计算机》 CSCD 北大核心 2010年第8期256-260,共5页
为了对视频图像质量进行实时评价,在分析现有块效应评价算法基础之上,提出了在流处理器并行环境下视频图像块效应评价算法,采用CUDA技术实现该算法程序.实验结果表明,在NV Geforce GTX280上实现的并行算法比CPU上的串行算法提高了近30... 为了对视频图像质量进行实时评价,在分析现有块效应评价算法基础之上,提出了在流处理器并行环境下视频图像块效应评价算法,采用CUDA技术实现该算法程序.实验结果表明,在NV Geforce GTX280上实现的并行算法比CPU上的串行算法提高了近30倍的效率.证明了CUDA技术在数字图像处理应用中具有极大的潜力,尤其是计算密集型任务处理. 展开更多
关键词 流处理器 cuda技术 块效应评价 视频图像
在线阅读 下载PDF
Legendre序列快速生成的CUDA实现 被引量:1
8
作者 赵家威 房九龄 苏明 《计算机工程与应用》 CSCD 2014年第8期66-71,153,共7页
序列设计在信息安全,无线通信等诸多领域中有着重要应用。在流密码系统中,要求产生的随机序列具有理想的随机复杂度度量如线性复杂度,k阶相关复杂度等。其中Legendre序列具有这些理想的随机性质。实用中序列的生成速度也是很重要的考虑... 序列设计在信息安全,无线通信等诸多领域中有着重要应用。在流密码系统中,要求产生的随机序列具有理想的随机复杂度度量如线性复杂度,k阶相关复杂度等。其中Legendre序列具有这些理想的随机性质。实用中序列的生成速度也是很重要的考虑因素。探讨了大素数周期的Legendre序列生成的相关算法,并运用统一计算设备架构平台(CUDA)对其进行优化以加快序列的生成速度。实验结果表明,运用CUDA进行序列的并行生成,序列的生成速度有数量级的提高。 展开更多
关键词 流密码 Legendre序列 统一计算设备架构(cuda) 并行计算 复杂度度量
在线阅读 下载PDF
CUDA到异构众核架构的线程映射模型
9
作者 余勇 庞建民 +1 位作者 单征 刘晓楠 《计算机工程》 CAS CSCD 2012年第9期282-284,287,共4页
统一计算设备架构(CUDA)程序移植到其他异构众核架构时的线程数不匹配。为此,提出一种层次化的线程映射模型。在第1个映射层次上,将CUDA主机端线程和设备端线程分别映射到目标平台的主核和从核阵列上,在第2个映射层次上,采用线程循环的... 统一计算设备架构(CUDA)程序移植到其他异构众核架构时的线程数不匹配。为此,提出一种层次化的线程映射模型。在第1个映射层次上,将CUDA主机端线程和设备端线程分别映射到目标平台的主核和从核阵列上,在第2个映射层次上,采用线程循环的方法消除协作线程阵列(CTA)中线程间同步操作,将整个CTA映射到从核阵列的一个从核上。实验结果表明,该模型能使CUDA程序在其他异构众核系统上得到有效运行。 展开更多
关键词 代码移植 图形处理器 统一计算设备架构 异构众核架构 流式多处理器 线程循环
在线阅读 下载PDF
GPU通用计算模式在岩土工程中的应用 被引量:4
10
作者 刘明贵 刘绍波 张国华 《岩土力学》 EI CAS CSCD 北大核心 2010年第9期3019-3024,共6页
由于岩土工程地质条件的复杂性及其规模的不断增大,对大规模数值计算速度的要求越来越高。显卡核心单元(GPU)由于其硬件构造特殊,有着并行计算上的独特优势、高速浮点运算性能和超高的内存带宽,可以很好地解决大规模的科学计算速度问题... 由于岩土工程地质条件的复杂性及其规模的不断增大,对大规模数值计算速度的要求越来越高。显卡核心单元(GPU)由于其硬件构造特殊,有着并行计算上的独特优势、高速浮点运算性能和超高的内存带宽,可以很好地解决大规模的科学计算速度问题。文中介绍了GPU与CPU的硬件构架差异,总结了多核CPU、工作站等方式发展的局限性及GPU在并行运算方面的优势,详细阐述了GPU各类计算模式的发展特点及其成果,展示了其在坝区渗透特性中随机微分方程加速求解过程中的优越性,探讨了采用GPU进行大规模岩土工程数值计算的应用前景。 展开更多
关键词 GPGPU cudastream OPENCL 高性能计算 岩土工程
原文传递
面向众核GPU结构的椭圆曲线加密流化技术 被引量:2
11
作者 甘新标 沈立 王志英 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2011年第2期98-102,共5页
针对椭圆曲线加密系统的加密速度不能满足实时性要求的现状,分析了椭圆曲线加密机制(Elliptic Curve Cryptography,ECC)潜在的并行性,研究了GPU众核多线程及共享存储空间和只读Cache对ECC性能提升的影响,提出了以GPU强大计算资源和有效... 针对椭圆曲线加密系统的加密速度不能满足实时性要求的现状,分析了椭圆曲线加密机制(Elliptic Curve Cryptography,ECC)潜在的并行性,研究了GPU众核多线程及共享存储空间和只读Cache对ECC性能提升的影响,提出了以GPU强大计算资源和有效的存储带宽来流化加速ECC的方法。实验结果显示,在支持计算统一设备架构(Computing Unified Device Architecture,CUDA)的GPU上流化实现的ECC原型系统与优化的CPU实现相比可获得高达66×的加速度比。另外,针对ECC的流化并行及优化技术可作为一般方法推广至其它流体系结构。 展开更多
关键词 GPU 椭圆曲线加密 流化并行 优化 计算统一设备架构
在线阅读 下载PDF
地球物理高性能计算的新选择:GPU计算技术 被引量:23
12
作者 赵改善 《勘探地球物理进展》 2007年第5期399-404,共6页
随着地球物理对高性能计算需求的不断提升,集群系统节点规模不断提高,一方面大大提高了系统建设、运行、维护、管理及应用软件开发的复杂性,另一方面在提高系统总体性能方面也受到越来越大的制约。随着微电子技术的发展,GPU计算技术与... 随着地球物理对高性能计算需求的不断提升,集群系统节点规模不断提高,一方面大大提高了系统建设、运行、维护、管理及应用软件开发的复杂性,另一方面在提高系统总体性能方面也受到越来越大的制约。随着微电子技术的发展,GPU计算技术与可重构计算技术,将有可能替代集群计算技术成为高性能计算的主流技术。充分利用GPU并行处理能力,可以将GPU作为计算加速器为基于CPU的通用计算平台提供高性能的科学计算能力补充,这样可以在现有通用计算平台的基础上实现高性价比的高性能计算解决方案。GPU计算平台上的应用软件开发比可重构计算平台上的应用软件开发要容易得多,这一点使得GPU计算技术可以更早地广泛应用于地球物理领域。GPU计算产品已达到很高的性能,相应的软件开发环境也已推出,对于GPU计算平台应用软件开发技术的研究将使得GPU计算技术在不远的将来广泛地应用于地球物理计算中。 展开更多
关键词 GPU计算 高性能计算 地球物理 cuda 流编程模式
在线阅读 下载PDF
使用GPU技术的数据流分位数并行计算方法 被引量:2
13
作者 周勇 王皓 程春田 《计算机应用》 CSCD 北大核心 2010年第2期543-546,共4页
数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器(GPU)的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构... 数据流实时、连续、快速到达的特点决定了数据流的实时处理能力。在处理低维数据流时经常使用分位数信息来描述数据流的统计信息,利用图形处理器(GPU)的强大计算能力和高内存带宽的特性计算数据流分位数信息,提出了基于统一计算设备架构(CUDA)的数据流处理模型和基于该模型的数据流分位数并行计算方法。实验证明,该方法在提供不低于纯CPU分位数算法相同精度的条件下,使数据流分位数的实时计算带宽得到了显著的提高。 展开更多
关键词 统一计算设备架构 通用图形处理器 数据流 分位数 并行计算
在线阅读 下载PDF
MIMO系统固定复杂度球形解码器研究
14
作者 王洪源 冯振宇 +1 位作者 朱育锋 王腾 《沈阳理工大学学报》 CAS 2011年第4期1-5,共5页
图形处理单元(GPU)可作为低成本并行可编程协处理器,能提供高的计算吞吐量,非常适于大规模系统设计。为充分利用GPU的并行处理能力,采用专为GPU通用计算所设计的CUDA(Compute Unified Device Architecture)架构,针对平坦衰落信道,设计... 图形处理单元(GPU)可作为低成本并行可编程协处理器,能提供高的计算吞吐量,非常适于大规模系统设计。为充分利用GPU的并行处理能力,采用专为GPU通用计算所设计的CUDA(Compute Unified Device Architecture)架构,针对平坦衰落信道,设计了用于MIMO无线通信系统的固定复杂度球形解码器,以加速MIMO无线通信系统的数据处理。根据GPU的架构与存储特点,对实现进行了优化,减小了数据存取延迟和访问冲突。实验结果表明,球形解码速度可提高近10倍. 展开更多
关键词 固定复杂度球形解码器 cuda MIMO系统 GPU 流处理器
在线阅读 下载PDF
一种适用于GPU图像处理算法的合并存储结构 被引量:2
15
作者 左宪禹 张哲 +3 位作者 黄祥志 葛强 张理涛 臧文乾 《计算机工程与科学》 CSCD 北大核心 2020年第2期197-202,共6页
大多数图像处理算法都可利用GPU进行加速以达到更好的执行性能,但数据传输操作与核函数执行之间的调度策略问题仍是桎梏加速性能进一步提升的主要瓶颈。为了解决这个问题,通常采用GPU任务流将核函数执行与数据传输操作进行重叠,以隐藏... 大多数图像处理算法都可利用GPU进行加速以达到更好的执行性能,但数据传输操作与核函数执行之间的调度策略问题仍是桎梏加速性能进一步提升的主要瓶颈。为了解决这个问题,通常采用GPU任务流将核函数执行与数据传输操作进行重叠,以隐藏部分数据传输与核函数执行耗时。但是,由于CUDA编程模型的特性以及GPU硬件资源的限制,在某些情况下,即使创建较多的任务流用于任务重叠,每个流上仍会存在串行执行的任务,导致加速效果无法进一步提升。因此,考虑利用CSS将待处理图像进行合并从而将单个流中的算子核函数及数据传输操作进行合并,以减少数据传输操作和核函数执行的固定代价及调用间隙。通过实验结果可知,提出的CSS结构不仅能在单流的情况下提高GPU图像处理算法执行性能,在多流的情况下其加速性能也得到了进一步提升,具有较好的实用性及可扩展性,适用于包含较多算子操作或较小尺寸图像批量处理的情况。此外,提出的方法对图像处理算法的GPU加速提供了新的研究思路。 展开更多
关键词 图像处理 GPU cuda 合并存储结构 重叠
在线阅读 下载PDF
基于Fermi架构的Join算法 被引量:1
16
作者 李观钊 陈思桐 +1 位作者 甄真 陈虎 《计算机科学》 CSCD 北大核心 2013年第3期62-67,共6页
在列数据库中,连接操作依然是最核心和最耗时的操作,GPU强大的计算能力可为此提供新的优化手段。基于Fermi架构,提出了新的Hash Join算法和Sort-merge Join算法,其基本思想是充分利用该架构新增的缓存结构来减少连接操作的cache缺失率。... 在列数据库中,连接操作依然是最核心和最耗时的操作,GPU强大的计算能力可为此提供新的优化手段。基于Fermi架构,提出了新的Hash Join算法和Sort-merge Join算法,其基本思想是充分利用该架构新增的缓存结构来减少连接操作的cache缺失率。与CUDA stream技术相结合,新算法在输出结果较多时可以有效地隐藏主存与显存间数据传输带来的延迟,进一步提升其执行效率。实验结果证实了基于Fermi架构的Hash Join算法处理偏斜数据的高效性及Sort-merge Join算法的稳定性,并且通过比较表明,这两种算法的性能全面优于基于多核CPU充分优化的Join算法,最大加速2.4倍,在外键分布高偏斜时新的Hash Join算法的执行速度甚至达到每秒217M元组。 展开更多
关键词 JOIN算法 Fermi架构 缓存 cuda stream
在线阅读 下载PDF
一种使用GPU加速地震叠前时间偏移的方法 被引量:2
17
作者 张清 谢海波 +5 位作者 赵开勇 吴庆 陈维 王狮虎 迟旭光 褚晓文 《微型机与应用》 2011年第10期87-90,共4页
应用GPU通用高性能编程技术实现一种加速地震叠前时间偏移的新方法。该技术是地震勘探处理的常规流程,其核心算法具有计算密集、数据独立性强、并行性高等特点。通过性能剖析获得其计算热点,通过CUDA技术对其进行并行化改造,并利用CUDA... 应用GPU通用高性能编程技术实现一种加速地震叠前时间偏移的新方法。该技术是地震勘探处理的常规流程,其核心算法具有计算密集、数据独立性强、并行性高等特点。通过性能剖析获得其计算热点,通过CUDA技术对其进行并行化改造,并利用CUDA的流技术实现CPU到GPU的异步传输。通过集群环境下的性能测试,应用GPU并行化的PSTM程序可明显缩短运行时间。 展开更多
关键词 叠前时间偏移 地震勘探 图像处理器 计算统一设备架构 并行计算
在线阅读 下载PDF
基于GPU的北斗B1宽带复合信号实时发生器设计 被引量:2
18
作者 王子涵 巴晓辉 +3 位作者 姜维 蔡伯根 王剑 文韬 《系统工程与电子技术》 EI CSCD 北大核心 2024年第3期795-804,共10页
为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier... 为了实现北斗B1C+B1I信号的联合生成,提出一种基于软件无线电和图形处理器(graphics processing unit,GPU)加速的北斗B1宽带复合信号的实时生成方法,该方法针对单边带复数二进制偏移载波(single-sideband complex binary offset carrier,SCBOC)调制方式的信号体制进行设计,系统根据用户配置的接收机运动轨迹和星历文件,生成中频信号并通过射频端发射。为了进一步提升GPU并行运算速度,从优化设备内存结构、设计并行线程架构和统一计算设备架构流(compute unified device architecture stream,CUDA)加速3个方面,设计了基于异步运算的加速采样点数据计算的CUDA优化实现方案。测试结果证明,优化后的算法可以基于SCBOC调制实时生成北斗B1I+B1C信号,基于GTX3060的GPU平台,信号90 M采样率下能实现8颗卫星复合信号的实时生成。 展开更多
关键词 B1宽带复合信号 软件无线电 单边带复数二进制偏移载波调制 统一计算设备架构流 实时生成
在线阅读 下载PDF
并行对称矩阵三对角化算法在GPU集群上的有效实现 被引量:5
19
作者 刘世芳 赵永华 +1 位作者 于天禹 黄荣锋 《计算机研究与发展》 EI CSCD 北大核心 2020年第12期2635-2647,共13页
对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI(message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA(compute unified device architecture)的稠密对称矩阵三对角化算法.在MPI集群级并行... 对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI(message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA(compute unified device architecture)的稠密对称矩阵三对角化算法.在MPI集群级并行中,通过将2维通信域中行列通信域间的全局数据通信设计为完全并行的点点数据通信方式,改善了三对角化MPI并行算法的通信性能.通过改进原矩阵三对角化的MPI并行算法,避免了在GPU级并行中使用的不规则的矩阵向量运算,这部分的并行性能提升了1倍左右.并且,将在GPU并行中存在的小粒度计算合并为较大粒度计算,该策略可通过加大计算密集度来充分地发挥GPU的计算能力,增加GPU的利用率,从而提升了算法的性能.此外,利用多个CUDA流使算法中独立的CUDA操作可以在不同的流中并发执行.并且,在并行算法中,利用CPU与GPU之间的异步数据传输,使得在不同流中的数据传输和核函数同时执行,隐藏了数据传输的时间,进一步提升了算法的性能.在中国科学院超级计算机系统“元”上,使用Nvidia Tesla K20 GPGPU测试了不同规模矩阵的基于MPI+CUDA的三对角化并行块算法的性能,取得了较好的加速效果与性能,并且具有良好的可扩展性. 展开更多
关键词 对称矩阵三对角化 MPI+cuda 点点数据通信 计算密集度 cuda 可扩展性
在线阅读 下载PDF
面向大规模数据流处理的偏最小二乘法 被引量:3
20
作者 刘光敏 陈庆奎 《计算机应用研究》 CSCD 北大核心 2014年第4期1055-1058,共4页
用光谱分析鉴别生物特征,导致数据量大,而实际需要必须实时处理。偏最小二乘法是使用最广泛的鉴别算法,但是对于大规模数据流该算法无法达到实时性。为了解决这个应用矛盾,提出了一种基于NVIDIA CUDA架构下的并行计算策略,利用具有大规... 用光谱分析鉴别生物特征,导致数据量大,而实际需要必须实时处理。偏最小二乘法是使用最广泛的鉴别算法,但是对于大规模数据流该算法无法达到实时性。为了解决这个应用矛盾,提出了一种基于NVIDIA CUDA架构下的并行计算策略,利用具有大规模并行计算特征的图形处理器(GPU)作为计算设备,结合GPU存储器的优势实现了偏最小二乘算法。实验的测试结果表明,在GPU上使用CUDA实现的偏最小二乘算法比在CPU上实现该算法快了47倍,性能得到了显著提高,从而使偏最小二乘算法应用于大规模数据流处理成为可能。 展开更多
关键词 偏最小二乘法 大规模数据流 cuda 图形处理器
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部