期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于CUDA平台的FIR滤波算法的设计与优化 被引量:2
1
作者 郭海凤 李莉 《计算机技术与发展》 2014年第3期102-105,167,共5页
针对目前基于普通DSP的FIR算法速度低、扩展性差的缺点,提出并实现基于CUDA平台实现的FIR滤波算法。由于在CUDA中程序可以直接操作数据而无需借助于图形系统的API,使开发者能够在GPU强大计算能力的基础上建立起一种效率更高的密集数据... 针对目前基于普通DSP的FIR算法速度低、扩展性差的缺点,提出并实现基于CUDA平台实现的FIR滤波算法。由于在CUDA中程序可以直接操作数据而无需借助于图形系统的API,使开发者能够在GPU强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。该算法将CUDA用于FIR滤波器输入输出关系计算,采用矩阵乘法的并行运算技术,在GPU上建立并行滤波模型,并对算法进行了优化。实验结果表明,在Tesla C1060平台上,和传统的基于DSP的FIR滤波算法计算速度相比,基于CUDA平台计算FIR滤波算法时,其加速比可接近30,解决了传统基于DSP计算FIR滤波算法速度较慢、扩展性差的问题。 展开更多
关键词 FIR滤波算法 并行计算 GPU计算 cuda平台 矩阵乘法
在线阅读 下载PDF
基于CUDA的图像快速并行细化算法的研究与实现 被引量:2
2
作者 金汉均 梅洪洋 《电子测量技术》 2014年第8期75-79,共5页
在图像处理和模式识别中,通过细化算法抽取图像的骨架是一项极有意义的工作。由于大多数传统细化算法都需要按照一定顺序对每个像素进行逐点扫描,执行效率不高,另外图像细化算法中数据之间的关联性不大,将传统的快速并行细化算法移植到C... 在图像处理和模式识别中,通过细化算法抽取图像的骨架是一项极有意义的工作。由于大多数传统细化算法都需要按照一定顺序对每个像素进行逐点扫描,执行效率不高,另外图像细化算法中数据之间的关联性不大,将传统的快速并行细化算法移植到CUDA(compute unified device architecture)平台上,运用CUDA的并行处理优势对图像进行细化处理。实验表明,该方法在保证细化处理效果的前提下,还能将运算效率提高达到幂级数级。 展开更多
关键词 细化算法 cuda平台 并行处理
在线阅读 下载PDF
基于CUDA的医学图像处理算法平台的设计与初步实现 被引量:2
3
作者 刘俊杰 聂生东 王远军 《中国医学物理学杂志》 CSCD 2011年第5期2872-2877,共6页
目的:本文介绍了所开发的医学图像处理算法平台(cudaGIL),设计平台主要是为医学图像处理算法的开发和测试提供一个简洁的框架。方法:该平台封装了cudpp,cufft,thrust等第三方库,并提供简洁的算法接口,使得并行算法能在该平台上高效执行... 目的:本文介绍了所开发的医学图像处理算法平台(cudaGIL),设计平台主要是为医学图像处理算法的开发和测试提供一个简洁的框架。方法:该平台封装了cudpp,cufft,thrust等第三方库,并提供简洁的算法接口,使得并行算法能在该平台上高效执行;采用了优化的迭代器模式和数据分页方法,用以降低数据索引的时间消耗;组件管理模式被用于该平台中,用户可以新建组件扩展自定义算法;使用建立在OpenGL与CUDA基础上的异步操作实时显示图像。结果:通过与已有平台的比较,结果显示该平台在算法效率和显示速度上有了较大的提升。结论:本文设计的医学图像处理算法平台可作为医学图像算法的开发工具。 展开更多
关键词 GPU加速 cuda 算法平台 组件模式 OPENGL 实时算法
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
4
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 cuda平台 并行计算
在线阅读 下载PDF
基于GPU的并行植物模拟生长算法 被引量:6
5
作者 杨磊 龚学余 《计算机工程与设计》 北大核心 2016年第12期3271-3279,共9页
为提高植物模拟生长算法求解性能,基于GPU SIMT执行模型对算法步骤进行详细并行化设计并绘制算法流程图。算法代码利用C++和CUDA实现,能够在CPU+GPU混合架构平台上运行;在此基础上,利用7个不同类型的基准测试函数对算法进行测试,与串行... 为提高植物模拟生长算法求解性能,基于GPU SIMT执行模型对算法步骤进行详细并行化设计并绘制算法流程图。算法代码利用C++和CUDA实现,能够在CPU+GPU混合架构平台上运行;在此基础上,利用7个不同类型的基准测试函数对算法进行测试,与串行算法代码进行对比。分析结果表明,在保证求解质量的前提下,相比串行算法,该并行算法将目标函数复杂的大规模问题的求解效率提升了十几倍到几百倍,其加速比较好,不同变量维数下的求解时间增加不明显,验证了当前工作的可行性和有效性。 展开更多
关键词 植物模拟生长算法 并行化 图形处理器 统一计算设备架构 混合架构平台
在线阅读 下载PDF
基于通用计算平台SM4-CTR算法并行实现与优化 被引量:7
6
作者 李晓东 胡一鸣 +2 位作者 池亚平 钱榕 张健毅 《密码学报》 CSCD 2022年第4期663-676,共14页
随着大数据、云计算、5G通信技术的迅速发展,数据传输安全问题日益凸显,密码算法的设计和高效实现变得尤为重要,能高速运行的国产密码算法已成为保护国家安全的关键.与此同时,原本只用于图像计算的硬件GPU,在编程模型CUDA发布后就成为... 随着大数据、云计算、5G通信技术的迅速发展,数据传输安全问题日益凸显,密码算法的设计和高效实现变得尤为重要,能高速运行的国产密码算法已成为保护国家安全的关键.与此同时,原本只用于图像计算的硬件GPU,在编程模型CUDA发布后就成为通用的、普及化的算力资源.本文基于通用的计算机平台,提出了利用其本地GPU进行CTR工作模式下SM4算法高速加解密的并行实现和优化方案.实验表明,本文提出的SM4-CTR并行加解密方案能够有效提高SM4算法的运行效率,在通用的计算机平台上,能够达到40倍加速比,加解密速率达到了14.192 Gbps.实验中还分析了线程块划分对GPU并行加速效果的影响,最优线程块大小为128到512,且必须为32的整倍数.最后,基于本文实验的结果与其他团队的优化SM4方案进行对比,包括传统工作模式下利用CPU、GPU优化的方案和利用软件快速实现的方案,对比结果显示即便之前团队的方案运行的平台硬件条件好于本文实验环境,文中提出的方案运行速率依然能做到大幅领先.因此,本文方案在安全性、运算速率提高的同时适用平台也更加广泛,在实际生活中针对大数据和个人数据的安全保护中必将发挥巨大的作用. 展开更多
关键词 SM4算法 CTR模式 cuda GPU加速 并行算法 通用计算机平台
在线阅读 下载PDF
一种跨平台的并行编程框架设计与实现 被引量:1
7
作者 李婷 徐云 +1 位作者 聂鹏宇 潘玮华 《计算机工程》 CAS CSCD 2014年第8期43-47,共5页
并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数... 并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数设计了统一的函数接口,使底层平台的变化对上层应用程序透明。根据底层函数库的开发,给出一种填充式的编程方法和任务调度系统。将OpenCH应用于遥感影像分类,实验结果证明,基于该框架开发的并行程序可运行于多种并行计算平台,并具有较高的并行加速比,编程框架本身造成的时间开销低于15%。 展开更多
关键词 并行计算 并行编程框架 跨平台 OpenMP编程 MPI编程 cuda编程
在线阅读 下载PDF
基于GPU的三维扩散方程在反应堆计算中的应用 被引量:2
8
作者 王飞飞 王海玲 俞海英 《核技术》 CAS CSCD 北大核心 2015年第4期54-59,共6页
本文介绍了基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的图形处理器(Graphic Processing Unit,GPU)计算环境在钍基熔盐堆(Thorium Molten Salt Reactor,TMSR)设计平台的建立,并将反应堆球场计算软件SRAC(Structur... 本文介绍了基于统一计算设备架构(Compute Unified Device Architecture,CUDA)的图形处理器(Graphic Processing Unit,GPU)计算环境在钍基熔盐堆(Thorium Molten Salt Reactor,TMSR)设计平台的建立,并将反应堆球场计算软件SRAC(Structure Research and Analysic Corporation)的中子三维扩散计算模块移植到GPU上进行测试及结果验证。采用中心点差分方法推导出三维扩散计算的差分方程,并用超松弛迭代法(Successive Over Relaxation Method,SOR)求解φ,研究了SOR迭代算法的并行实现过程。结果表明,移植的GPU模块部分计算正确,计算速度得到有效提升,验证了TMSR设计平台在GPU计算环境下可正常工作。 展开更多
关键词 图形处理器 统一计算设备架构 钍基熔盐堆设计平台 三维扩散计算 超松弛迭代法
原文传递
基于CPU-GPU异构平台的高层结构地震响应分析方法研究 被引量:8
9
作者 李红豫 滕军 李祚华 《振动与冲击》 EI CSCD 北大核心 2014年第13期86-91,共6页
为了解决传统的串行有限元分析方法计算耗时多精度低的问题,基于GPU并行计算能力在CUDA架构下建立了一套兼顾精度和效率的高层结构有限元分析的CPU-CPU的异构平台。基于CPU-GPU异构平台研究了高层结构地震响应算法,将整个时间步积分在GP... 为了解决传统的串行有限元分析方法计算耗时多精度低的问题,基于GPU并行计算能力在CUDA架构下建立了一套兼顾精度和效率的高层结构有限元分析的CPU-CPU的异构平台。基于CPU-GPU异构平台研究了高层结构地震响应算法,将整个时间步积分在GPU中计算完成,每一时间步下利用基于GPU的预处理共轭梯度迭代法求解线性方程组获得该时刻的位移,最终实现了基于GPU的Newmark-β法。通过算例验证了本文所提方法的高精度、高效率。 展开更多
关键词 GPU 异构平台 有限元 地震响应 cuda 加速比
在线阅读 下载PDF
使用OpenCL技术的影像快速畸变纠正方法在异构平台上的应用分析 被引量:1
10
作者 韦博文 李涛 +5 位作者 李广宇 汪致恒 何沐 师悦龄 刘路遥 张瑞 《计算机科学》 CSCD 北大核心 2016年第S2期167-169,196,共4页
针对海量遥感数据应用中日益显著的处理效率低下和计算瓶颈问题,基于通用计算机图形处理单元的编程开发使用OpenCL并行处理技术对遥感数据处理及其过程进行加速,旨在为遥感影像大数据处理提供一条更为高效的途径。在不同显卡平台上对影... 针对海量遥感数据应用中日益显著的处理效率低下和计算瓶颈问题,基于通用计算机图形处理单元的编程开发使用OpenCL并行处理技术对遥感数据处理及其过程进行加速,旨在为遥感影像大数据处理提供一条更为高效的途径。在不同显卡平台上对影像畸变纠正实施并行处理,结果表明,OpenCL技术在提高影像畸变纠正的速度方面作用显著,可取得29.1倍的最高加速效果;与CUDA并行处理技术的交叉验证进一步凸显了OpenCL技术在异构平台上实施并行处理时所具有的通用性的优势。 展开更多
关键词 OPENCL cuda 并行处理 异构平台通用性 畸变纠正
在线阅读 下载PDF
基于GPU的LCS算法加速机制研究与实现
11
作者 张常志 牟澄 +1 位作者 黄小红 马严 《通信学报》 EI CSCD 北大核心 2013年第S2期9-13,共5页
协议特征识别技术中用到了一种重要的LCS算法,它是一种字符串比对算法,提取出字符串中的最长连续公共子串。然而,通过理论分析和实验表明:这个查找过程是一个时间复杂度较高的运算过程,如果输入的数据分组比较大,那么运行的时间将会非常... 协议特征识别技术中用到了一种重要的LCS算法,它是一种字符串比对算法,提取出字符串中的最长连续公共子串。然而,通过理论分析和实验表明:这个查找过程是一个时间复杂度较高的运算过程,如果输入的数据分组比较大,那么运行的时间将会非常长,为此不得不控制输入数据分组的大小和数量,这严重限制了所采用样本集的大小。提出了基于GPU对LCS运算实现加速的方法。在此基础上搭建和配置了CUDA平台,在此平台下研究并实现了LCS算法的并行性。通过对LCS算法在CUDA下并行性的研究,有效地加快了LCS算法的运行速度。实验结果表明,GPU下LCS算法的运行效率比CPU有了显著的提高。 展开更多
关键词 协议特征识别 LCS算法 cuda平台 GPU加速
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部