期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
Speeding up the MATLAB complex networks package using graphic processors 被引量:1
1
作者 张百达 唐玉华 +1 位作者 吴俊杰 李鑫 《Chinese Physics B》 SCIE EI CAS CSCD 2011年第9期460-467,共8页
The availability of computers and communication networks allows us to gather and analyse data on a far larger scale than previously. At present, it is believed that statistics is a suitable method to analyse networks ... The availability of computers and communication networks allows us to gather and analyse data on a far larger scale than previously. At present, it is believed that statistics is a suitable method to analyse networks with millions, or more, of vertices. The MATLAB language, with its mass of statistical functions, is a good choice to rapidly realize an algorithm prototype of complex networks. The performance of the MATLAB codes can be further improved by using graphic processor units (GPU). This paper presents the strategies and performance of the GPU implementation of a complex networks package, and the Jacket toolbox of MATLAB is used. Compared with some commercially available CPU implementations, GPU can achieve a speedup of, on average, 11.3x. The experimental result proves that the GPU platform combined with the MATLAB language is a good combination for complex network research. 展开更多
关键词 complex networks graphic processors unit MATLAB Jacket Toolbox
原文传递
基于NVIDIA GPU的高轨SAR快速BP算法子孔径成像CUDA设计与实现
2
作者 雷苏力 苏翔 +3 位作者 杨娟娟 高阳 向天舜 党红杏 《空间电子技术》 2025年第3期54-59,共6页
后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFB... 后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFBP算法的巨大的运算量仍然在工程中难以满足时效性需求,文章使用图形处理器(GPU)作为CPU的协处理器,提出基于FFBP算法的子孔径(CUDA)实现方案,使用流实现回波数据分块传输延迟隐藏的同时避免了高频次切换进程,另外设计超细颗粒度线程,实现子孔径FFBP算法成像的GPU大规模并发。经验证,使用该CUDA解决方案完成高轨SAR卫星FFBP子孔径成像时,设备的执行效率大于90%,相较于CPU 32线程并发程序具有120倍加速比。 展开更多
关键词 高轨SAR 快速后向投影(FFBP)成像算法 图形处理器(GPU)
在线阅读 下载PDF
基于GPU的并行优化技术 被引量:23
3
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
在线阅读 下载PDF
基于CUDA的高速FFT计算 被引量:23
4
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
在线阅读 下载PDF
离子发动机交换电荷离子返流的粒子模拟 被引量:4
5
作者 任军学 李娟 +2 位作者 仇钎 汤海滨 温正 《强激光与粒子束》 EI CAS CSCD 北大核心 2011年第7期1929-1934,共6页
建立了离子发动机羽流的物理模型,采用粒子网格对羽流中的交换电荷离子的分布进行了模拟,电场方程使用完全近似格式的代数多重网格方法求解。利用计算设备统一架构技术开发出一套基于图形处理器的3维并行粒子模拟程序。计算结果表明,交... 建立了离子发动机羽流的物理模型,采用粒子网格对羽流中的交换电荷离子的分布进行了模拟,电场方程使用完全近似格式的代数多重网格方法求解。利用计算设备统一架构技术开发出一套基于图形处理器的3维并行粒子模拟程序。计算结果表明,交换电荷离子在径向扩张型电势结构下会向束流区外运动,一部分交换离子在电场力作用下会向发动机上游运动,从而形成返流。发动机上游区域的交换电荷数密度与束流等离子体数密度相比降低了3~4个数量级。通过降低电子温度可有效降低返流电流。 展开更多
关键词 离子发动机 交换电荷离子 返流 粒子网格 图形处理器
在线阅读 下载PDF
异构环境下的多子阵合成孔径声呐精确后向投影快速成像方法 被引量:4
6
作者 钟何平 唐劲松 +2 位作者 马梦博 田振 吴浩然 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2022年第3期405-411,共7页
针对多子阵合成孔径声呐精确后向投影成像算法效率低的问题,提出了一种异构环境下的精确多子阵合成孔径声呐后向投影成像快速方法。在分析精确逐点后向投影成像算法原理的基础上,将脉冲压缩和方位向聚焦过程改造为单指令多线程模式,借... 针对多子阵合成孔径声呐精确后向投影成像算法效率低的问题,提出了一种异构环境下的精确多子阵合成孔径声呐后向投影成像快速方法。在分析精确逐点后向投影成像算法原理的基础上,将脉冲压缩和方位向聚焦过程改造为单指令多线程模式,借助图形处理器(graphics processor unit,GPU)强大的多核计算能力加速成像过程。通过仿真和实测数据的成像实验验证了所提快速成像算法的正确性和高效性,与串行成像算法相比,其加速比分别高达326.3和333.6。对于大规模数据成像处理,所提方法体现出优异的加速性能,满足实时信号处理需求,同时为后续开展运动补偿奠定了基础。 展开更多
关键词 合成孔径声呐 后向投影算法 并行计算 图形处理器 异构环境
原文传递
基于CUDA的拉普拉斯边缘检测算法 被引量:6
7
作者 孟小华 刘坚强 +1 位作者 区业祥 张庆丰 《计算机工程》 CAS CSCD 2012年第18期190-193,共4页
拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并... 拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。 展开更多
关键词 拉普拉斯边缘检测算法 图形处理单元 统一计算设备架构 并行处理 天文图像 宇宙射线
在线阅读 下载PDF
图形处理器剪裁加速器的设计与实现 被引量:3
8
作者 田泽 邓惠子 +2 位作者 张骏 许宏杰 黎小玉 《微电子学与计算机》 CSCD 北大核心 2015年第9期105-108,113,共5页
平面剪裁和视景体剪裁是图形处理器中3D引擎的核心功能,而在进行复杂场景绘制时,剪裁操作容易成为整个3D引擎的瓶颈.对此提出一种优化的剪裁加速器结构,并完成了剪裁加速器单元的设计与实现.在Xilinx Vertex6XC6VLX760FPGA上进行原型验... 平面剪裁和视景体剪裁是图形处理器中3D引擎的核心功能,而在进行复杂场景绘制时,剪裁操作容易成为整个3D引擎的瓶颈.对此提出一种优化的剪裁加速器结构,并完成了剪裁加速器单元的设计与实现.在Xilinx Vertex6XC6VLX760FPGA上进行原型验证,电路工作频率可以达到196 MHz,测试功能正确.在SMIC 65nm CMOS工艺下,电路工作频率达到315 MHz,满足设计需求. 展开更多
关键词 图形处理器 平面剪裁 视景体剪裁
在线阅读 下载PDF
基于图形处理器的通用计算模式 被引量:9
9
作者 王磊 张春燕 《计算机应用研究》 CSCD 北大核心 2009年第6期2356-2358,共3页
针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和... 针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。 展开更多
关键词 图形处理器 通用计算 图形流水线
在线阅读 下载PDF
基于GPU的单源最短路径算法设计与实现 被引量:4
10
作者 郭绍忠 王伟 +1 位作者 周刚 胡艳 《计算机工程》 CAS CSCD 2012年第2期42-44,共3页
针对目前图形处理器(GPU)上的动态数据处理问题,在分析现有并行单源最短路径(SSSP)算法的基础上,对GPU上的Moore SSSP算法进行并行化设计与实现。搜索时,综合应用层次化任务分配、层次化工作队列、层次化Kernel调用等策略。在不同类型... 针对目前图形处理器(GPU)上的动态数据处理问题,在分析现有并行单源最短路径(SSSP)算法的基础上,对GPU上的Moore SSSP算法进行并行化设计与实现。搜索时,综合应用层次化任务分配、层次化工作队列、层次化Kernel调用等策略。在不同类型图数据上进行实验测试,实验结果表明,该算法能有效减少空线程开销、访存开销以及同步时间。 展开更多
关键词 图形处理器 图论 动态数据 单源最短路径 计算统一设备架构
在线阅读 下载PDF
图形处理器(GPU)加速时域有限元的二维辐射计算 被引量:5
11
作者 刘昆 王晓斌 廖成 《电波科学学报》 EI CSCD 北大核心 2008年第1期111-114,共4页
时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的... 时域有限元方法是在电磁场与微波工程领域广泛应用的方法之一。然而,时域有限元在大型机上运行时都是相当缓慢的。对时域有限元计算的硬件加速的研究已经开始进行。与同一代技术的CPU比较,目前一般用户的图形加速卡(GPU)对时域有限元的加速可以达到CPU的近4倍左右。以OpenGL作为应用编程接口(API),使用一个标准的商业图形卡编程解决二维时域有限元的辐射问题。 展开更多
关键词 图形加速卡(GPU) 时域有限元(TD-FEM) 通用计算图形处理单元 (GPGPU)
在线阅读 下载PDF
基于GPGPU的海量山地地形数据的实时绘制算法 被引量:3
12
作者 王春 马纯永 陈戈 《计算机应用》 CSCD 北大核心 2009年第8期2105-2108,共4页
针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地... 针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地形纹理的实现方法加以补充,进而实现可应用于虚拟现实系统的海量地形数据的实时可视化。 展开更多
关键词 基于GPU的通用计算 几何体剪切图 山地地形 海量数据
在线阅读 下载PDF
面向移动设备的各向异性纹理映射方法 被引量:6
13
作者 杨柏林 潘志庚 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2007年第5期569-574,共6页
为了在低性能的移动设备上实现高质量图形效果,设计实现了一种高效的各向异性纹理映射方法.首先提出了基于三角形子纹理单元精度各向异性滤波器(TSPAF),将像素表示为三角形,通过反向投影获得像素在纹理空间的三角形足迹;并在此基础上提... 为了在低性能的移动设备上实现高质量图形效果,设计实现了一种高效的各向异性纹理映射方法.首先提出了基于三角形子纹理单元精度各向异性滤波器(TSPAF),将像素表示为三角形,通过反向投影获得像素在纹理空间的三角形足迹;并在此基础上提出了一种节省带宽的混合滤波方式,利用MIPMap层选择并结合二次线性滤波和TSPAF来实现混合各向异性纹理映射.实验结果表明,该方法能获得良好的图像效果,并具有低计算量和低存储量的优点,适合移动设备GPU的实现. 展开更多
关键词 各向异性纹理映射 移动图形 图形处理器
在线阅读 下载PDF
改进的三维剪裁算法及其硬件设计 被引量:2
14
作者 邓惠子 韩俊刚 +2 位作者 马超 杨婷 查理 《电子科技》 2013年第7期1-3,6,共4页
针对图形处理器中经典的三维裁剪算法中的冗余操作以及双线性插值的一次多余计算,提出一种改进的裁剪算法,即利用多边形的几何关系使用多边形的顶点坐标和其内部一点的坐标,计算坐标之间的比例系数,进而用系数进行属性插值。仿真结果表... 针对图形处理器中经典的三维裁剪算法中的冗余操作以及双线性插值的一次多余计算,提出一种改进的裁剪算法,即利用多边形的几何关系使用多边形的顶点坐标和其内部一点的坐标,计算坐标之间的比例系数,进而用系数进行属性插值。仿真结果表明,改进的裁剪算法可以实现减少计算量,并提高硬件电路的效率。 展开更多
关键词 图形处理器 三维剪裁 双线性插值
在线阅读 下载PDF
Matlab的图形处理器并行计算及其在拓扑优化中的应用 被引量:3
15
作者 蔡勇 李胜 《计算机应用》 CSCD 北大核心 2016年第3期628-632,652,共6页
针对传统并行计算方法实现结构拓扑优化快速计算的硬件成本高、程序开发效率低的问题,提出了一种基于Matlab和图形处理器(GPU)的双向渐进结构优化(BESO)方法的全流程并行计算策略。首先,探讨了Matlab编程环境中实现GPU并行计算的三种途... 针对传统并行计算方法实现结构拓扑优化快速计算的硬件成本高、程序开发效率低的问题,提出了一种基于Matlab和图形处理器(GPU)的双向渐进结构优化(BESO)方法的全流程并行计算策略。首先,探讨了Matlab编程环境中实现GPU并行计算的三种途径的优缺点和适用范围;其次,分别采用内置函数直接并行的方式实现了拓扑优化算法中向量和稠密矩阵的并行化计算,采用MEX函数调用CUSOLVER库的形式实现了稀疏格式有限元方程组的快速求解,采用并行线程执行(PTX)代码的方式实现了拓扑优化中单元敏度分析等优化决策的并行化计算。数值算例表明,基于Matlab直接开发GPU并行计算程序不仅编程效率高,而且还可以避免不同编程语言间的计算精度差异,最终使GPU并行程序可以在保持计算结果不变的前提下取得可观的加速比。 展开更多
关键词 并行计算 图形处理器 拓扑优化 MATLAB 有限元分析
在线阅读 下载PDF
图形处理器并行计算用于离子发动机粒子模拟 被引量:1
16
作者 仇钎 刘宇 +4 位作者 任军学 汤海滨 钟凌伟 温正 李娟 《强激光与粒子束》 EI CAS CSCD 北大核心 2011年第2期507-511,共5页
为了研究离子发动机羽流对航天器的影响,采用质点网格-蒙特卡罗碰撞方法对离子发动机羽流中的交换电荷离子进行了模拟。利用计算设备统一架构技术,开发出一套基于图形处理器的并行粒子模拟程序。随机数生成采用并行MT19937伪随机数生成... 为了研究离子发动机羽流对航天器的影响,采用质点网格-蒙特卡罗碰撞方法对离子发动机羽流中的交换电荷离子进行了模拟。利用计算设备统一架构技术,开发出一套基于图形处理器的并行粒子模拟程序。随机数生成采用并行MT19937伪随机数生成器算法,电场方程使用完全近似存储格式的代数多重网格法求解。r-z轴对称坐标系中,在z=0 m处获得的电流密度均值为4.5×10^-5A/m^2,图形处理器所得结果与中央处理器模拟结果吻合。在16核心的NVIDIA GeForce 9400 GT图形显示卡上,取得相对于Intel Core 2 E6300中央处理器4.5-10.0倍的加速比。 展开更多
关键词 离子发动机 粒子模拟 多重网格 图形处理器 并行计算
在线阅读 下载PDF
CPU-GPU协同加速Kriging插值的负载均衡方法 被引量:2
17
作者 姜春雷 张树清 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第5期35-39,148,共6页
Kriging插值算法被广泛应用于地学各领域,有着极其重要的现实意义,但在面对大规模输出网格及大量输入采样点时,不可避免地遇到了性能瓶颈。利用Open CL和Open MP在异构平台上实现了CPU与GPU协同加速普通Kriging插值。针对Kriging插值中... Kriging插值算法被广泛应用于地学各领域,有着极其重要的现实意义,但在面对大规模输出网格及大量输入采样点时,不可避免地遇到了性能瓶颈。利用Open CL和Open MP在异构平台上实现了CPU与GPU协同加速普通Kriging插值。针对Kriging插值中采样点的不规则分布及CPU和GPU由于体系结构差异对其的不同适应性,提出一种基于不同设备间计算性能的差异和数据分布特点的负载均衡方法。试验结果表明,该方法能有效提高普通Kriging插值速度,同时还能节约存储空间和提高访存效率。 展开更多
关键词 通用计算图形处理器 开放运算语言 KRIGING插值 负载均衡
在线阅读 下载PDF
基于CUDA的快速大整数乘法 被引量:3
18
作者 许亮 王震 《计算机工程与应用》 CSCD 2013年第16期221-224,共4页
针对快速傅里叶变换下的快速大整数乘法,给出了一种基于CUDA架构的GPU并行化加速的实现方法。通过分析整数快速乘法中的每一步骤,分别给出各步骤的并行化实现方法,并采用数据压缩等策略,对算法进行优化。实验表明该方法有效地提高了算... 针对快速傅里叶变换下的快速大整数乘法,给出了一种基于CUDA架构的GPU并行化加速的实现方法。通过分析整数快速乘法中的每一步骤,分别给出各步骤的并行化实现方法,并采用数据压缩等策略,对算法进行优化。实验表明该方法有效地提高了算法效率,随着数据规模的增长,可获得18倍以上的加速比。 展开更多
关键词 图形处理单元 统一计算设备架构 大整数乘法 快速傅里叶变换
在线阅读 下载PDF
简化的后处理快速景深效果 被引量:2
19
作者 余伟 张扬 《计算机应用与软件》 CSCD 2009年第10期215-217,230,共4页
基于几何光学中透镜成像模型,在保持景深真实特点的同时,采用后处理实现景深效果,提出一种易于在图形处理器上实现的简化算法,以进一步提高景深效果计算速度。相对于已有的后处理景深在图形处理器上的实现,该方法使用帧缓存对象(FBO)通... 基于几何光学中透镜成像模型,在保持景深真实特点的同时,采用后处理实现景深效果,提出一种易于在图形处理器上实现的简化算法,以进一步提高景深效果计算速度。相对于已有的后处理景深在图形处理器上的实现,该方法使用帧缓存对象(FBO)通过一遍模型绘制和一遍后处理实现景深效果。该算法可以在不改动固定图形管线渲染代码的情况下对给定场景实现快速的景深效果。实验表明,在通用的硬件条件下该后处理耗时0.3毫秒左右。 展开更多
关键词 景深 后处理 实时绘制 虚拟现实 图形处理器
在线阅读 下载PDF
二维传热数值计算程序在图形卡上的实现 被引量:1
20
作者 杨昆仑 宋耀祖 任建勋 《工程热物理学报》 EI CAS CSCD 北大核心 2008年第1期151-153,共3页
本文针对通用图形处理器(GPGPU)的特点,对二维传热数值求解算法及三类不同边界条件问题在GPU上的求解进行了分析。图形处理器是一种专用并行处理器,主要用于三维场景渲染加速,其结构和程序设计方式与CPU完全不同,但却比CPU具有更强的浮... 本文针对通用图形处理器(GPGPU)的特点,对二维传热数值求解算法及三类不同边界条件问题在GPU上的求解进行了分析。图形处理器是一种专用并行处理器,主要用于三维场景渲染加速,其结构和程序设计方式与CPU完全不同,但却比CPU具有更强的浮点运算能力和内存带宽。随着图形处理器可编程特性的发展,它已越来越超出原有的应用范围,向通用计算领域发展,成为一个新的研究领域。采用Jacobi迭代,能够在GPU上实现二维导热方程的求解。本文在已有研究的基础上,实现了二维导热计算的混合边界条件问题在GPU上的求解方法,通过计算时间的比较显示GPU在计算传热学中有良好应用前景。 展开更多
关键词 导热 数值计算 图形处理器 GPGPU
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部