期刊文献+
共找到126篇文章
< 1 2 7 >
每页显示 20 50 100
Speeding up the MATLAB complex networks package using graphic processors 被引量:1
1
作者 张百达 唐玉华 +1 位作者 吴俊杰 李鑫 《Chinese Physics B》 SCIE EI CAS CSCD 2011年第9期460-467,共8页
The availability of computers and communication networks allows us to gather and analyse data on a far larger scale than previously. At present, it is believed that statistics is a suitable method to analyse networks ... The availability of computers and communication networks allows us to gather and analyse data on a far larger scale than previously. At present, it is believed that statistics is a suitable method to analyse networks with millions, or more, of vertices. The MATLAB language, with its mass of statistical functions, is a good choice to rapidly realize an algorithm prototype of complex networks. The performance of the MATLAB codes can be further improved by using graphic processor units (GPU). This paper presents the strategies and performance of the GPU implementation of a complex networks package, and the Jacket toolbox of MATLAB is used. Compared with some commercially available CPU implementations, GPU can achieve a speedup of, on average, 11.3x. The experimental result proves that the GPU platform combined with the MATLAB language is a good combination for complex network research. 展开更多
关键词 complex networks graphic processors unit MATLAB Jacket Toolbox
原文传递
Three Dimensional Simulation of Ion Thruster Plume-Spacecraft Interaction Based on a Graphic Processor Unit 被引量:1
2
作者 任军学 李娟 +3 位作者 谢侃 田华兵 仇钎 汤海滨 《Plasma Science and Technology》 SCIE EI CAS CSCD 2013年第7期702-709,共8页
Based on the three-dimensional particle-in-cell (PIC) method and Compute Unified Device Architecture (CUDA), a parallel particle simulation code combined with a graphic processor unit (GPU) has been developed fo... Based on the three-dimensional particle-in-cell (PIC) method and Compute Unified Device Architecture (CUDA), a parallel particle simulation code combined with a graphic processor unit (GPU) has been developed for the simulation of charge-exchange (CEX) xenon ions in the plume of an ion thruster. Using the proposed technique, the potential and CEX plasma distribution are calculated for the ion thruster plume surrounding the DS1 spacecraft at different thrust levels. The simulation results are in good agreement with measured CEX ion parameters reported in literature, and the CPU's results are equal to a CPU's. Compared with a single CPU Intel Core 2 E6300, 16-processor GPU NVIDIA GeForce 9400 GT indicates a speedup factor of 3.6 when the total macro particle number is 1.1 × 10^6. The simulation results also reveal how the back flow CEX plasma affects the spacecraft floating potential, which indicates that the plume of the ion thruster is indeed able to alleviate the extreme negative floating potentials of spacecraft in geosynchronous orbit. 展开更多
关键词 ion thruster particle simulation graphic processor uait PLUME
在线阅读 下载PDF
BFM:A Bus-Like Data Feedback Mechanism Between Graphics Processor and Host CPU
3
作者 DENG Junyong JIANG Lin 《Journal of Shanghai Jiaotong university(Science)》 EI 2020年第5期615-622,共8页
Graphics processors have received an increasing attention with the growing demand for gaming,video streaming,and many other applications.During the graphics rendering with OpenGL,host CPU needs the runtime attributes ... Graphics processors have received an increasing attention with the growing demand for gaming,video streaming,and many other applications.During the graphics rendering with OpenGL,host CPU needs the runtime attributes to move on to the next procedure of rendering,which covers almost all the function units of graphics pipeline.Current methods suffer from the memory capacity issues to hold the variables or huge amount of data parsing paths which can cause congestion on the interface between graphics processor and host CPU.This paper refers to the operation principle of commuting bus,and proposes a bus-like data feedback mechanism(BFM)to traverse all the pipeline stages and collect the run-time status data or execution error of graphics rendering,then send them back to the host CPU.BFM can work in parallel with the graphics rendering logic.This method can complete the data feedback ta.sk easily with only 0.6%increase of resource utilization and has no negative impact on performance,which also obtains 1.3 times speed enhancement compared with a traditional approach. 展开更多
关键词 data feedback mechanism run-time attributes OjienGL graphics processor host CPU
原文传递
基于NVIDIA GPU的高轨SAR快速BP算法子孔径成像CUDA设计与实现
4
作者 雷苏力 苏翔 +3 位作者 杨娟娟 高阳 向天舜 党红杏 《空间电子技术》 2025年第3期54-59,共6页
后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFB... 后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFBP算法的巨大的运算量仍然在工程中难以满足时效性需求,文章使用图形处理器(GPU)作为CPU的协处理器,提出基于FFBP算法的子孔径(CUDA)实现方案,使用流实现回波数据分块传输延迟隐藏的同时避免了高频次切换进程,另外设计超细颗粒度线程,实现子孔径FFBP算法成像的GPU大规模并发。经验证,使用该CUDA解决方案完成高轨SAR卫星FFBP子孔径成像时,设备的执行效率大于90%,相较于CPU 32线程并发程序具有120倍加速比。 展开更多
关键词 高轨SAR 快速后向投影(FFBP)成像算法 图形处理器(GPU)
在线阅读 下载PDF
嵌入式GPU纹理解压缩电路的设计与实现
5
作者 杜慧敏 袁鼎 +2 位作者 王睿辰 赵毅飞 沈泽京 《电子设计工程》 2025年第24期47-52,共6页
针对采用软件实现纹理解压缩速度较慢这一问题,根据ETC2纹理压缩算法的原理,在嵌入式图形处理器单元(Graphics Processing Unit,GPU)中设计并实现了纹理贴图解压缩的硬件电路。该电路能够实现ETC2纹理解压缩的四种模式,并根据选择信号... 针对采用软件实现纹理解压缩速度较慢这一问题,根据ETC2纹理压缩算法的原理,在嵌入式图形处理器单元(Graphics Processing Unit,GPU)中设计并实现了纹理贴图解压缩的硬件电路。该电路能够实现ETC2纹理解压缩的四种模式,并根据选择信号输出对应模式的解压缩数据。基于台联电28 nm工艺库,使用DC(Design Compiler)工具完成了纹理解压缩电路的综合,并在VCU118开发板上进行了嵌入式图形处理器的系统级验证,相较于软件纹理解压缩速度提升了三个数量级。结果表明,集成了纹理解压缩电路的嵌入式GPU能够稳定运行,纹理贴图的结果清晰、准确,设计的纹理解压缩电路能够快速且准确地完成纹理数据的解压缩功能。 展开更多
关键词 嵌入式图形处理器 ETC2纹理压缩 纹理解压缩 纹理贴图 图像渲染
在线阅读 下载PDF
基于并行化计算架构的大数据传播推荐算法研究
6
作者 陈玉婷 《自动化与仪器仪表》 2025年第4期207-212,共6页
针对智能推荐算法在高稀疏性数据集中处理效率较差的问题,提出了一种基于并行化计算架构的大数据传播推荐算法。通过利用随机梯度下降法改进并行化计算,再以图形处理器为基础上进行了推荐算法的设计。实验显示,研究提出的算法在3种数据... 针对智能推荐算法在高稀疏性数据集中处理效率较差的问题,提出了一种基于并行化计算架构的大数据传播推荐算法。通过利用随机梯度下降法改进并行化计算,再以图形处理器为基础上进行了推荐算法的设计。实验显示,研究提出的算法在3种数据集中的均方根误差比其他方法明显减少。以某文旅媒体账号数据为例的验证显示,研究提出的推荐算法的均方根误差为1.21,比其他两种方法平均减少了8.33%。结果表明,研究提出的方法能够适应高稀疏性的数据集训练,提高算法推荐精度,提升数据利用效率。该方法在抖音短视频智能推荐领域具有应用意义和可行性。 展开更多
关键词 并行化计算 智能推荐算法 图形处理器 随机梯度下降法 抖音短视频
原文传递
基于GPU的嵌套网格装配方法
7
作者 杨克龙 《科技创新与应用》 2025年第1期177-179,184,共4页
采用嵌套网格可以有效地处理大幅运动问题,但随着网格规模的增大和流动问题复杂度的提高,传统的基于CPU的嵌套网格装配方法越来越难以满足当前的计算需求。针对上述问题,该文基于CUDA平台,发展一种基于GPU的k-d树嵌套网格装配方法,并对... 采用嵌套网格可以有效地处理大幅运动问题,但随着网格规模的增大和流动问题复杂度的提高,传统的基于CPU的嵌套网格装配方法越来越难以满足当前的计算需求。针对上述问题,该文基于CUDA平台,发展一种基于GPU的k-d树嵌套网格装配方法,并对k-d树构建过程和搜索过程进行优化,大大提升贡献单元搜索效率和物面距计算效率,进而加快嵌套网格装配速度。 展开更多
关键词 图形处理器 嵌套网格 K-D树 装配方法 流场计算域
在线阅读 下载PDF
基于GPU的并行优化技术 被引量:23
8
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
在线阅读 下载PDF
基于CUDA的高速FFT计算 被引量:23
9
作者 赵丽丽 张盛兵 +1 位作者 张萌 姚涛 《计算机应用研究》 CSCD 北大核心 2011年第4期1556-1559,共4页
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明... 针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明了该算法的高效性,且优化后的FFT加速比能达到CUFFT库加速比的2~6倍。 展开更多
关键词 图形处理器 统一计算架构 映射策略 存储层次
在线阅读 下载PDF
面向移动设备的3D图形处理器设计 被引量:8
10
作者 杨毅 郭立 +1 位作者 史鸿声 郭安泰 《小型微型计算机系统》 CSCD 北大核心 2009年第8期1668-1674,共7页
提出一种面向移动设备的3D图形处理器的设计方法,从图形算法和硬件架构两个层次进行优化.对图形算法进行C语言的仿真模拟,并设计高效的具有并行和流水线结构的图形处理器架构.该架构采用定点的数据通道,拥有一个可编程的顶点处理器和基... 提出一种面向移动设备的3D图形处理器的设计方法,从图形算法和硬件架构两个层次进行优化.对图形算法进行C语言的仿真模拟,并设计高效的具有并行和流水线结构的图形处理器架构.该架构采用定点的数据通道,拥有一个可编程的顶点处理器和基于像素块的光栅扫描转换模块,降低电路复杂度的同时提高了整体性能.该设计已经在FPGA上验证,并给出了实验结果.实验结果显示该图形处理器结构可以满足移动设备的图形应用要求,具有可行性. 展开更多
关键词 图形处理器 可编程顶点处理器 光栅阶段 FPGA验证
在线阅读 下载PDF
基于图形处理器的数据流快速聚类 被引量:24
11
作者 曹锋 周傲英 《软件学报》 EI CSCD 北大核心 2007年第2期291-302,共12页
在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化... 在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化分析方法.这些方法的共同特点是充分利用了GPU强大的处理能力和流水线特性.与以往具有独立框架的数据流聚类算法不同,这些基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一的平台.从分析可知,数据流聚类分析的核心操作实际上就是距离计算和比较.基于这一认识,利用GPU的子素向量处理功能进行距离计算.性能验证实验是在配有Pentium IV3.4G CPU和NVIDIA GeForce 6800 GT显卡的PC上进行的.综合分析和实验结果表明,基于GPU的数据流聚类算法比传统的CPU算法平均快7倍,从而为高速数据流应用提供了良好的支持. 展开更多
关键词 数据流 聚类 图形处理器 进化 窗口
在线阅读 下载PDF
离子发动机交换电荷离子返流的粒子模拟 被引量:4
12
作者 任军学 李娟 +2 位作者 仇钎 汤海滨 温正 《强激光与粒子束》 EI CAS CSCD 北大核心 2011年第7期1929-1934,共6页
建立了离子发动机羽流的物理模型,采用粒子网格对羽流中的交换电荷离子的分布进行了模拟,电场方程使用完全近似格式的代数多重网格方法求解。利用计算设备统一架构技术开发出一套基于图形处理器的3维并行粒子模拟程序。计算结果表明,交... 建立了离子发动机羽流的物理模型,采用粒子网格对羽流中的交换电荷离子的分布进行了模拟,电场方程使用完全近似格式的代数多重网格方法求解。利用计算设备统一架构技术开发出一套基于图形处理器的3维并行粒子模拟程序。计算结果表明,交换电荷离子在径向扩张型电势结构下会向束流区外运动,一部分交换离子在电场力作用下会向发动机上游运动,从而形成返流。发动机上游区域的交换电荷数密度与束流等离子体数密度相比降低了3~4个数量级。通过降低电子温度可有效降低返流电流。 展开更多
关键词 离子发动机 交换电荷离子 返流 粒子网格 图形处理器
在线阅读 下载PDF
异构环境下的多子阵合成孔径声呐精确后向投影快速成像方法 被引量:4
13
作者 钟何平 唐劲松 +2 位作者 马梦博 田振 吴浩然 《武汉大学学报(信息科学版)》 EI CAS CSCD 北大核心 2022年第3期405-411,共7页
针对多子阵合成孔径声呐精确后向投影成像算法效率低的问题,提出了一种异构环境下的精确多子阵合成孔径声呐后向投影成像快速方法。在分析精确逐点后向投影成像算法原理的基础上,将脉冲压缩和方位向聚焦过程改造为单指令多线程模式,借... 针对多子阵合成孔径声呐精确后向投影成像算法效率低的问题,提出了一种异构环境下的精确多子阵合成孔径声呐后向投影成像快速方法。在分析精确逐点后向投影成像算法原理的基础上,将脉冲压缩和方位向聚焦过程改造为单指令多线程模式,借助图形处理器(graphics processor unit,GPU)强大的多核计算能力加速成像过程。通过仿真和实测数据的成像实验验证了所提快速成像算法的正确性和高效性,与串行成像算法相比,其加速比分别高达326.3和333.6。对于大规模数据成像处理,所提方法体现出优异的加速性能,满足实时信号处理需求,同时为后续开展运动补偿奠定了基础。 展开更多
关键词 合成孔径声呐 后向投影算法 并行计算 图形处理器 异构环境
原文传递
基于CUDA的拉普拉斯边缘检测算法 被引量:6
14
作者 孟小华 刘坚强 +1 位作者 区业祥 张庆丰 《计算机工程》 CAS CSCD 2012年第18期190-193,共4页
拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并... 拉普拉斯边缘检测算法常用于去除CCD天文图像中的宇宙射线噪声,但其串行算法计算复杂度较高。为此,分析拉普拉斯边缘检测算法的并行性,在统一计算设备架构(CUDA)并行编程环境下,提出一种基于CUDA的拉普拉斯边缘检测图形处理单元(GPU)并行算法。分割天文图像得到多幅子图,根据GPU的硬件配置设定Block和Grid的大小,将子图依次传输到显卡进行并行计算,传回主存后拼接得到完整的图像输出。实验结果表明,图像尺寸越大,该并行算法与串行算法相比具有的速度优势越大,可获得10倍以上的加速比。 展开更多
关键词 拉普拉斯边缘检测算法 图形处理单元 统一计算设备架构 并行处理 天文图像 宇宙射线
在线阅读 下载PDF
基于GPU的液晶大气湍流模拟器波面生成的并行实现 被引量:3
15
作者 倪小龙 刘智 +1 位作者 孔悦 刘丹 《强激光与粒子束》 EI CAS CSCD 北大核心 2014年第3期61-65,共5页
为了使液晶大气湍流模拟器具有实时大气模拟能力,在GPU通用计算架构下提出了基于GPU的液晶大气湍流模拟器实时波面生成计算方法。针对液晶湍流模拟器高分辨率、高精度的特点介绍了湍流波面生成计算方法,论述了CUDA通用计算架构。建立基... 为了使液晶大气湍流模拟器具有实时大气模拟能力,在GPU通用计算架构下提出了基于GPU的液晶大气湍流模拟器实时波面生成计算方法。针对液晶湍流模拟器高分辨率、高精度的特点介绍了湍流波面生成计算方法,论述了CUDA通用计算架构。建立基于GPU的波面生成模型,并对该模型进行了并行化优化和共享存储器优化。给出了采用CPU与GPU进行波面生成的实验对比结果。结果表明:采用GPU生成分辨率为256×256,192项Zernike多项式进行波面生成的平均时间为2.5ms,生成速度比CPU少两个量级,满足实时波面生成的要求。 展开更多
关键词 大气湍流 图形处理器 液晶 并行计算
在线阅读 下载PDF
异构多核图形处理器存储系统设计与实现 被引量:5
16
作者 肖灵芝 蒲林 +1 位作者 韩俊刚 李涛 《电子技术应用》 北大核心 2013年第5期38-40,43,共4页
提出了异构多核图形处理器(HMGPU)存储管理系统的硬件实现方法,采用固定分区与分页式分区两种方式分别对大片连续数据与小片非连续数据进行管理,使用Verilog语言进行硬件设计和仿真,并在FPGA开发板上进行了验证。实验结果表明,该系统为H... 提出了异构多核图形处理器(HMGPU)存储管理系统的硬件实现方法,采用固定分区与分页式分区两种方式分别对大片连续数据与小片非连续数据进行管理,使用Verilog语言进行硬件设计和仿真,并在FPGA开发板上进行了验证。实验结果表明,该系统为HMGPU提供了2 021.2 MB/s的有效存储带宽。 展开更多
关键词 异构多核图形处理器 实时并行 硬件实现方法 存储管理系统
在线阅读 下载PDF
图形处理器剪裁加速器的设计与实现 被引量:3
17
作者 田泽 邓惠子 +2 位作者 张骏 许宏杰 黎小玉 《微电子学与计算机》 CSCD 北大核心 2015年第9期105-108,113,共5页
平面剪裁和视景体剪裁是图形处理器中3D引擎的核心功能,而在进行复杂场景绘制时,剪裁操作容易成为整个3D引擎的瓶颈.对此提出一种优化的剪裁加速器结构,并完成了剪裁加速器单元的设计与实现.在Xilinx Vertex6XC6VLX760FPGA上进行原型验... 平面剪裁和视景体剪裁是图形处理器中3D引擎的核心功能,而在进行复杂场景绘制时,剪裁操作容易成为整个3D引擎的瓶颈.对此提出一种优化的剪裁加速器结构,并完成了剪裁加速器单元的设计与实现.在Xilinx Vertex6XC6VLX760FPGA上进行原型验证,电路工作频率可以达到196 MHz,测试功能正确.在SMIC 65nm CMOS工艺下,电路工作频率达到315 MHz,满足设计需求. 展开更多
关键词 图形处理器 平面剪裁 视景体剪裁
在线阅读 下载PDF
基于图形处理器的通用计算模式 被引量:9
18
作者 王磊 张春燕 《计算机应用研究》 CSCD 北大核心 2009年第6期2356-2358,共3页
针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和... 针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。 展开更多
关键词 图形处理器 通用计算 图形流水线
在线阅读 下载PDF
电子飞行仪表的显示系统 被引量:8
19
作者 杜海涛 经亚枝 张焕春 《南京航空航天大学学报》 EI CAS CSCD 北大核心 1998年第2期229-234,共6页
电子飞行仪表系统的显示系统,要求速度快,图形质量高,并有特殊性。本文分别从硬件和软件两方面,介绍选用AMLCD和图形处理器TMS34010构成并采用了一些特殊算法的座舱图形显示系统。这种系统具有图形处理简单、图形更新... 电子飞行仪表系统的显示系统,要求速度快,图形质量高,并有特殊性。本文分别从硬件和软件两方面,介绍选用AMLCD和图形处理器TMS34010构成并采用了一些特殊算法的座舱图形显示系统。这种系统具有图形处理简单、图形更新快、分辨率高。 展开更多
关键词 图形显示系统 飞行仪表 电子式 显示器
在线阅读 下载PDF
基于GPU的单源最短路径算法设计与实现 被引量:4
20
作者 郭绍忠 王伟 +1 位作者 周刚 胡艳 《计算机工程》 CAS CSCD 2012年第2期42-44,共3页
针对目前图形处理器(GPU)上的动态数据处理问题,在分析现有并行单源最短路径(SSSP)算法的基础上,对GPU上的Moore SSSP算法进行并行化设计与实现。搜索时,综合应用层次化任务分配、层次化工作队列、层次化Kernel调用等策略。在不同类型... 针对目前图形处理器(GPU)上的动态数据处理问题,在分析现有并行单源最短路径(SSSP)算法的基础上,对GPU上的Moore SSSP算法进行并行化设计与实现。搜索时,综合应用层次化任务分配、层次化工作队列、层次化Kernel调用等策略。在不同类型图数据上进行实验测试,实验结果表明,该算法能有效减少空线程开销、访存开销以及同步时间。 展开更多
关键词 图形处理器 图论 动态数据 单源最短路径 计算统一设备架构
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部