期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:2
1
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 cuda加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
基于SMP集群的MPI+CUDA模型的研究与实现 被引量:10
2
作者 许彦芹 陈庆奎 《计算机工程与设计》 CSCD 北大核心 2010年第15期3408-3412,共5页
为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩... 为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式。利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力。实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略。 展开更多
关键词 消息传递接口 统一计算设备架构 集群 混合编程 支持cuda的GPU
在线阅读 下载PDF
基于CUDA的离散粒子系统模拟仿真及其实现 被引量:3
3
作者 江顺亮 黄强强 +1 位作者 董添文 徐少平 《南昌大学学报(工科版)》 CAS 2011年第3期290-294,共5页
使用CUDA(compute unified device architecture,统一计算架构),利用GPU(graphic processing unit,图像处理器)强大的并行能力实现DEM(discrete element method,离散单元法)的离散粒子系统模拟仿真。邻域搜索时使用基于哈希表排序的邻... 使用CUDA(compute unified device architecture,统一计算架构),利用GPU(graphic processing unit,图像处理器)强大的并行能力实现DEM(discrete element method,离散单元法)的离散粒子系统模拟仿真。邻域搜索时使用基于哈希表排序的邻域搜索算法,依据CUDA内存模型的特点对系统做出有效的内存规划,并使用CUDA流技术通过将粒子碰撞和数据输出分割成4个流异步执行,来隐藏数据拷贝的部分延迟。通过使用CUDA的事件作为GPU计时器监测,实验证明本文中的并行搜索算法的执行效率很高,而使用合理的内存策略和流技术也可以有效的提高系统的性能。 展开更多
关键词 GPU 并行程序设计 cuda 粒子系统
在线阅读 下载PDF
CUDA并行技术与数字图像几何变换 被引量:10
4
作者 覃方涛 房斌 《计算机系统应用》 2010年第10期168-172,116,共6页
CUDA是GPU通过并发执行多个线程以实现大规模快速并行计算能力的技术,它能使对GPU编程变得更容易。介绍了CUDA基本特性及主要编程模型,在此基础上,提出并实现了基于NVIDIA CUDA技术的图像快速几何变换。采用位置偏移增量代替原变换算法... CUDA是GPU通过并发执行多个线程以实现大规模快速并行计算能力的技术,它能使对GPU编程变得更容易。介绍了CUDA基本特性及主要编程模型,在此基础上,提出并实现了基于NVIDIA CUDA技术的图像快速几何变换。采用位置偏移增量代替原变换算法中大量乘法运算,并把CUDA技术的快速并行计算能力应用到数字图像几何变换中,解决了基于CPU的传统图像几何变换运算效率低下的问题。实验结果证明使用CUDA技术,随着处理图像尺寸的增加,对数字图像几何变换处理效率最高能够提高到近100倍。 展开更多
关键词 cuda 并行化 数字图像 GPU编程 位置偏移增量
在线阅读 下载PDF
基于指导语句的CUDA程序性能分析工具研究与实现 被引量:1
5
作者 李建江 路川 张磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第2期280-284,共5页
近年来,GPU的快速发展与NVIDIA公司推出的CUDA技术,推动着GPU在高性能计算领域中的应用。研究并实现CUDA程序性能分析工具,对充分利用GPU的计算优势和提高CUDA架构下并行程序的执行性能具有重要的意义。该文分析了GPU硬件平台的特点和C... 近年来,GPU的快速发展与NVIDIA公司推出的CUDA技术,推动着GPU在高性能计算领域中的应用。研究并实现CUDA程序性能分析工具,对充分利用GPU的计算优势和提高CUDA架构下并行程序的执行性能具有重要的意义。该文分析了GPU硬件平台的特点和CUDA并行编程模型,结合CPU集群环境下并行程序的性能分析,设计并实现了一种基于指导语句的CUDA程序性能分析工具,并实验验证了其在不同GPU硬件平台上的有效性。 展开更多
关键词 cuda 指导语句 高性能计算 性能分析 程序优化
在线阅读 下载PDF
面向异构众核的CUDA程序二进制翻译
6
作者 李男 庞建民 单征 《计算机工程与应用》 CSCD 北大核心 2016年第7期17-23,共7页
通过二进制翻译手段将CUDA程序移植到其他异构众核处理器平台特别是国产处理器平台,对扩展CUDA程序应用范围,发挥目标平台的众核优势以及支持民族产业都具有现实意义。设计了CUDA程序的二进制翻译框架,从CUDA程序可执行代码入手,采用&qu... 通过二进制翻译手段将CUDA程序移植到其他异构众核处理器平台特别是国产处理器平台,对扩展CUDA程序应用范围,发挥目标平台的众核优势以及支持民族产业都具有现实意义。设计了CUDA程序的二进制翻译框架,从CUDA程序可执行代码入手,采用"分而治之"的手段,将主机端代码和设备端代码分别翻译。重点介绍了移植过程中几个关键问题的解决,包括设备端代码的提取,计算模型的映射,存储模型的映射,栅栏同步和指令翻译问题。通过实验验证了系统功能的正确性。 展开更多
关键词 cuda程序 二进制翻译 计算模型映射 存储模型映射 栅栏同步 指令翻译
在线阅读 下载PDF
LP-SVM在CUDA架构上的加速实现 被引量:1
7
作者 兰远东 《数字技术与应用》 2014年第4期130-132,134,共4页
为了能在PC机上处理大规模数据集问题,提出了使用CUDA架构对LP-SVM的加速实现方法。该方法针对PC机内存小的缺点,对SVM的分解算法进行改编,得到求解LP-SVM的分解算法。LP-SVM分解算法每次只需要求解一个小规模的线性规划问题,避免一次... 为了能在PC机上处理大规模数据集问题,提出了使用CUDA架构对LP-SVM的加速实现方法。该方法针对PC机内存小的缺点,对SVM的分解算法进行改编,得到求解LP-SVM的分解算法。LP-SVM分解算法每次只需要求解一个小规模的线性规划问题,避免一次性把所有训练数据都装进内存。同时把求解线性规划中比较耗时的矩阵运算,移植到CUDA上进行,提高了求解效率。实验结果表明:LP-SVM算法在经过CUDA加速以后,算法的执行效率提高了10-35倍。 展开更多
关键词 机器学习 线性规划 支持向量机 图形处理器 统一计算设备架构
在线阅读 下载PDF
基于CUDA和卡尔曼预测的实时电子稳像方法 被引量:4
8
作者 朱振伍 何凯 王新磊 《吉林大学学报(信息科学版)》 CAS 2015年第1期45-51,共7页
针对传统电子稳像方法无法实现视频的实时处理的问题,提出以SURF(Speed-Up Robust Features)配准算法为基础,基于CUDA(Compute Unified Device Architecture)编程实现算法的加速,并利用卡尔曼预测器进行实时预测。算法利用CUDA并行编程... 针对传统电子稳像方法无法实现视频的实时处理的问题,提出以SURF(Speed-Up Robust Features)配准算法为基础,基于CUDA(Compute Unified Device Architecture)编程实现算法的加速,并利用卡尔曼预测器进行实时预测。算法利用CUDA并行编程实现帧间特征点的提取和配准,获得帧间运动矢量;利用卡尔曼预测器获得稳定后的运动矢量,实现对当前帧的运动矢量的补偿,以达到实时稳像的目的。仿真实验结果表明,该方法可有效去除视频帧间的抖动,稳像效果良好,实现了视频的实时处理。 展开更多
关键词 电子稳像 cuda编程 SURF图像配准 卡尔曼预测
在线阅读 下载PDF
基于MPI+CUDA异步模型的并行矩阵乘法 被引量:2
9
作者 刘青昆 马名威 阎慰椿 《计算机应用》 CSCD 北大核心 2011年第12期3327-3330,共4页
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型... 矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。 展开更多
关键词 矩阵乘法 并行计算 混合编程 消息传递接口 统一计算设备架构
在线阅读 下载PDF
基于CUDA的红外图像快速增强算法研究 被引量:2
10
作者 张绍良 闫钧华 +1 位作者 刘成 朱智超 《电子设计工程》 2012年第17期153-157,共5页
针对红外图像边缘模糊,对比度低的问题,文中研究了改进的中值滤波和改进的Sobel边缘检测对红外图像进行处理。在对处理后图像的特征进行分析的基础上,研究了改进的Laplace金字塔分解的图像融合算法,并基于CUDA并行处理技术,在可编程GPU... 针对红外图像边缘模糊,对比度低的问题,文中研究了改进的中值滤波和改进的Sobel边缘检测对红外图像进行处理。在对处理后图像的特征进行分析的基础上,研究了改进的Laplace金字塔分解的图像融合算法,并基于CUDA并行处理技术,在可编程GPU上实现了红外图像快速增强的目的。该算法结合GPU的内存特点,应用纹理映射、多点访问、并行触发技术,优化数据的存储结构,提高数据处理速度,适用于对红外图像增强的实时性要求较高的领域。实验结果表明,该算法有较好的并行特性,能充分利用CUDA的并行计算能力,提高了红外图像增强的实时性,处理分辨率为3 096×3 096的红外图像时加速比达32.189。 展开更多
关键词 红外图像增强 中值滤波 SOBEL边缘检测 Laplace金字塔 cuda 可编程GPU
在线阅读 下载PDF
C语言教学实验中的CUDA技术
11
作者 刘忆宁 张永昌 罗家华 《电脑编程技巧与维护》 2010年第10期134-137,共4页
C语言在本科信息技术教学中具有重要的地位,随着GPU性能的增强,以C语言为核心的CUDA具有广阔的应用前景。在C语言实验中引入CUDA开发平台的训练,具有重要的意义。
关键词 C程序 图形处理器 cuda架构
在线阅读 下载PDF
基于嵌入式平台双目测量的CUDA优化 被引量:2
12
作者 尚裕之 韩军 +1 位作者 陈方杰 王祖武 《计算机工程与设计》 北大核心 2019年第3期667-671,共5页
为提高双目测量算法运算的速度,提出一种包括减少搬移、增大并行度和异步工作的方法来进行优化。基于快速双边滤波算法(fast bilateral stereo matching),它的匹配精度接近于全局匹配算法。对于标准测试样本,实现的方法在NVDIA TX1开发... 为提高双目测量算法运算的速度,提出一种包括减少搬移、增大并行度和异步工作的方法来进行优化。基于快速双边滤波算法(fast bilateral stereo matching),它的匹配精度接近于全局匹配算法。对于标准测试样本,实现的方法在NVDIA TX1开发板上计算得到视差图所需要的时间更短,相比原来的CPU计算方法,代价聚合的效率有80倍的提升。实时双目测量方法为在嵌入式平台获取高质量双目视觉深度信息提供了有效、可靠的途径。 展开更多
关键词 无人机 实时性 双目测量 统一计算设备架构 并行编程
在线阅读 下载PDF
基于CUDA的梯级泵站调度算法实现 被引量:3
13
作者 项武铭 李雪巍 《计算机与现代化》 2018年第11期60-64,共5页
动态规划方法求解梯级泵站调度问题十分经典,但在计算上存在"维数灾难"问题,GPU并行计算技术能对重复性计算进行加速,提高算法计算性能。本文对梯级泵站调度问题进行动态规划方法分析,利用CUDA(统一计算设备架构)对调度算法... 动态规划方法求解梯级泵站调度问题十分经典,但在计算上存在"维数灾难"问题,GPU并行计算技术能对重复性计算进行加速,提高算法计算性能。本文对梯级泵站调度问题进行动态规划方法分析,利用CUDA(统一计算设备架构)对调度算法进行改进,给出改进动态规划方法的算法实现,并比较不同计算规模下调度算法计算耗时。实验结果表明,基于CUDA改进动态规划方法实现的梯级泵站调度算法能够降低计算维度,在计算规模较大时,加速效果较好。 展开更多
关键词 梯级泵站调度 动态规划 并行计算 cuda
在线阅读 下载PDF
基于CUDA对RNA二级结构预测的并行研究 被引量:1
14
作者 陈飞 郝福珍 《计算机工程与设计》 CSCD 北大核心 2014年第1期297-302,314,共7页
为解决长链RNA二级结构预测面临的计算压力,分析了当前基于最小自由能预测RNA二级结构的相关串行、并行算法,提出了一种基于CUDA(compute unified device architecture)编程模型的并行加速算法。在实现时充分利用了支持CUDA编程模型的GP... 为解决长链RNA二级结构预测面临的计算压力,分析了当前基于最小自由能预测RNA二级结构的相关串行、并行算法,提出了一种基于CUDA(compute unified device architecture)编程模型的并行加速算法。在实现时充分利用了支持CUDA编程模型的GPU(graphic processing unit)设备中的共享存储器、常量存储器等硬件,对RNA二级结构预测算法中的动态规划进行了有效的并行。实验结果表明,在支持CUDA编程模型的GPU上实现的并行程序,获得了与已有的串行、并行算法相同的准确度,同时运行速度更快。 展开更多
关键词 统一计算设备架构 RNA二级结构预测 并行算法 最小自由能 动态规划
在线阅读 下载PDF
基于CUDA技术的离散小波变换算法研究与实现 被引量:2
15
作者 张金霜 《现代信息科技》 2020年第17期72-75,78,共5页
针对离散小波变换过程比较耗时、不利于实际工程应用的问题,提出利用基于GPU平台的CUDA技术对小波变换算法做并行化改造,从而提高算法执行效率。该文分析了小波Mallat算法并行化的可行性,并详细介绍了算法的改造过程。实验表明,基于GPU/... 针对离散小波变换过程比较耗时、不利于实际工程应用的问题,提出利用基于GPU平台的CUDA技术对小波变换算法做并行化改造,从而提高算法执行效率。该文分析了小波Mallat算法并行化的可行性,并详细介绍了算法的改造过程。实验表明,基于GPU/CUDA技术的并行小波Mallat算法,相较于串行小波变换算法,执行速度最高提升了50余倍,且算法效率与计算量成正向关系。 展开更多
关键词 cuda 并行程序设计 离散小波变换 图像压缩
在线阅读 下载PDF
基于CUDA技术的DCT并行算法研究与实现
16
作者 张金霜 黄旭彬 《电脑知识与技术》 2020年第33期198-201,共4页
JPEG有损压缩算法以DCT变换算法为核心,但DCT变换算法较为耗时,为提升图像压缩效率,提出利用基于GPU平台的CUDA技术对DCT算法做并行优化。通过分析DCT变换算法的原理,发现DCT算法具有很好的并行性,优化空间较大,于是利用CUDA技术实现高... JPEG有损压缩算法以DCT变换算法为核心,但DCT变换算法较为耗时,为提升图像压缩效率,提出利用基于GPU平台的CUDA技术对DCT算法做并行优化。通过分析DCT变换算法的原理,发现DCT算法具有很好的并行性,优化空间较大,于是利用CUDA技术实现高速DCT并行算法。实验结果表明,在一张2592×2592分辨率的图像做DCT变换,加速比能达到124.5,算法效率得到明显提升,且压缩效果无显著差异。 展开更多
关键词 cuda GPU 并行程序设计 DCT算法 图像压缩
在线阅读 下载PDF
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
17
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout Optimization cuda Performance Optimization GPU Memory Optimization Dynamic programming Matrix Multiplication Memory Access Pattern Optimization in cuda
在线阅读 下载PDF
分布动载荷识别的并行算法研究 被引量:6
18
作者 殷海涛 姜金辉 +1 位作者 张方 侯友政 《国外电子测量技术》 2012年第8期21-25,共5页
引入并行算法用于求解分布动载荷识别,以改善串行算法造成的大规模数学计算带来的高耗时和内存不足的问题。以一维分布动载荷识别频域法为例,利用C/C++语言编写CUDA并行计算程序,实现了一维分布动载荷识别的并行计算,通过算例证明了并... 引入并行算法用于求解分布动载荷识别,以改善串行算法造成的大规模数学计算带来的高耗时和内存不足的问题。以一维分布动载荷识别频域法为例,利用C/C++语言编写CUDA并行计算程序,实现了一维分布动载荷识别的并行计算,通过算例证明了并行计算的准确性和高效。为提高动载荷识别中的效率提供了新的思路。 展开更多
关键词 并行算法 分布动载荷识别 高效 cuda编程
在线阅读 下载PDF
GPU加速逆时偏移技术的应用和分析 被引量:3
19
作者 张向阳 冯超敏 文玲 《计算机应用与软件》 CSCD 北大核心 2012年第8期223-225,共3页
在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性... 在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。 展开更多
关键词 GPU 逆时偏移 cuda编程架构 GPU加速
在线阅读 下载PDF
基于GPU的图像增强实验设计与实现 被引量:2
20
作者 傅志中 赵宇飞 徐进 《实验技术与管理》 CAS 北大核心 2017年第5期37-40,94,共5页
图像增强旨在改善和提高图像的显示质量,通过梯度进行增强是一种十分有效的方法。图形计算单元(GPU)因为其较高并行性和其特殊的结构特性,正被广泛地应用在算法加速和科学计算领域。为了提高学生对图像增强原理的理解,以及使学生掌握利... 图像增强旨在改善和提高图像的显示质量,通过梯度进行增强是一种十分有效的方法。图形计算单元(GPU)因为其较高并行性和其特殊的结构特性,正被广泛地应用在算法加速和科学计算领域。为了提高学生对图像增强原理的理解,以及使学生掌握利用GPU进行算法实现的原理与过程,设计了基于GPU的图像增强实验。 展开更多
关键词 图像增强 梯度场 图形计算单元 cuda编程 实验设计
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部