期刊文献+
共找到1,301篇文章
< 1 2 66 >
每页显示 20 50 100
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:2
1
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 cuda加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
基于CUDA并行的线性复杂度快速检测方法
2
作者 付一方 范丽敏 +1 位作者 陈华 陈东昱 《密码学报(中英文)》 北大核心 2025年第4期752-765,共14页
线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐... 线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐渐成为其适用性的瓶颈问题.本文着眼于解决二元序列线性复杂度测试的低效率问题,提出了一种基于GPU/NVIDIA CUDA技术的并行优化方法,实现了线性复杂度的快速检测.本文在改进的Berlekamp-Massey算法基础上,增加了快速移位方法,结合NVIDIA CUDA模型提出了针对二元序列线性复杂度的并行检测策略,通过对Berlekamp-Massey算法进行的并行化处理,在实现线程块间并行的同时也实现了多线程同步合作的深层并行Berlekamp-Massey算法.除此之外,通过调整线程配置参数以及引入CUDA协作组与warp shuffle机制对检测流程进行进一步优化.实验结果表明,本文提出的优化算法速度提升明显,相对于NIST-STS版本的线性复杂度检测,最高实现了约20000倍的加速;对比目前最快的线性复杂度并行检测方法,最高实现了约3–3.5倍的稳定加速. 展开更多
关键词 随机性检测 线性复杂度检测 BERLEKAMP-MASSEY算法 NVIDIA cuda GPU并行
在线阅读 下载PDF
基于CUDA和比特切片的SM4算法软件优化和实现
3
作者 吴江雨 何鹏 《计算机应用研究》 北大核心 2025年第9期2825-2833,共9页
SM4算法作为中国国家标准的对称加密算法,其加密效率是实现高质量、高效率数据保护的关键因素。目前SM4算法优化主要表现在比特切片和指令集优化等方面。比特切片和指令集优化分别存在着数据交互频繁以及高度依赖于底层硬件,不同架构的... SM4算法作为中国国家标准的对称加密算法,其加密效率是实现高质量、高效率数据保护的关键因素。目前SM4算法优化主要表现在比特切片和指令集优化等方面。比特切片和指令集优化分别存在着数据交互频繁以及高度依赖于底层硬件,不同架构的支持程度存在不同的问题。针对上述问题,提出了在数据处理上采用改进的比特切片优化数据编排的方法,从而提高数据传输效率,并且在CUDA编程模型的框架上,通过本地GPU实现SM4算法的高效通用并行加密。实验结果表明,在使用比特切片后,对小型数据也能够提高速度,处理明文大小为32 KB时加速比(Ep)能达到3.03。另外,与通用SM4算法相比,优化后的SM4算法加密速度可以达到14648 Mbit/s,加密每字节需要的时钟周期可以达到2.0 cycles/Byte,性能提升40%~215%。该方案在GPU的并行加速下能够大大提升当前SM4算法的加解密效率,在基于改进的比特切片优化下,也能提高小型数据的速度,并且安全性得到了良好的提升。 展开更多
关键词 SM4 cuda GPU加速 比特切片 性能优化
在线阅读 下载PDF
基于CUDA实现直接模拟蒙特卡罗方法的并行研究
4
作者 徐兴勤 梁立振 +5 位作者 徐伟 吴浩 邹尚轩 刘婷 刘洋 李浩 《核电子学与探测技术》 北大核心 2025年第9期1374-1380,共7页
基于负离子源的中性束注入是未来核聚变点火的重要加热技术,负氢离子束流大小是其重要指标之一,金属铯注入可以有效提高离子源中负氢离子的产额,因此铯在离子源内部的分布对提升束功率具有重要作用。本文借助直接模拟蒙特卡罗(DSMC)方... 基于负离子源的中性束注入是未来核聚变点火的重要加热技术,负氢离子束流大小是其重要指标之一,金属铯注入可以有效提高离子源中负氢离子的产额,因此铯在离子源内部的分布对提升束功率具有重要作用。本文借助直接模拟蒙特卡罗(DSMC)方法对注铯喷嘴进行模拟计算,研究铯注入量和喷发曲线对离子源内铯分布的影响。针对DSMC方法在中央处理器(CPU)串行计算中效率低的问题,本文基于CUDA架构实现分子运动、网格索引、碰撞计算与统计采样的全GPU并行化。本文通过对比串行和并行计算结果,验证并行程序的正确性,在不同算例均保持良好计算精度的前提下,并行加速比可达到11.6倍,具体并行效率取决于计算规模,最后成功利用这个并行程序实现注铯喷嘴处铯通量分布的数值模拟。 展开更多
关键词 直接模拟蒙特卡罗(DSMC) cuda GPU 并行计算
在线阅读 下载PDF
基于CUDA的高分辨率气象格点数据可视化系统
5
作者 宋海军 康贤彪 赵国庆 《计算机应用与软件》 北大核心 2025年第10期383-387,共5页
针对全球高分辨率气象格点数据网络传输规模大、前端实时渲染可视化卡顿严重等问题,设计一种基于CUDA的气象格点数据可视化系统。系统基于uni-app框架,通过集成数据切片、CUDA数据并行处理、数据压缩、前后端多线程数据传输、前端颜色... 针对全球高分辨率气象格点数据网络传输规模大、前端实时渲染可视化卡顿严重等问题,设计一种基于CUDA的气象格点数据可视化系统。系统基于uni-app框架,通过集成数据切片、CUDA数据并行处理、数据压缩、前后端多线程数据传输、前端颜色映射可视化等技术,能较好地实现高分辨率气象数据在前端的超快速可视化显示以及系统的跨平台一键移植和部署。 展开更多
关键词 格点数据 数据可视化 cuda HTML5
在线阅读 下载PDF
融合CUDA与OPI制导调优的语言在线翻译器自动化并行优化研究
6
作者 刘鹏娟 《自动化与仪器仪表》 2024年第9期230-233,238,共5页
针对语言翻译器的并行优化主要依赖于手动调整和优化较为费时费力这一缺点,研究提出一种融合统一计算设备架构(Compute Unified Device Architecture, CUDA)和最佳性能指标(Optimal Performance Index, OPI)制导调优的语言在线翻译器自... 针对语言翻译器的并行优化主要依赖于手动调整和优化较为费时费力这一缺点,研究提出一种融合统一计算设备架构(Compute Unified Device Architecture, CUDA)和最佳性能指标(Optimal Performance Index, OPI)制导调优的语言在线翻译器自动化并行优化方法。此次研究选择扩展ParaC编译器,使其能生成CUDA程序,并引入了OPI制导调优,以期在并行处理和性能优化方面达到更好的效果。研究进行了仿真实验,结果显示,传统方法的性能相对于所提方法略低,平均性能达到所提方案的79.98%,最优时达到93.97%。研究为在线翻译器的进一步发展奠定了重要的理论基础,并为其实践应用提供了有力的指导。 展开更多
关键词 cuda OPI制导调优 ParaC语言编译器 并行优化 仿真实验
原文传递
基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究 被引量:1
7
作者 林拥真 徐传福 +4 位作者 邱昊中 汪青松 王正华 杨富翔 李洁 《计算机科学》 CSCD 北大核心 2024年第9期31-39,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦... DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化。在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 异构并行 MPI+cuda
在线阅读 下载PDF
Optimizing Memory Access Efficiency in CUDA Kernel via Data Layout Technique
8
作者 Neda Seifi Abdullah Al-Mamun 《Journal of Computer and Communications》 2024年第5期124-139,共16页
Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these adv... Over the past decade, Graphics Processing Units (GPUs) have revolutionized high-performance computing, playing pivotal roles in advancing fields like IoT, autonomous vehicles, and exascale computing. Despite these advancements, efficiently programming GPUs remains a daunting challenge, often relying on trial-and-error optimization methods. This paper introduces an optimization technique for CUDA programs through a novel Data Layout strategy, aimed at restructuring memory data arrangement to significantly enhance data access locality. Focusing on the dynamic programming algorithm for chained matrix multiplication—a critical operation across various domains including artificial intelligence (AI), high-performance computing (HPC), and the Internet of Things (IoT)—this technique facilitates more localized access. We specifically illustrate the importance of efficient matrix multiplication in these areas, underscoring the technique’s broader applicability and its potential to address some of the most pressing computational challenges in GPU-accelerated applications. Our findings reveal a remarkable reduction in memory consumption and a substantial 50% decrease in execution time for CUDA programs utilizing this technique, thereby setting a new benchmark for optimization in GPU computing. 展开更多
关键词 Data Layout Optimization cuda Performance Optimization GPU Memory Optimization Dynamic Programming Matrix Multiplication Memory Access Pattern Optimization in cuda
在线阅读 下载PDF
基于神经网络的伽马射线定位算法及CUDA计算 被引量:1
9
作者 彭敬 王磊 +4 位作者 卢位 杜雨昆 李浩炫 孟娜 邹科峰 《核电子学与探测技术》 CAS 北大核心 2024年第4期663-672,共10页
为实现便携式核辐射成像场景下利用神经网络进行伽马射线定位的快速GPU计算,提出了一种基于CUDA的伽马射线定位计算方法。首先描述了伽马射线探测器模型、MURA成像系统和神经网络射线定位模型,然后对FCNN射线定位模型进行并行计算分析,... 为实现便携式核辐射成像场景下利用神经网络进行伽马射线定位的快速GPU计算,提出了一种基于CUDA的伽马射线定位计算方法。首先描述了伽马射线探测器模型、MURA成像系统和神经网络射线定位模型,然后对FCNN射线定位模型进行并行计算分析,在Jetson Xavier NX平台下实现了基于CUDA的伽马射线定位计算,并验证了该计算方法的准确性和对其计算效率进行对比分析。实验结果表明,对于10000组事件数据,设计的基于CUDA的射线定位计算与CPU射线定位计算结果几乎一致,其实际计算耗时11.5 ms,约为CPU射线定位计算的加速比的364倍。 展开更多
关键词 辐射成像 射线定位 神经网络 推理计算 cuda
在线阅读 下载PDF
MPI+CUDA联合加速重力场反演的并行算法 被引量:1
10
作者 赵锴坤 朱炬波 +1 位作者 谷德峰 韦春博 《大地测量与地球动力学》 CSCD 北大核心 2024年第4期423-428,共6页
针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速... 针对重力场解算过程中数据量巨大的问题,联合MPI(massage passing interface)与CUDA(compute unified device architecture)提出基于最小二乘法的重力场解算过程的并行加速算法。使用MPI完成复杂过程的任务分配,实现全局层面的并行加速;基于CUDA编写大规模矩阵相乘的并行加速程序,并针对不同类型的矩阵进行适配,同时联合MPI将法矩阵的计算过程进一步细分,实现对分进程内存峰值的压缩。在单机上完成30阶与120阶重力场仿真解算任务,结果表明,反演30阶重力场时加速比可达180;反演120阶重力场时,并行计算单次迭代仅耗时2 h,而串行模式下无法计算。 展开更多
关键词 重力场 并行计算 cuda MPI
在线阅读 下载PDF
基于面向对象对CUDA架构的LBM计算程序优化
11
作者 韦华健 张乾毅 +1 位作者 张静静 李华兵 《桂林电子科技大学学报》 2024年第6期579-584,共6页
晶格玻尔兹曼方法(LBM)是一种新颖而有前途的计算流体力学方法,从算法的角度看,其迭代过程能被分化为多个子问题的并行程序,非常适合在高性能图像处理器(GPU)计算,获得极快的数据处理速度,同时有大量工作报告了基于GPU计算的LBM方法得... 晶格玻尔兹曼方法(LBM)是一种新颖而有前途的计算流体力学方法,从算法的角度看,其迭代过程能被分化为多个子问题的并行程序,非常适合在高性能图像处理器(GPU)计算,获得极快的数据处理速度,同时有大量工作报告了基于GPU计算的LBM方法得到了高效实现。程序环境以C++编程语言,运用面向对象思想优化CUDA程序结构,可减少程序的耦合性,赋予程序的可持续发展能力;使用Poiseuille flow模型验证优化程序的稳定性与准确性。在程序运行过程中,调用CUDA内核函数来处理模型内的碰撞、迁徙流动、计算宏观量的迭代过程,同时使用共享内存储存GPU运行时的数据,以提高计算效率。数据分析结果表明,计算速度较中央处理器(CPU)提升了70倍,这归功于GPU高性能的并行计算能力。 展开更多
关键词 晶格玻尔兹曼方法 面向对象 Poiseuille flow模型 cuda
在线阅读 下载PDF
基于CUDA并行计算的煤矿奥灰突水快速准确预测方法
12
作者 刘大鹏 张思睿 《承德石油高等专科学校学报》 CAS 2024年第2期9-12,59,共5页
通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水... 通过分析目前我国煤矿突水预测研究的现状,提出当前条件下我国煤矿突水预测方法难以实现实时监测突水风险问题。通过将待监测区域进行有限元剖分,根据区域内钻孔水位反演计算监测区域各节点水位,从而进行突水风险预测。结合有限元突水预测方法,将英伟达公司开发的CUDA并行计算技术应用到煤矿突水防治中,详细介绍了CUDA预测突水软件编写思路和模型。编写了CUDA监测突水程序并结合钻孔水位数据对煤矿突水点进行了实际预测,与传统CPU串行计算相比,大大提高了煤矿突水预测计算速度,对实现煤矿突水快速准确预测具有参考意义。 展开更多
关键词 煤矿 cuda 并行计算 突水
在线阅读 下载PDF
基于指令流水线的CUDA核函数时间预测模型
13
作者 张建定 陈根浪 明宗禹 《软件工程》 2024年第10期74-78,共5页
对CUDA核函数(CUDA Kernel Function)在静态下的评估预测是任务调度与程序优化的一个关键组成部分。文章通过对CUDA核函数的PTX(Parallel Thread Execution)进行代码分析和特性建模,精心设计了一个时间预测模型。该模型基于指令流水线... 对CUDA核函数(CUDA Kernel Function)在静态下的评估预测是任务调度与程序优化的一个关键组成部分。文章通过对CUDA核函数的PTX(Parallel Thread Execution)进行代码分析和特性建模,精心设计了一个时间预测模型。该模型基于指令流水线的原理,可以在不执行程序的情况下,预测核函数在给定硬件环境下的执行时间。实验结果表明,该模型在预测CUDA核函数执行时间上的平均百分比误差为22.87%。这意味着该模型能够相对准确地预测核函数的执行时间,为任务调度系统提供参考,并辅助开发人员对程序进行优化。 展开更多
关键词 cuda 时间预测 静态 PTX 流水线
在线阅读 下载PDF
Optimized CUDA Implementation to Improve the Performance of Bundle Adjustment Algorithm on GPUs
14
作者 Pranay R. Kommera Suresh S. Muknahallipatna John E. McInroy 《Journal of Software Engineering and Applications》 2024年第4期172-201,共30页
The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its p... The 3D reconstruction pipeline uses the Bundle Adjustment algorithm to refine the camera and point parameters. The Bundle Adjustment algorithm is a compute-intensive algorithm, and many researchers have improved its performance by implementing the algorithm on GPUs. In the previous research work, “Improving Accuracy and Computational Burden of Bundle Adjustment Algorithm using GPUs,” the authors demonstrated first the Bundle Adjustment algorithmic performance improvement by reducing the mean square error using an additional radial distorting parameter and explicitly computed analytical derivatives and reducing the computational burden of the Bundle Adjustment algorithm using GPUs. The naïve implementation of the CUDA code, a speedup of 10× for the largest dataset of 13,678 cameras, 4,455,747 points, and 28,975,571 projections was achieved. In this paper, we present the optimization of the Bundle Adjustment algorithm CUDA code on GPUs to achieve higher speedup. We propose a new data memory layout for the parameters in the Bundle Adjustment algorithm, resulting in contiguous memory access. We demonstrate that it improves the memory throughput on the GPUs, thereby improving the overall performance. We also demonstrate an increase in the computational throughput of the algorithm by optimizing the CUDA kernels to utilize the GPU resources effectively. A comparative performance study of explicitly computing an algorithm parameter versus using the Jacobians instead is presented. In the previous work, the Bundle Adjustment algorithm failed to converge for certain datasets due to several block matrices of the cameras in the augmented normal equation, resulting in rank-deficient matrices. In this work, we identify the cameras that cause rank-deficient matrices and preprocess the datasets to ensure the convergence of the BA algorithm. Our optimized CUDA implementation achieves convergence of the Bundle Adjustment algorithm in around 22 seconds for the largest dataset compared to 654 seconds for the sequential implementation, resulting in a speedup of 30×. Our optimized CUDA implementation presented in this paper has achieved a 3× speedup for the largest dataset compared to the previous naïve CUDA implementation. 展开更多
关键词 Scene Reconstruction Bundle Adjustment LEVENBERG-MARQUARDT Non-Linear Least Squares Memory Throughput Computational Throughput Contiguous Memory Access cuda Optimization
在线阅读 下载PDF
基于CUDA加速的图像特征检测与匹配算法研究
15
作者 成健 《电子制作》 2024年第13期67-70,共4页
针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线... 针对使用OpenCV的ORB算法对高清图像特征检测与匹配算法实时性差的问题,提出了一种基于CUDA加速的ORB图像特征检测算法。首先,使用输入图像构建图像金字塔,将各层图像对齐,分为许多张小图像块并保存其图像信息,接着每个CUDA线程通过线程id去查询对应的图像块,使用FAST快速检测图像块的角点,初步保留质量较好的角点,计算Harris响应值和非极大值抑制再筛选得到一部分角点作为图像特征点,然后通过256组2维随机点描述符,计算图像特征点的描述子,最后通过计算两幅图像特征点描述子的汉明距离来匹配特征点,剔除汉明距离过大的匹配特征点对。对实际的CUDA代码测试结果分析表明,处理一组同样的1080p图像用时86ms左右,而OpenCV用时至少在210ms。 展开更多
关键词 特征检测 ORB cuda FASR角点检测 Harris响应值 特征匹配 BRIFF描述子
在线阅读 下载PDF
Developing a Clang Libtooling-Based Refactoring Tool for CUDA GPU Programming
16
作者 Kian Nejadfard Janche Sang 《Journal of Software Engineering and Applications》 2024年第2期89-108,共20页
Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizin... Refactoring tools, whether fully automated or semi-automated, are essential components of the software development life cycle. As software libraries and frameworks evolve over time, it’s crucial for programs utilizing them to also evolve to remain compatible with modern advancements. Take, for example, NVIDIA CUDA’s platform for general-purpose GPU programming. Embracing the more contemporary unified memory architecture offers several benefits, such as simplifying program source code, reducing bugs stemming from manual memory management between host and device memory, and optimizing memory transfer through automated memory handling. This paper describes our development of a refactoring tool based on Clang’s Libtooling to facilitate this transition automatically, thereby relieving developers from the burden and risks associated with manually refactoring large code bases. 展开更多
关键词 REFACTORING cuda Unified Memory Clang Libtooling
在线阅读 下载PDF
5G终端基带处理的CUDA加速方法
17
作者 许金海 《中国宽带》 2024年第2期4-6,共3页
本研究旨在探讨CUDA技术在5G终端基带处理中的应用,以提高数据处理速度和系统性能。采用并行计算架构,对FFT算法和LDPC解码等核心信号处理算法进行优化,同时通过高效的线程管理和内存访问策略,显著提升了处理效率。研究结果表明,CUDA加... 本研究旨在探讨CUDA技术在5G终端基带处理中的应用,以提高数据处理速度和系统性能。采用并行计算架构,对FFT算法和LDPC解码等核心信号处理算法进行优化,同时通过高效的线程管理和内存访问策略,显著提升了处理效率。研究结果表明,CUDA加速技术能够在各处理阶段大幅减少执行时间。此项技术的成功应用不仅提高了5G系统的响应速度和通信效率,也展示了并行计算在现代高速通信领域中的巨大潜力。因此,CUDA技术的进一步研究和优化将对未来的通信技术发展起到关键的推动作用。 展开更多
关键词 cuda 5G基带处理 并行计算 性能优化
在线阅读 下载PDF
Qt中基于CUDA实现频域波束形成算法
18
作者 黄建凯 《电脑编程技巧与维护》 2024年第7期3-5,15,共4页
频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是... 频域波束形成是波束形成的一种实现方式,适用于宽带信号以及测向,实时的频域波束形成往往伴随巨大的计算量。CUDA是NVIDIA提供的并行计算平台,该架构使GPU能够解决复杂的计算问题,基于CUDA实现频域波束形成可以大大提高计算效率。Qt是一个跨平台的集成开发环境,移植性好、调试效率高。介绍了centos系统下CUDA的安装方法、通过Qt实现CUDA的编译和调用的方法,详细介绍了基于CUDA实现频域波束形成算法的流程。 展开更多
关键词 cuda平台 频域波束形成 并行计算
在线阅读 下载PDF
基于CUDA的并行布谷鸟搜索算法设计与实现 被引量:2
19
作者 韦向远 杨辉华 谢谱模 《计算机科学与探索》 CSCD 2014年第6期665-673,共9页
布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device arch... 布谷鸟搜索(cuckoo search,CS)算法是近几年发展起来的智能元启发式算法,已经被成功应用于多种优化问题中。针对CS算法在求解大数据、大规模复杂问题时,计算时间过长的问题,提出了一种基于统一计算设备架构(compute unified device architecture,CUDA)的并行布谷鸟搜索算法。该算法的并行实现采用任务并行与数据并行相结合的方式,利用图形处理器(graphic processing unit,GPU)线程块与线程分别映射布谷鸟个体与个体的每一维数据,并行实现CS算法中的鸟巢位置更新、个体适应度评估、鸟巢重建、寻找最优个体操作。整个CS算法的寻优迭代过程完全通过GPU实现,降低了算法计算过程中CPU与GPU的通信开销。对4个经典基准测试函数进行了仿真实验,结果表明,相比标准CS算法,基于CUDA架构的并行CS算法在求解收敛性一致的前提下,在求解速度上获得了高达110倍的计算加速比。 展开更多
关键词 布谷鸟搜索算法 并行计算 图形处理器(GPU) 统一计算设备架构(cuda) GRAPHIC processing unit (GPU) compute UNIFIED device architecture (cuda)
在线阅读 下载PDF
CUDA架构下的灰度图像匹配并行算法 被引量:15
20
作者 李建江 张磊 +2 位作者 李兴钢 陈翔 黄义双 《电子科技大学学报》 EI CAS CSCD 北大核心 2012年第1期110-113,共4页
提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图... 提出一种NVIDIACUDA架构下的灰度图像匹配算法,利用GPU加速灰度图像的匹配过程。实际的测试结果表明,在现有实验环境中,对同一图像,在不损失匹配精度的前提下,在GPU上使用CUDA实现的灰度图像匹配并行算法比在CPU上使用MPI实现的灰度图像匹配并行算法快了40多倍,性能得到了显著提高,从而使灰度图像匹配应用于如交互式系统等实时应用成为可能。 展开更多
关键词 cuda GPU 灰度 图像匹配 并行
在线阅读 下载PDF
上一页 1 2 66 下一页 到第
使用帮助 返回顶部