期刊文献+
共找到4,742篇文章
< 1 2 238 >
每页显示 20 50 100
基于Cache功能模拟的GPU内存系统建模
1
作者 袁福焱 郝晓宇 +3 位作者 曹振伟 张森 陈俊仕 安虹 《小型微型计算机系统》 北大核心 2026年第2期477-486,共10页
重用距离分析是一种常用的基于Trace的Cache性能分析方法.然而,随着现代GPU微架构的持续演进,现有基于重用距离理论的GPU内存分析模型由于简化了过多硬件特性,导致了显著的失真.为此,本文提出一种基于Trace和Cache功能模拟的GPU内存系... 重用距离分析是一种常用的基于Trace的Cache性能分析方法.然而,随着现代GPU微架构的持续演进,现有基于重用距离理论的GPU内存分析模型由于简化了过多硬件特性,导致了显著的失真.为此,本文提出一种基于Trace和Cache功能模拟的GPU内存系统建模框架,针对现代GPU的关键内存特性进行了精确建模,包括Sector Cache、自适应L1缓存分配机制以及写直达与写回策略等.通过在Volta架构及多个基准测试套件上的实验验证,论文模型相较现有最先进模型PPT-GPU-Mem在多个关键指标上显著提升了预测精度:L2命中率误差从43.39%降至15.86%,显存读写事务次数误差从42%降至16.85%. 展开更多
关键词 gpu 内存模型 重用距离 功能模拟 NVIDIA NVBit
在线阅读 下载PDF
面向分布式集群的GPU性能分析与建模方法:现状及展望
2
作者 赵海燕 李志凯 +1 位作者 钱诗友 曹健 《小型微型计算机系统》 北大核心 2026年第1期58-72,共15页
随着人工智能与高性能计算的快速发展,模型复杂度和数据规模持续增长,使得单个GPU难以应对大规模计算任务.因此,分布式GPU集群已成为现代深度学习与科学计算任务的重要基础设施.为了充分发挥此类系统的计算潜力,高效的性能分析与建模方... 随着人工智能与高性能计算的快速发展,模型复杂度和数据规模持续增长,使得单个GPU难以应对大规模计算任务.因此,分布式GPU集群已成为现代深度学习与科学计算任务的重要基础设施.为了充分发挥此类系统的计算潜力,高效的性能分析与建模方法在识别系统瓶颈、优化资源利用以及指导系统设计决策方面显得尤为关键.本文系统综述了分布式集群环境中GPU性能分析与建模的前沿方法.首先深入剖析了当前主流GPU架构及其内部机制,解释其在并行计算任务中高效性的来源.随后介绍了常用的性能指标与分析工具,为架构师与运维工程师根据具体应用需求选择合适的分析框架提供实践指导.文章进一步探讨了包括瓶颈识别、故障归因及细粒度性能刻画在内的先进建模方法.最后,本文讨论了该领域仍存在的挑战,并展望了未来构建更精准、可扩展且可解释的GPU性能分析方法的发展方向. 展开更多
关键词 gpu性能分析方法 分布式集群 深度学习训练及推理 性能建模
在线阅读 下载PDF
面向稀疏矩阵向量乘法的GPU性能建模和算法优化
3
作者 马澄宇 李锁兰 +3 位作者 刘一诺 赵文哲 任鹏举 夏天 《集成电路与嵌入式系统》 2026年第1期5-11,共7页
针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别... 针对GPU平台上稀疏矩阵向量乘(SpMV)操作的性能瓶颈问题,提出了一种基于行重分割的优化算法及其配套性能评估模型。该方法首先基于矩阵行长度与计算资源分配之间的量化映射关系,通过设定动态阈值将原始矩阵划分为长行和短行子矩阵,分别采用线程级和线程块级并行策略进行计算,从而有效缓解GPU SIMT执行特性与稀疏矩阵非规则数据分布之间的矛盾。为量化预处理过程中引入的额外开销,分别建立了针对Atomic Conflict和Padding的性能损失模型,将额外的访存和计算转换为可计算的开销函数。基于上述模型,构建了参数空间搜索算法,通过预先获取硬件性能指标和矩阵非零元分布信息,快速在参数集合中搜索得到最优预处理参数。实验结果表明,该优化算法在多种典型稀疏矩阵数据集上均优于传统的GPU稀疏计算库cuSPARSE,在部分场景下性能提升达1.26倍及1.17倍。此外,参数搜索开销较低,且该方法具备良好的通用性,可适配不同的输入矩阵与GPU硬件架构。 展开更多
关键词 gpu性能建模 并行算法优化 稀疏矩阵 SpMV
在线阅读 下载PDF
基于GPU的双模量材料结构拓扑优化设计方法
4
作者 冯俊杰 易继军 +2 位作者 陈书祥 陈康霖 周泉 《机械工程师》 2026年第2期90-94,107,共6页
针对双模量材料结构弹性模量矩阵的非光滑性和其结构有限元分析及拓扑优化计算量大等问题,提出了一种基于GPU的双模量材料结构拓扑优化方法。首先,研究了基于免组装和预处理共轭梯度法的结构线性方程内循环求解方法,显著提高了线性方程... 针对双模量材料结构弹性模量矩阵的非光滑性和其结构有限元分析及拓扑优化计算量大等问题,提出了一种基于GPU的双模量材料结构拓扑优化方法。首先,研究了基于免组装和预处理共轭梯度法的结构线性方程内循环求解方法,显著提高了线性方程组求解的计算效率;其次,发展了基于Newton Raphson法的双模量材料结构有限元并行迭代方法,改进了光滑化的弹性模量矩阵表达式和柔顺度对设计变量的求导公式,并提出了基于GPU并行技术的双模量材料结构拓扑优化求解方法。最后,完成了方法的并行计算核函数和MATLAB编程及联调验算。给出的算例验证了提出方法的有效性和高的计算效率。 展开更多
关键词 双模量材料 拓扑优化 gpu并行 免组装方法 有限元分析
在线阅读 下载PDF
基于GPU并行计算的拉-压结构拓扑优化设计方法研究
5
作者 钟宇 易继军 +2 位作者 陈康霖 陈书祥 周泉 《机械工程师》 2026年第2期10-13,共4页
拓扑优化是实现创新、轻质与高效结构设计的有效方法,然而,实际工程中的大规模复杂结构的拓扑优化存在计算量大等问题,限制了该技术技术的实际应用。针对上述问题,文中开展了基于GPU并行计算的拉-压结构拓扑优化方法研究。首先,建立了... 拓扑优化是实现创新、轻质与高效结构设计的有效方法,然而,实际工程中的大规模复杂结构的拓扑优化存在计算量大等问题,限制了该技术技术的实际应用。针对上述问题,文中开展了基于GPU并行计算的拉-压结构拓扑优化方法研究。首先,建立了一种基于单元主应力的单元拉/压状态判断方法,以实现基于单元应力状态的材料插值模型的构建;其次,基于逐单元策略开展了优化模型、灵敏度分析及有限元分析等拉-压结构拓扑优化并行求解算法研究;最后,完成了提出方法的MATLAB和C++并行计算核函数编程及验算。算例结果验证了该方法的有效性和较高的计算效率。 展开更多
关键词 拓扑优化 gpu并行 拉-压结构 有限元分析
在线阅读 下载PDF
基于SPH-GPU方法的船舶入水砰击特性研究
6
作者 陈鑫 缪东青 侍鹏程 《舰船科学技术》 北大核心 2026年第1期42-49,共8页
针对极端条件船舶航行时的砰击入水问题,本文提出一种基于GPU加速技术的三维光滑粒子流体动力学(SPH)数值模型,以提升SPH方法在三维问题中的计算效率。相较于CPU并行计算,GPU加速技术使得计算效率提升约54倍,同时与商用CFD软件对比证明... 针对极端条件船舶航行时的砰击入水问题,本文提出一种基于GPU加速技术的三维光滑粒子流体动力学(SPH)数值模型,以提升SPH方法在三维问题中的计算效率。相较于CPU并行计算,GPU加速技术使得计算效率提升约54倍,同时与商用CFD软件对比证明所建立数值模型的计算精度,也表明了SPH方法在捕捉自由液面飞溅破碎问题中的优势。在此基础上,本文针对船舶砰击入水问题开展系统性研究,结果表明,速度对于船舶出入水过程中纵荡运动的影响远大于质量的影响,在初始阶段(t<0.15 s),速度越大,横向砰击力越大,而垂向砰击力与之相反,船首入水深度也相对较小;当初始纵倾角较小时,船体受到的砰击力越小,船舶入水时更加安全。 展开更多
关键词 SPH方法 船舶入水 gpu加速技术 流固耦合
在线阅读 下载PDF
面向电力系统AI训练的GPU虚拟化弹性调度算法研究
7
作者 张田佳 奥伟 +1 位作者 张作宇 樊淑炎 《电气自动化》 2026年第1期55-58,共4页
针对电力系统人工智能训练中图形处理器(graphics processing unit,GPU)资源利用率低、碎片化严重及边缘-中心协同适配性差的问题,提出一种基于GPU虚拟化弹性调度优化框架。通过NVIDIA多实例GPU硬件分区与轻量级虚拟图形处理单元软件切... 针对电力系统人工智能训练中图形处理器(graphics processing unit,GPU)资源利用率低、碎片化严重及边缘-中心协同适配性差的问题,提出一种基于GPU虚拟化弹性调度优化框架。通过NVIDIA多实例GPU硬件分区与轻量级虚拟图形处理单元软件切片技术构建细粒度资源池,实现计算与显存资源解耦;融合改进型首次适应算法与模拟退火优化模块,降低显存碎片率,结合改进型Conv-Seq2Seq模型的三路异构卷积核,提高负载预测准确率。试验结果表明:所提研究方法在省级电网GPU调度系统中显著提升资源利用率至81.2%,响应延迟≤50 ms,显存碎片率降至11.8%,为电力AI训练提供了从硬件解耦到智能决策的一体化支撑。 展开更多
关键词 显存碎片率优化 gpu虚拟化弹性调度 边缘-中心协同 首次适应算法 电力系统人工智能训练
在线阅读 下载PDF
A Subdomain-Based GPU Parallel Scheme for Accelerating Perdynamics Modeling with Reduced Graphics Memory
8
作者 Zuokun Yang Jun Li +1 位作者 Xin Lai Lisheng Liu 《Computer Modeling in Engineering & Sciences》 2026年第1期256-285,共30页
Peridynamics(PD)demonstrates unique advantages in addressing fracture problems,however,its nonlocality and meshfree discretization result in high computational and storage costs.Moreover,in its engineering application... Peridynamics(PD)demonstrates unique advantages in addressing fracture problems,however,its nonlocality and meshfree discretization result in high computational and storage costs.Moreover,in its engineering applications,the computational scale of classical GPU parallel schemes is often limited by the finite graphics memory of GPU devices.In the present study,we develop an efficient particle information management strategy based on the cell-linked list method and on this basis propose a subdomain-based GPU parallel scheme,which exhibits outstanding acceleration performance in specific compute kernels while significantly reducing graphics memory usage.Compared to the classical parallel scheme,the cell-linked list method facilitates efficient management of particle information within subdomains,enabling the proposed parallel scheme to effectively reduce graphics memory usage by optimizing the size and number of subdomains while significantly improving the speed of neighbor search.As demonstrated in PD examples,the proposed parallel scheme enhances the neighbor search efficiency dramatically and achieves a significant speedup relative to serial programs.For instance,without considering the time of data transmission,the proposed scheme achieves a remarkable speedup of nearly 1076.8×in one test case,due to its excellent computational efficiency in the neighbor search.Additionally,for 2D and 3D PD models with tens of millions of particles,the graphics memory usage can be reduced up to 83.6%and 85.9%,respectively.Therefore,this subdomain-based GPU parallel scheme effectively avoids graphics memory shortages while significantly improving the computational efficiency,providing new insights into studying more complex large-scale problems. 展开更多
关键词 PERIDYNAMICS gpu CUDA parallel computing cell-linked list
在线阅读 下载PDF
GPU‑accelerated Monte Carlo method for dose calculation of mesh‑type computational phantoms
9
作者 Shu‑Chang Yan Rui Qiu +3 位作者 Xi‑Yu Luo An‑Kang Hu Zhen Wu Jun‑Li Li 《Nuclear Science and Techniques》 2026年第1期297-308,共12页
Computational phantoms play an essential role in radiation dosimetry and health physics.Although mesh-type phantoms offer a high resolution and adjustability,their use in dose calculations is limited by their slow com... Computational phantoms play an essential role in radiation dosimetry and health physics.Although mesh-type phantoms offer a high resolution and adjustability,their use in dose calculations is limited by their slow computational speed.Progress in heterogeneous computing has allowed for substantial acceleration in the computation of mesh-type phantoms by utilizing hardware accelerators.In this study,a GPU-accelerated Monte Carlo method was developed to expedite the dose calculation for mesh-type computational phantoms.This involved designing and implementing the entire procedural flow of a GPUaccelerated Monte Carlo program.We employed acceleration structures to process the mesh-type phantom,optimized the traversal methodology,and achieved a flattened structure to overcome the limitations of GPU stack depths.Particle transport methods were realized within the mesh-type phantom,encompassing particle location and intersection techniques.In response to typical external irradiation scenarios,we utilized Geant4 along with the GPU program and its CPU serial code for dose calculations,assessing both computational accuracy and efficiency.In comparison with the benchmark simulated using Geant4 on the CPU using one thread,the relative differences in the organ dose calculated by the GPU program predominantly lay within a margin of 5%,whereas the computational time was reduced by a factor ranging from 120 to 2700.To the best of our knowledge,this study achieved a GPU-accelerated dose calculation method for mesh-type phantoms for the first time,reducing the computational time from hours to seconds per simulation of ten million particles and offering a swift and precise Monte Carlo method for dose calculation in mesh-type computational phantoms. 展开更多
关键词 gpu Monte Carloference Mesh-type phantom External exposure Heterogeneous
暂未订购
CUDA‑based GPU‑only computation for efficient tracking simulation of single and multi‑bunch collective effects
10
作者 Keon Hee Kim Eun‑San Kim 《Nuclear Science and Techniques》 2026年第1期61-79,共19页
Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based met... Beam-tracking simulations have been extensively utilized in the study of collective beam instabilities in circular accelerators.Traditionally,many simulation codes have relied on central processing unit(CPU)-based methods,tracking on a single CPU core,or parallelizing the computation across multiple cores via the message passing interface(MPI).Although these approaches work well for single-bunch tracking,scaling them to multiple bunches significantly increases the computational load,which often necessitates the use of a dedicated multi-CPU cluster.To address this challenge,alternative methods leveraging General-Purpose computing on Graphics Processing Units(GPGPU)have been proposed,enabling tracking studies on a standalone desktop personal computer(PC).However,frequent CPU-GPU interactions,including data transfers and synchronization operations during tracking,can introduce communication overheads,potentially reducing the overall effectiveness of GPU-based computations.In this study,we propose a novel approach that eliminates this overhead by performing the entire tracking simulation process exclusively on the GPU,thereby enabling the simultaneous processing of all bunches and their macro-particles.Specifically,we introduce MBTRACK2-CUDA,a Compute Unified Device Architecture(CUDA)ported version of MBTRACK2,which facilitates efficient tracking of single-and multi-bunch collective effects by leveraging the full GPU-resident computation. 展开更多
关键词 Code development gpu computing Collective effects
在线阅读 下载PDF
数字孪生场景中GPU加速与双引擎渲染的水流模拟研究
11
作者 朱沁玲 郝斌 南玥 《水利技术监督》 2026年第5期61-67,共7页
针对水利数字孪生场景中水流模拟效率低、渲染精度不足的问题,提出一种基于GPU加速与双引擎渲染的水流模拟方法。该方法基于浅水波模型构建水流动力学仿真框架,通过GPU并行计算实现水流运动、侵蚀沉积等过程的高效模拟,并采用Cesium与UE... 针对水利数字孪生场景中水流模拟效率低、渲染精度不足的问题,提出一种基于GPU加速与双引擎渲染的水流模拟方法。该方法基于浅水波模型构建水流动力学仿真框架,通过GPU并行计算实现水流运动、侵蚀沉积等过程的高效模拟,并采用Cesium与UE5双引擎协同渲染,兼顾地理空间数据的全局展示与水利场景的高保真细节呈现。实验结果表明,该方法在2048×2048网格规模下的模拟帧率可达59FPS,较CPU实现提速20倍以上,且能保持厘米级渲染精度,为水利数字孪生中的实时决策支持提供了技术支撑。 展开更多
关键词 gpu加速 双引擎渲染 水流模拟 数字孪生 并行计算
在线阅读 下载PDF
CPU与GPU平台下遥感影像JPEG2000解压缩效率提升研究
12
作者 马若琳 李帅 +1 位作者 赵可 公雪霜 《信息技术与信息化》 2026年第1期190-194,共5页
针对JPEG2000因计算复杂度高而制约遥感影像实时解压缩的问题,文章分别在CPU与GPU平台开展解压缩效率优化工作。研究构建了串行、CPU包内并行、CPU组合并行、GPU流水线批处理并行四类实验方案,选取不同数据量、压缩比、分辨率的遥感影... 针对JPEG2000因计算复杂度高而制约遥感影像实时解压缩的问题,文章分别在CPU与GPU平台开展解压缩效率优化工作。研究构建了串行、CPU包内并行、CPU组合并行、GPU流水线批处理并行四类实验方案,选取不同数据量、压缩比、分辨率的遥感影像作为实验对象,从解压缩时间、处理速度、加速比三个维度开展量化评估,以此明确CPU与GPU平台的性能边界。实验结果表明,并行度的深化可显著提升解压缩效率,其中CPU组合并行与GPU流水线批处理两种方案的处理速度均可突破400 Mbit/s。二者效能受数据规模与硬件参数约束,场景差异明显:小数据量时CPU包内并行平衡开销与效率,高计算量任务需CPU组合并行与GPU协同突破瓶颈,I/O占比高的轻量任务更适配CPU优化资源利用,所提出的场景化并行策略,为相关并行方案选型提供参考。 展开更多
关键词 遥感影像 JPEG2000 CPU并行优化 gpu批处理
在线阅读 下载PDF
GPU数据库OLAP优化技术研究 被引量:1
13
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合CPU-gpu平台 gpu加速OLAP OLAP gpu内存 gpu量化处理模型
在线阅读 下载PDF
高性能GPU计算集群应用体系建设 被引量:2
14
作者 杨敏 何芸 +1 位作者 许涛 景少军 《信息系统工程》 2025年第3期102-105,共4页
在长期分析研究高密度数据处理项目作业运行特点的基础上,归纳常规处理和偏移处理两大类应用下,不同处理方法实现模块的资源需求特点及处理员的作业模式,优化组合集群计算、存储、网络三元素技术发展路线及产品性能参数,搭建了硬件架构... 在长期分析研究高密度数据处理项目作业运行特点的基础上,归纳常规处理和偏移处理两大类应用下,不同处理方法实现模块的资源需求特点及处理员的作业模式,优化组合集群计算、存储、网络三元素技术发展路线及产品性能参数,搭建了硬件架构上适用于地震勘探处理应用的高性能GPU计算集群系统。综合应用镜像管理、多种子点分发等多种集群管理及作业调度技术,实现异构集群统一管理及监控,实现油田高性能计算资源共享,高效提升处理生产大规模计算能力,实现绿色高效体系建设。 展开更多
关键词 高性能计算 gpu XCAT 集群管理
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
15
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于GPU加速的三维椭球各向异性介质解耦P波逆时偏移
16
作者 陈娟 黄建平 +2 位作者 吴朦朦 牟阳 王浩坤 《石油物探》 北大核心 2025年第6期1072-1081,共10页
弹性波方程能够较为准确地刻画地震波在实际地层中的运动学和动力学特征,然而,其需要消耗大量的计算时间和占用高额的计算内存。针对弹性波方程求解计算效率低、内存消耗大且纵、横波耦合的问题,从三维VTI介质弹性波方程出发,求解弹性Ch... 弹性波方程能够较为准确地刻画地震波在实际地层中的运动学和动力学特征,然而,其需要消耗大量的计算时间和占用高额的计算内存。针对弹性波方程求解计算效率低、内存消耗大且纵、横波耦合的问题,从三维VTI介质弹性波方程出发,求解弹性Christoffel矩阵特征值,经椭圆近似后推导出椭球各向异性介质解耦P波、SV波和SH波的一阶速度-应力方程。解耦方程正演模拟结果表明,P波、SV波和SH波可以完全解耦且独立传播,适用于弱/强各向异性介质。基于GPU加速技术,实现了一种高效的椭球各向异性介质解耦P波逆时偏移算法。模型试算验证了所提逆时偏移方法在保证成像精度的同时能够显著提升计算效率。 展开更多
关键词 三维逆时偏移 gpu加速 解耦P波 椭球各向异性
在线阅读 下载PDF
CPU+GPU并行加速的星链信号实时高精度频率估计算法
17
作者 代传金 秦培杰 +1 位作者 李林 臧博 《航空学报》 北大核心 2025年第24期215-228,共14页
星链下行信号实时高精度频率估计算法设计与实现是LEO卫星动态机会导航工程应用的关键技术。针对传统极大似然估计、频域滑窗估计及卡尔曼滤波等算法在低信噪比星链信号捕获中鲁棒性差、实时性不足的问题,提出多子载波联合频偏估计(MC-J... 星链下行信号实时高精度频率估计算法设计与实现是LEO卫星动态机会导航工程应用的关键技术。针对传统极大似然估计、频域滑窗估计及卡尔曼滤波等算法在低信噪比星链信号捕获中鲁棒性差、实时性不足的问题,提出多子载波联合频偏估计(MC-JFE)算法,通过深度挖掘信号多子载波结构特征,联合优化载波频率与频率间隔参数,提升频率估计精度与实时性。为突破MC-JFE算法工程应用中密集计算瓶颈,创新构建了一种CPU+GPU异构并行的加速处理架构,通过协同调度CPU逻辑控制与GPU大规模并行计算能力,算法执行效率实现超一个数量级提升。为验证设计算法的理论与技术实现有效性,基于半实物仿真平台生成的星链下行信标数据,开展了5978颗星链卫星信号实时频率估计试验,并结合我国边境地区实测信号进行多普勒估计算法对比研究。结果表明:所提出的MC-JFE算法在−10~10 dB全信噪比范围内保持最低估计误差边界,估计精度提升50%以上(0 dB);通过相位信息融合机制,在部分子载波中断时维持稳定输出;基于CUDA最优线程块配置的CPU+GPU异构架构,加速比峰值达47倍,较传统CPU方案提升2.8倍,且精度与加速比呈正相关特性,为LEO卫星动态机会导航提供了高可靠、强实时的频率估计技术支撑,具有重要工程应用价值。 展开更多
关键词 星链下行信号 高精度频率估计 CPU+gpu异构 并行加速 多线程处理
原文传递
异构CPU-GPU系统机密计算综述
18
作者 郝萌 李佳勇 +1 位作者 杨洪伟 张伟哲 《信息网络安全》 北大核心 2025年第11期1658-1672,共15页
随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为... 随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为保护使用中的数据提供了有效方案,但现有技术主要集中在CPU端。将TEE安全边界无缝扩展至计算引擎核心GPU,已成为当前学术界与工业界关注的焦点。文章对CPU-GPU异构系统中的机密计算技术进行系统性综述。首先,文章回顾了机密计算的基本概念并剖析了针对GPU的典型攻击向量。然后,对现有GPU机密计算方案进行分类,涵盖硬件辅助、软硬件协同及纯软件实现等技术范式。最后,文章总结了该领域面临的关键挑战,并展望了未来研究方向。 展开更多
关键词 机密计算 可信执行环境 异构计算 gpu
在线阅读 下载PDF
基于HTJ2K算法和国产GPU实现的数字电影图像编解码技术研究
19
作者 崔强 《现代电影技术》 2025年第11期7-13,共7页
为满足数字电影对高分辨率、高帧率、高动态范围等技术的发展需求,解决传统JPEG 2000解码速度慢、难以适配国产设备的问题,本文通过算法优化与软硬件协同设计,基于国产GPU及MUSA编程框架,提出了基于CPU/GPU异构协同计算架构的数字电影... 为满足数字电影对高分辨率、高帧率、高动态范围等技术的发展需求,解决传统JPEG 2000解码速度慢、难以适配国产设备的问题,本文通过算法优化与软硬件协同设计,基于国产GPU及MUSA编程框架,提出了基于CPU/GPU异构协同计算架构的数字电影高吞吐量JPEG 2000(HTJ2K)编解码方案,通过离散小波变换(DWT)、量化/反量化及FBCOT算法编解码的并行化实现,结合共享内存优化与数据布局调整,在严格遵循DCI规范的基础上,实现了2K/4K/8K分辨率图像的高效处理。该成果为国产数字电影设备提供了低成本、高效率的图像编解码解决方案,有助于打破国外技术垄断,推动国产LED显示与4K/8K标准的自主发展,对实现中国电影行业全链路技术自主可控具有较大应用价值。 展开更多
关键词 HTJ2K gpu 数字电影 JPEG 2000
在线阅读 下载PDF
联合K-D树和GPU并行运算的CUBE快速滤波方法 被引量:1
20
作者 李枭凯 王力 +2 位作者 李广云 高欣圆 靳海峰 《海洋测绘》 北大核心 2025年第2期14-18,共5页
针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理... 针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理器进行并行处理,从而显著提升了执行速度。实验部分通过比较K-D树与八叉树的索引效率,验证了K-D树在处理大规模点云数据时的优势。将本算法与串行CUBE算法及CARIS HIPS软件的CUBE模块进行对比,结果显示在亿级数据量处理中,滤波速度提高了约13.8倍。此外,本算法在保持数据真实性和去噪效果的前提下,展现了与商业软件相当的处理效率,为多波束测深数据的高效处理提供了有价值的参考。 展开更多
关键词 多波束测深 数据处理 CUBE算法 K-D树 gpu加速
在线阅读 下载PDF
上一页 1 2 238 下一页 到第
使用帮助 返回顶部