期刊文献+
共找到4,687篇文章
< 1 2 235 >
每页显示 20 50 100
高性能GPU计算集群应用体系建设 被引量:2
1
作者 杨敏 何芸 +1 位作者 许涛 景少军 《信息系统工程》 2025年第3期102-105,共4页
在长期分析研究高密度数据处理项目作业运行特点的基础上,归纳常规处理和偏移处理两大类应用下,不同处理方法实现模块的资源需求特点及处理员的作业模式,优化组合集群计算、存储、网络三元素技术发展路线及产品性能参数,搭建了硬件架构... 在长期分析研究高密度数据处理项目作业运行特点的基础上,归纳常规处理和偏移处理两大类应用下,不同处理方法实现模块的资源需求特点及处理员的作业模式,优化组合集群计算、存储、网络三元素技术发展路线及产品性能参数,搭建了硬件架构上适用于地震勘探处理应用的高性能GPU计算集群系统。综合应用镜像管理、多种子点分发等多种集群管理及作业调度技术,实现异构集群统一管理及监控,实现油田高性能计算资源共享,高效提升处理生产大规模计算能力,实现绿色高效体系建设。 展开更多
关键词 高性能计算 gpu XCAT 集群管理
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
2
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于GPU加速的三维椭球各向异性介质解耦P波逆时偏移
3
作者 陈娟 黄建平 +2 位作者 吴朦朦 牟阳 王浩坤 《石油物探》 北大核心 2025年第6期1072-1081,共10页
弹性波方程能够较为准确地刻画地震波在实际地层中的运动学和动力学特征,然而,其需要消耗大量的计算时间和占用高额的计算内存。针对弹性波方程求解计算效率低、内存消耗大且纵、横波耦合的问题,从三维VTI介质弹性波方程出发,求解弹性Ch... 弹性波方程能够较为准确地刻画地震波在实际地层中的运动学和动力学特征,然而,其需要消耗大量的计算时间和占用高额的计算内存。针对弹性波方程求解计算效率低、内存消耗大且纵、横波耦合的问题,从三维VTI介质弹性波方程出发,求解弹性Christoffel矩阵特征值,经椭圆近似后推导出椭球各向异性介质解耦P波、SV波和SH波的一阶速度-应力方程。解耦方程正演模拟结果表明,P波、SV波和SH波可以完全解耦且独立传播,适用于弱/强各向异性介质。基于GPU加速技术,实现了一种高效的椭球各向异性介质解耦P波逆时偏移算法。模型试算验证了所提逆时偏移方法在保证成像精度的同时能够显著提升计算效率。 展开更多
关键词 三维逆时偏移 gpu加速 解耦P波 椭球各向异性
在线阅读 下载PDF
异构CPU-GPU系统机密计算综述
4
作者 郝萌 李佳勇 +1 位作者 杨洪伟 张伟哲 《信息网络安全》 北大核心 2025年第11期1658-1672,共15页
随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为... 随着人工智能等数据密集型应用的普及,以CPU与GPU为核心的异构计算系统已成为关键基础设施。然而,在云和边缘等非可信环境中,敏感数据在处理阶段面临着严峻的安全威胁,传统加密方法对此无能为力。机密计算利用硬件可信执行环境(TEE)为保护使用中的数据提供了有效方案,但现有技术主要集中在CPU端。将TEE安全边界无缝扩展至计算引擎核心GPU,已成为当前学术界与工业界关注的焦点。文章对CPU-GPU异构系统中的机密计算技术进行系统性综述。首先,文章回顾了机密计算的基本概念并剖析了针对GPU的典型攻击向量。然后,对现有GPU机密计算方案进行分类,涵盖硬件辅助、软硬件协同及纯软件实现等技术范式。最后,文章总结了该领域面临的关键挑战,并展望了未来研究方向。 展开更多
关键词 机密计算 可信执行环境 异构计算 gpu
在线阅读 下载PDF
基于HTJ2K算法和国产GPU实现的数字电影图像编解码技术研究
5
作者 崔强 《现代电影技术》 2025年第11期7-13,共7页
为满足数字电影对高分辨率、高帧率、高动态范围等技术的发展需求,解决传统JPEG 2000解码速度慢、难以适配国产设备的问题,本文通过算法优化与软硬件协同设计,基于国产GPU及MUSA编程框架,提出了基于CPU/GPU异构协同计算架构的数字电影... 为满足数字电影对高分辨率、高帧率、高动态范围等技术的发展需求,解决传统JPEG 2000解码速度慢、难以适配国产设备的问题,本文通过算法优化与软硬件协同设计,基于国产GPU及MUSA编程框架,提出了基于CPU/GPU异构协同计算架构的数字电影高吞吐量JPEG 2000(HTJ2K)编解码方案,通过离散小波变换(DWT)、量化/反量化及FBCOT算法编解码的并行化实现,结合共享内存优化与数据布局调整,在严格遵循DCI规范的基础上,实现了2K/4K/8K分辨率图像的高效处理。该成果为国产数字电影设备提供了低成本、高效率的图像编解码解决方案,有助于打破国外技术垄断,推动国产LED显示与4K/8K标准的自主发展,对实现中国电影行业全链路技术自主可控具有较大应用价值。 展开更多
关键词 HTJ2K gpu 数字电影 JPEG 2000
在线阅读 下载PDF
星脉网络:面向GPU集群集合通信与集中式路由的协同优化 被引量:1
6
作者 李宝嘉 何春志 +2 位作者 夏寅贲 何泽坤 王晓亮 《中兴通讯技术》 北大核心 2025年第2期3-13,共11页
图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信... 图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信库和网络路由控制器,以实现多路径的高效集合通信。为此,针对星脉网络研发了端侧集合通信库(TCCL)以实现最短的跨节点路径规划,同时还开发了全局优化路由器(GOR)以避免路径冲突导致的网络拥塞。在腾讯大模型GPU集群中,星脉网络方案和公开GPU集群方案(NVIDIA NCCL)的对比结果表明:星脉网络可以实现25%的集合通信带宽提升,同时避免80%的由流量冲突造成的网络拥塞问题。 展开更多
关键词 大规模gpu集群 集合通信 负载均衡
在线阅读 下载PDF
一种基于GPU计算的自适应局部降噪并行算法
7
作者 肖汉 杜莹 +1 位作者 王平 周清雷 《南京师大学报(自然科学版)》 北大核心 2025年第4期139-152,共14页
随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件... 随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件架构特征,研究了自适应局部降噪算法在CPU+GPU异构计算平台上的并行计算和性能优化.实验结果显示,在处理8 182×8 182分辨率的图像时,相比CPU串行计算获得了27.39倍加速比,具有较好的数据扩展性.并行算法充分发挥了GPU的并行处理能力.文中提出的方法对图像处理算法的GPU加速提供了新的研究思路. 展开更多
关键词 自适应滤波器 局部噪声 信噪比 gpu CUDA 并行算法
在线阅读 下载PDF
联合K-D树和GPU并行运算的CUBE快速滤波方法
8
作者 李枭凯 王力 +2 位作者 李广云 高欣圆 靳海峰 《海洋测绘》 北大核心 2025年第2期14-18,共5页
针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理... 针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理器进行并行处理,从而显著提升了执行速度。实验部分通过比较K-D树与八叉树的索引效率,验证了K-D树在处理大规模点云数据时的优势。将本算法与串行CUBE算法及CARIS HIPS软件的CUBE模块进行对比,结果显示在亿级数据量处理中,滤波速度提高了约13.8倍。此外,本算法在保持数据真实性和去噪效果的前提下,展现了与商业软件相当的处理效率,为多波束测深数据的高效处理提供了有价值的参考。 展开更多
关键词 多波束测深 数据处理 CUBE算法 K-D树 gpu加速
在线阅读 下载PDF
面向边缘GPU设备的快速光流估计算法
9
作者 石珂 聂苏珍 +4 位作者 李东兴 曹杰 盛云龙 姚斌 陈泓霖 《应用光学》 北大核心 2025年第2期355-363,共9页
提出了一种适用于边缘GPU设备的光流估计网络,旨在解决稠密光流估计由于巨大计算量而难以在嵌入式系统上部署的问题。首先,针对充分发挥GPU资源的需求,设计了一个高效的特征提取网络,以降低内存访问成本;其次,通过采用扁平形结构的迭代... 提出了一种适用于边缘GPU设备的光流估计网络,旨在解决稠密光流估计由于巨大计算量而难以在嵌入式系统上部署的问题。首先,针对充分发挥GPU资源的需求,设计了一个高效的特征提取网络,以降低内存访问成本;其次,通过采用扁平形结构的迭代更新模块来估计光流,进一步缩小了模型的尺寸,并提升了GPU带宽的利用率。在不同数据集上的实验结果表明,本文模型具备高效的推理能力和出色的光流估计能力。特别地,与目前先进的轻量级模型相比,所提出的模型在仅使用0.54 Mb参数的情况下,误差减少了12.8%,推理速度提升了22.2%,在嵌入式开发板上展现出了令人满意的性能。 展开更多
关键词 光流估计 嵌入式系统 边缘gpu设备 推理速度
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
10
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
面向GPU平台的通用Stencil自动调优框架
11
作者 孙庆骁 杨海龙 《计算机研究与发展》 北大核心 2025年第10期2622-2634,共13页
Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理... Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理和分块的优化技术.由于Stencil计算模式和GPU架构的多样性,没有单一的优化技术适合所有Stencil实例.因此,研究人员提出了Stencil自动调优机制来对给定优化技术组合进行参数搜索.然而,现有机制引入了庞大的离线分析成本和在线预测开销,并且无法灵活地推广到任意Stencil模式.为了解决上述问题,提出了通用Stencil自动调优框架GeST,其在GPU平台上实现Stencil计算的极致性能优化.具体来说,GeST通过零填充格式构建全局搜索空间,利用变异系数量化参数相关性并生成参数组;之后,GeST迭代地从参数组选取参数值,根据奖励策略调整采样比例并通过哈希编码避免冗余执行.实验结果表明,与其他先进的自动调优工作相比,Ge ST能够在短时间内识别出性能更优的参数设置. 展开更多
关键词 Stencil计算 gpu 自动调优 性能优化 参数搜索
在线阅读 下载PDF
Canny-Devernay亚像素边缘检测GPU加速算法研究
12
作者 张喜民 詹海生 《仪表技术与传感器》 北大核心 2025年第9期113-119,共7页
针对基于CPU的边缘检测算法精度低、处理时间长的问题,采用CUDA核心优化配置、GPU存储访问优化技术和改进轮廓生成方法,设计了基于GPU的Canny-Devernay亚像素边缘检测加速算法。应用Nvidia GeForce RTX 3080高性能显卡等构建了机器视觉... 针对基于CPU的边缘检测算法精度低、处理时间长的问题,采用CUDA核心优化配置、GPU存储访问优化技术和改进轮廓生成方法,设计了基于GPU的Canny-Devernay亚像素边缘检测加速算法。应用Nvidia GeForce RTX 3080高性能显卡等构建了机器视觉实验系统并对算法进行验证。实验结果表明:文中提出的算法对1296像素×964像素高清图像的边缘检测计算平均耗时小于12 ms,与基于CPU的算法相比,检测的边缘更完整、准确、贴近真实边缘,对512像素×512像素以上像素图像的边缘检测计算加速比超过20倍。 展开更多
关键词 边缘检测 亚像素 Canny-Devernay算法 并行加速 gpu
在线阅读 下载PDF
利用CPU和GPU混合并行方法快速构建海洋扰动重力梯度基准图
13
作者 黄炎 李姗姗 +3 位作者 吕明昊 范雕 谭勖立 冯进凯 《武汉大学学报(信息科学版)》 北大核心 2025年第3期515-527,共13页
高精度、高分辨率的海洋扰动重力梯度基准图是将水下扰动重力梯度辅助惯性导航付诸于实践的关键技术之一,可依据边值问题理论,基于移去-恢复技术计算求得。基于传统串行算法存在计算效率低、耗时长等问题,为满足大范围乃至全球海洋扰动... 高精度、高分辨率的海洋扰动重力梯度基准图是将水下扰动重力梯度辅助惯性导航付诸于实践的关键技术之一,可依据边值问题理论,基于移去-恢复技术计算求得。基于传统串行算法存在计算效率低、耗时长等问题,为满足大范围乃至全球海洋扰动重力梯度基准图的快速构建需求,利用中央处理器(central processing unit,CPU)与图形处理器(graph processing unit,GPU)混合并行(CPU+GPU)编程平台,设计了一种高效的混合并行计算方案。首先,利用数组收缩膨胀方法,有效解决了CPU进行勒让德函数递推计算过程中内存读写冲突问题;然后,引入Hilbert空间填充曲线,将二维格网重力异常数据降维成为具有高度聚簇性的一维数组,通过其在GPU显存中的快速索引,实现了Stokes积分的高效计算。在CPU型号为Intel Xeon(R)Gold 6130、GPU型号为Tesla V100的计算机上进行实验,利用该混合并行方案计算6°×6°范围、1′分辨率的全张量海洋扰动重力梯度基准图仅需15.84 s,而传统串行方法需要35 min以上;计算2°×2°范围、30″分辨率基准图仅需22.7 s,串行方法则需要52 min;计算2°×2°范围、10″分辨率基准图需要26.7 min,串行方法则需要两天以上。在保证并行计算绝对误差小于等于1×10^(-6) E、T_(xx)+T_(yy)+T_(zz)绝对值的最大值小于0.1 E、均方根误差小于0.01 E的前提下,实现了全球全张量海洋扰动重力梯度基准图模型的快速构建。 展开更多
关键词 扰动重力梯度 边值问题 CPU gpu 混合并行
原文传递
GPU上基于环展开的RTL模拟加速技术研究
14
作者 田茜 李暾 +2 位作者 程悦 皮彦 邹鸿基 《计算机工程与科学》 北大核心 2025年第2期191-199,共9页
随着开源和敏捷硬件设计方法学的发展,为其提供高效的RTL模拟支持变得日益重要。GPU的并行能力使得利用RTL模拟的结构级和激励级并行性加速RTL模拟成为可能。然而,由于时序设计中存在反馈环,如何实现单个Testbench内的数据级并行仍然是... 随着开源和敏捷硬件设计方法学的发展,为其提供高效的RTL模拟支持变得日益重要。GPU的并行能力使得利用RTL模拟的结构级和激励级并行性加速RTL模拟成为可能。然而,由于时序设计中存在反馈环,如何实现单个Testbench内的数据级并行仍然是一个很大的挑战。提出了一种新的利用GPU加速RTL模拟的方法,该方法的核心技术是RTL设计中反馈环的识别与展开,以及基于此的RTL电路划分技术。电路划分和环展开从单个Testbench内的结构并行和数据并行2个方面,发挥了基于GPU的并行能力来加速RTL模拟。实验结果表明,所提出的GPU加速RTL模拟方法,相比传统的基于GPU的RTL模拟方法得到了1.2~107.1倍的加速,相比目前最快的RTL模拟器ESSENT得到了2.2~14倍的加速。 展开更多
关键词 RTL模拟 gpu加速 PyRTL 硬件构造语言 环展开
在线阅读 下载PDF
复杂地质条件的间断有限元地震波数值模拟及GPU加速
15
作者 韩德超 刘卫华 +2 位作者 张春丽 袁媛 白鹏 《石油物探》 北大核心 2025年第4期639-652,共14页
间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质... 间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质波动方程模拟的DGFEM编程计算矩阵,并进一步得出了适用于各类复杂介质模拟的单一波场分量的通用计算格式。该通用计算格式能够有效提升DGFEM算法编程的可拓展性。基于该格式给出了DGFEM的通用CUDA核函数的构建方法,并形成CPU+GPU的二维DGFEM并行计算程序框架。通用CUDA核函数可以将DGFEM算法进一步延伸到更加复杂的介质以及三维情况。理论模型和复杂山地模型的数值实验结果表明,构建的通用计算格式和CUDA核函数可以准确模拟声波、弹性波、粘弹性波、孔隙弹性波方程描述的纵波、横波以及慢纵波等波现象。相比单核CPU模拟,二维DGFEM弹性波GPU计算加速比平均在100倍左右。同时,弹性波、粘弹性波、孔隙弹性波模拟耗时约为声波模拟的1.7,2.3,3.0倍。此结果可以指导复杂介质耦合条件模拟时多进程的负载平衡。 展开更多
关键词 间断Galerkin有限元方法 弹性波 粘弹性波 孔隙弹性波 数值模拟 gpu并行计算.
在线阅读 下载PDF
基于GPU加速的空间平滑多重信号分类算法实现
16
作者 周邦建 徐飞 王谦 《火控雷达技术》 2025年第1期109-112,共4页
空间平滑MUSIC算法作为一种超分辨测角算法,可以极大地提高雷达的角度分辨能力,对解决低空目标的多径反射及密集型目标分辨探测等问题具有重要的实用价值[1]。然而该算法中涉及大量的矩阵运算,计算复杂度高,数据运算量大,在传统DSP、FPG... 空间平滑MUSIC算法作为一种超分辨测角算法,可以极大地提高雷达的角度分辨能力,对解决低空目标的多径反射及密集型目标分辨探测等问题具有重要的实用价值[1]。然而该算法中涉及大量的矩阵运算,计算复杂度高,数据运算量大,在传统DSP、FPGA等硬件平台开发中存在计算资源紧张、程序设计困难等问题。本文基于CPU+GPU的异构平台,采用GPU并行处理的特点,完成对空间平滑MUSIC算法的实现,对大规模阵元数据测角处理具有较高的可靠性和实时性能力。 展开更多
关键词 空间平滑MUSIC gpu 工程实现
在线阅读 下载PDF
融合图Transformer和Vina-GPU+的多模态虚拟筛选新方法
17
作者 张豪 张堃然 +2 位作者 阮晓东 沐勇 吴建盛 《南京大学学报(自然科学版)》 北大核心 2025年第1期83-93,共11页
现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和6... 现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和65.6倍的加速.近年来,大规模预训练模型在自然语言处理和计算机视觉领域取得了巨大成功,这种范式对解决虚拟筛选面临的重大挑战也具有巨大潜力.因此,提出一种多模态虚拟筛选新方法Vina-GPU GT,结合了Vina-GPU+分子对接技术和预训练的Graph Transformer(GT)模型,以实现快速精确的虚拟筛选.该方法包括三个连续步骤:(1)通过对已有分子属性预测的预训练GT模型进行知识蒸馏,学到一个小的SMILES Transformer(ST)模型;(2)通过ST模型推理化合物库中所有分子,并根据主动学习规则微调ST模型;(3)利用微调后的ST模型进行虚拟筛选.在三个重要靶点和两个化合物库上进行了虚拟筛选实验,并与两种虚拟筛选方法进行了比较,结果表明,Vina-GPU GT的虚拟筛选性能最优. 展开更多
关键词 虚拟筛选 Graph Transformer Vina-gpu+ 多模态 知识蒸馏 主动学习
在线阅读 下载PDF
基于NVIDIA GPU的高轨SAR快速BP算法子孔径成像CUDA设计与实现
18
作者 雷苏力 苏翔 +3 位作者 杨娟娟 高阳 向天舜 党红杏 《空间电子技术》 2025年第3期54-59,共6页
后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFB... 后向投影(BP)成像算法是经典的合成孔径雷达(SAR)时域成像算法,其能够适应长合成孔径时间、大幅宽、弯曲轨迹和超大数据量的星载SAR成像。改进的快速BP算法(FFBP)应用BP算法对SAR回波进行子孔径成像,能有效降低算法运算量。即便如此,FFBP算法的巨大的运算量仍然在工程中难以满足时效性需求,文章使用图形处理器(GPU)作为CPU的协处理器,提出基于FFBP算法的子孔径(CUDA)实现方案,使用流实现回波数据分块传输延迟隐藏的同时避免了高频次切换进程,另外设计超细颗粒度线程,实现子孔径FFBP算法成像的GPU大规模并发。经验证,使用该CUDA解决方案完成高轨SAR卫星FFBP子孔径成像时,设备的执行效率大于90%,相较于CPU 32线程并发程序具有120倍加速比。 展开更多
关键词 高轨SAR 快速后向投影(FFBP)成像算法 图形处理器(gpu)
在线阅读 下载PDF
基于GPU加速的虚拟现实场景实时渲染优化方法 被引量:2
19
作者 王智杰 《中国新技术新产品》 2025年第8期34-36,共3页
针对虚拟现实场景渲染中存在的性能瓶颈问题,本文提出一套基于GPU加速的实时渲染优化方案。设计了分层渲染系统架构,采用多级LOD模型管理与CUDA并行光线追踪算法,构建混合渲染管线。结果表明,当分辨率为1832ppi×1920ppi时,平均帧... 针对虚拟现实场景渲染中存在的性能瓶颈问题,本文提出一套基于GPU加速的实时渲染优化方案。设计了分层渲染系统架构,采用多级LOD模型管理与CUDA并行光线追踪算法,构建混合渲染管线。结果表明,当分辨率为1832ppi×1920ppi时,平均帧时间为8.2ms,GPU利用率为92%,比传统延迟着色(11.5ms)提升28.7%。室内场景SSI为0.92,LOD切换延迟0.3ms,可支持16个并发用户,实现了高性能与高质量的平衡。 展开更多
关键词 gpu加速 实时渲染 虚拟现实 混合渲染管线 CUDA并行计算
在线阅读 下载PDF
一种基于GPU加速的非小细胞肺癌分型框架
20
作者 韩鑫胤 韩子栋 +2 位作者 冀德韬 李晨 陆忠华 《数据与计算发展前沿(中英文)》 2025年第3期149-161,共13页
【目的】本研究基于Morphgene框架,优化其计算性能,以解决非小细胞肺癌(Non-small-cellLung Cancer,NSCLC)分型过程中大规模病理图像与多组学数据处理效率低下的问题。【方法】通过CPU线程池调度、张量计算与深度学习推理优化技术,对框... 【目的】本研究基于Morphgene框架,优化其计算性能,以解决非小细胞肺癌(Non-small-cellLung Cancer,NSCLC)分型过程中大规模病理图像与多组学数据处理效率低下的问题。【方法】通过CPU线程池调度、张量计算与深度学习推理优化技术,对框架的病理图像子块处理、特征提取以及K-means聚类模块进行全面优化。实验采用TCGA数据库的NSCLC样本,验证了优化效果和分型性能。【结果】优化后的框架在大规模数据处理中实现了67.81倍以上的加速比,并保证了分型准确性。优化后的框架成功识别出多个与患者预后相关的亚型,为个性化治疗和生存预测提供了重要支持。【局限】当前优化方案针对特定文件格式和子块尺寸,尚需进一步研究以适应更小文件或更大子块的处理需求。【结论】GPU加速策略显著提升了Morphgene框架的计算效率,为精准医学中的NSCLC亚型分类提供了强有力支持。未来将重点优化其多模态数据融合和广泛适应性,以拓展临床应用场景。 展开更多
关键词 gpu 非小细胞肺癌 多组学数据融合 病理图像分析 精准医学
暂未订购
上一页 1 2 235 下一页 到第
使用帮助 返回顶部