期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于SYCL的多相流LBM模拟跨平台异构并行计算研究 被引量:3
1
作者 丁越 徐传福 +4 位作者 邱昊中 戴未希 汪青松 林拥真 王正华 《计算机科学》 CSCD 北大核心 2023年第11期32-40,共9页
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并... 异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理的格子数量以及形状,与基础并行版本相比,在CPU与GPU上分别取得了最高1.57以及1.34的加速比。结果表明,SYCL并行应用在CPU上更适合采用计算到工作项多对一映射的优化方法,在GPU上更适合采用ND-range并行内核,以提高性能。 展开更多
关键词 sycl 格子玻尔兹曼方法 多相流模拟 异构并行计算 跨平台并行编程模型
在线阅读 下载PDF
SuCL:supply unified communication layer to improve SYCL‑based heterogeneous computing
2
作者 Hengzhong Liang Han Huang Xianwei Zhang 《CCF Transactions on High Performance Computing》 2025年第3期211-225,共15页
Supercomputers and data centers are continuously developing on scales and capabilities to empower scientific and intelligent applications.As the de facto standard to offer dense computation,various accelerators like G... Supercomputers and data centers are continuously developing on scales and capabilities to empower scientific and intelligent applications.As the de facto standard to offer dense computation,various accelerators like GPUs have been widely deployed,which inevitably incurs the heterogeneous programming and usage issues.Targeting at addressing the issues,SYCL has been proposed to facilitate programs to run on different platforms based on varying accelerators and vendors.However,SYCL has a limited functionality to conduct communication between devices,so SYCL resorts to MPI or vendor-specific communication libraries,neither of which could fulfill the demand of portability and performance for SYCL programs at the same time.To overcome the dilemma of portability and performance,we propose SuCL,a communication-specific library and framework which provides an abstraction layer atop of various programming models.SuCL provides unified communication APIs for upper SYCL programs,and leverages vendor-optimized communication libraries to improve performance.To ensure program functionality,SuCL introduces selection mechanism to help selecting proper communication libraries for SYCL programs at runtime.SuCL also utilizes additional SYCL features to improve performance and programming easiness.Experiments on different platforms show that SuCL outperforms MPI in micro-benchmarks significantly,and in application evaluations SuCL is capable to produce speedups up to 60%and 30%on NVIDIA platform and AMD platform respectively. 展开更多
关键词 Heterogeneous sycl Portability MPI NCCL
在线阅读 下载PDF
SYCL-MLU:unifying SIMT and SIMD in heterogeneous programming
3
作者 Runyu Zhou Yijin Li +4 位作者 Jiacheng Zhao Ziyang Wang En Shao Ziyan Xie Huimin Cui 《CCF Transactions on High Performance Computing》 2026年第1期94-106,共13页
With the rapid advancement of artificial intelligence and high-performance computing,heterogeneous computing platforms have evolved to encompass increasingly diverse architectures.While SYCL,an open standard for heter... With the rapid advancement of artificial intelligence and high-performance computing,heterogeneous computing platforms have evolved to encompass increasingly diverse architectures.While SYCL,an open standard for heterogeneous programming,has gained widespread adoption,its mainstream implementations(such as DPC++and AdaptiveCpp)primarily target SIMT-architecture devices like GPUs,presenting substantial challenges when adapting to specialized accelerators such as the Cambricon MLU,which employs a fundamentally different SIMD execution model.This cross-programming-model extension encounters two critical challenges:(1)bridging the programming abstraction gap between SIMT’s thread-level parallelism and SIMD’s data-level parallelism;and(2)harmonizing SYCL’s unified memory model with device-specific memory architectures.This paper proposes a novel cross-programming-model SYCL extension methodology to achieve full SYCL support for SIMD architectures,demonstrated through a comprehensive implementation for the Cambricon MLU platform.Our approach introduces MLU-specific vector programming interfaces while maintaining compatibility with the SYCL standard,enabling seamless integration of SIMD-based accelerators into the SYCL ecosystem.To validate our methodology,we integrated the extended SYCL-MLU implementation into PaddlePaddle’s CINN compiler,achieving a geometric mean performance improvement of 9.14%across representative neural networks,including ResNet,YOLOv3,and BERT.This research significantly broadens the application scope of SYCL in heterogeneous programming and provides a systematic methodology for extending SYCL to other SIMD-based hardware platforms. 展开更多
关键词 High performance computing Heterogeneous programming sycl MLU CINN PaddlePaddle
在线阅读 下载PDF
基于异构编程模型的共性算子移植与并行优化
4
作者 马兆佳 邵恩 +1 位作者 狄战元 马立贤 《计算机研究与发展》 北大核心 2025年第4期1017-1032,共16页
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为... GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题.为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台.尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型.因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中.基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法.评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况.结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95%CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平.这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路. 展开更多
关键词 sycl 跨异构体系结构 代码移植 GEMM 并行优化
在线阅读 下载PDF
An empirical performance evaluation of SYCL on ARM multi-core processors
5
作者 Hanzheng Liang Chencheng Deng +3 位作者 Peng Zhang Jianbin Fang Tao Tang Chun Huang 《CCF Transactions on High Performance Computing》 2025年第1期1-16,共16页
SYCL is a modern royalty-free heterogeneous programming specification maintained by the Khronos Group.Recently,it has become increasingly more prevalent and matured,leading to various assessments of its performance,po... SYCL is a modern royalty-free heterogeneous programming specification maintained by the Khronos Group.Recently,it has become increasingly more prevalent and matured,leading to various assessments of its performance,portability,and programmability.While previous evaluations have mainly focused on X86 CPUs,NVIDIA GPUs,and AMD GPUs,how well SYCL performs on ARM multi-core CPUs is still unknown.In this paper,we evaluate three SYCL implementations(i.e.,DPCPP,AdaptiveCPP,and MLIR-SYCL)on ARM multi-core CPUs,to uncover performance traps and offer optimization techniques.We use the SYCL-Bench benchmark suite to assess the performance of DPCPP,AdaptiveCPP,and MLIR-SYCL against their OpenMP counterparts.We also assess the compiler and runtime overhead to evaluate the usability and productivity of the SYCL implementations.Our empirical results demonstrate that these SYCL implementations can achieve satisfactory performance on ARM multi-core processors.Additionally,we highlight several key optimizations,such as NUMA management,which must be carefully addressed to enhance performance. 展开更多
关键词 Parallel programming models sycl ARM CPUs Performance evaluation
在线阅读 下载PDF
HTR-PM反应堆保护系统工程样机的研制 被引量:4
6
作者 李铎 熊华胜 +2 位作者 郭超 张良驹 石铭德 《仪器仪表用户》 2013年第5期36-38,共3页
高温气冷堆核电站(HTR-PM)是国家"十一·五"重大专项支持的重点工程,数字化保护系统是HTR-PM重大专项关键技术及相关试验研究项目之一。HTR-PM保护系统工程样机的安全软件生命周期模型选择了典型的"V"字模型,... 高温气冷堆核电站(HTR-PM)是国家"十一·五"重大专项支持的重点工程,数字化保护系统是HTR-PM重大专项关键技术及相关试验研究项目之一。HTR-PM保护系统工程样机的安全软件生命周期模型选择了典型的"V"字模型,样机研制过程中包括计算机系统设计、软件需求、软件设计、软件实现和计算机系统集成等阶段。与安全软件开发相应的是安全软件的验证与确认,对应每个开发步骤有相应的软件验证与确认活动,以保证安全软件开发过程的质量。保护系统工程样机的成功研制将形成拥有自主知识产权的高温气冷堆核电站配套技术。 展开更多
关键词 反应堆保护系统 安全软件 生命周期模型 验证与确认
在线阅读 下载PDF
基于异构编程模型的FFT算法实现和优化 被引量:1
7
作者 李亚美 陈莉丽 +1 位作者 王锋 胡畅 《智能安全》 2023年第4期24-34,共11页
FFT(快速傅立叶变换)是一种广泛应用于科学和工程领域的算法,现实应用中数据规模较大,需要高效实现才能满足实际应用需求。为了研究使用异构编程模型高效实现FFT算法,以华为鲲鹏处理器和昇腾AI加速芯片为实验平台,以SYCL语言为异构编程... FFT(快速傅立叶变换)是一种广泛应用于科学和工程领域的算法,现实应用中数据规模较大,需要高效实现才能满足实际应用需求。为了研究使用异构编程模型高效实现FFT算法,以华为鲲鹏处理器和昇腾AI加速芯片为实验平台,以SYCL语言为异构编程语言,实现了Cooley-Tukey基-2时域抽取FFT算法的方法和优化策略,并且提出了一种数据对切重组优化算法,大幅提高了对硬件并行能力的利用率。使用异构编程模型实现快速傅立叶变换算法可以更好地发挥异构计算设备的性能优势,易于编程且具有更高的兼容性。测试表明,在一定规模下,优化后的算法性能相比于优化前快了220.39倍。 展开更多
关键词 异构计算 sycl AI芯片加速器 快速傅立叶变换
在线阅读 下载PDF
食饵种群具有常数放养的Ⅱ型功能反应捕食系统的定性分析
8
作者 刘平舟 景耀辉 《山西师范大学学报(自然科学版)》 1991年第1期78-78,80,共2页
考虑食饵种群具有常数放养的Holling Ⅱ型功能反应捕食系统 x=(r—bx)x—yφ(x)+k y=y(-d+eφ(x))这里φ(x)=(ax)/(1+ωx)为Holling Ⅱ型功能反应函数,k】0是食饵种群的常数放养率。1 平衡点的性质及其稳定性经无量纲变换,系统(1)
关键词 functional responce constant——rate GRAZING equalibrium LIMIT sycle
在线阅读 下载PDF
一类n次微分系统的全局分支 被引量:1
9
作者 胡召平 《上海师范大学学报(自然科学版)》 2008年第4期362-368,共7页
利用已有的关于Lienard系统极限环存在性和唯一、唯二性的诸多结论,结合旋转向量场理论,研究了n次微分系统x.=y,y.=-(hxn-1+δ)y-(xn-x)(h>0)当n为大于1的正整数时极限环的个数及其相互位置,并利用先前的结果作为特例,得到了相当完... 利用已有的关于Lienard系统极限环存在性和唯一、唯二性的诸多结论,结合旋转向量场理论,研究了n次微分系统x.=y,y.=-(hxn-1+δ)y-(xn-x)(h>0)当n为大于1的正整数时极限环的个数及其相互位置,并利用先前的结果作为特例,得到了相当完善的结果. 展开更多
关键词 LIENARD系统 极限环 旋转向量场
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部