期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于SYCL的多相流LBM模拟跨平台异构并行计算研究
被引量:
3
1
作者
丁越
徐传福
+4 位作者
邱昊中
戴未希
汪青松
林拥真
王正华
《计算机科学》
CSCD
北大核心
2023年第11期32-40,共9页
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并...
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理的格子数量以及形状,与基础并行版本相比,在CPU与GPU上分别取得了最高1.57以及1.34的加速比。结果表明,SYCL并行应用在CPU上更适合采用计算到工作项多对一映射的优化方法,在GPU上更适合采用ND-range并行内核,以提高性能。
展开更多
关键词
sycl
格子玻尔兹曼方法
多相流模拟
异构并行计算
跨平台并行编程模型
在线阅读
下载PDF
职称材料
基于异构编程模型的共性算子移植与并行优化
2
作者
马兆佳
邵恩
+1 位作者
狄战元
马立贤
《计算机研究与发展》
北大核心
2025年第4期1017-1032,共16页
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为...
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题.为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台.尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型.因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中.基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法.评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况.结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95%CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平.这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路.
展开更多
关键词
sycl
跨异构体系结构
代码移植
GEMM
并行优化
在线阅读
下载PDF
职称材料
HTR-PM反应堆保护系统工程样机的研制
被引量:
4
3
作者
李铎
熊华胜
+2 位作者
郭超
张良驹
石铭德
《仪器仪表用户》
2013年第5期36-38,共3页
高温气冷堆核电站(HTR-PM)是国家"十一·五"重大专项支持的重点工程,数字化保护系统是HTR-PM重大专项关键技术及相关试验研究项目之一。HTR-PM保护系统工程样机的安全软件生命周期模型选择了典型的"V"字模型,...
高温气冷堆核电站(HTR-PM)是国家"十一·五"重大专项支持的重点工程,数字化保护系统是HTR-PM重大专项关键技术及相关试验研究项目之一。HTR-PM保护系统工程样机的安全软件生命周期模型选择了典型的"V"字模型,样机研制过程中包括计算机系统设计、软件需求、软件设计、软件实现和计算机系统集成等阶段。与安全软件开发相应的是安全软件的验证与确认,对应每个开发步骤有相应的软件验证与确认活动,以保证安全软件开发过程的质量。保护系统工程样机的成功研制将形成拥有自主知识产权的高温气冷堆核电站配套技术。
展开更多
关键词
反应堆保护系统
安全软件
生命周期模型
验证与确认
在线阅读
下载PDF
职称材料
食饵种群具有常数放养的Ⅱ型功能反应捕食系统的定性分析
4
作者
刘平舟
景耀辉
《山西师范大学学报(自然科学版)》
1991年第1期78-78,80,共2页
考虑食饵种群具有常数放养的Holling Ⅱ型功能反应捕食系统 x=(r—bx)x—yφ(x)+k y=y(-d+eφ(x))这里φ(x)=(ax)/(1+ωx)为Holling Ⅱ型功能反应函数,k】0是食饵种群的常数放养率。1 平衡点的性质及其稳定性经无量纲变换,系统(1)
关键词
functional
responce
constant——rate
GRAZING
equalibrium
LIMIT
sycl
e
在线阅读
下载PDF
职称材料
基于异构编程模型的FFT算法实现和优化
5
作者
李亚美
陈莉丽
+1 位作者
王锋
胡畅
《智能安全》
2023年第4期24-34,共11页
FFT(快速傅立叶变换)是一种广泛应用于科学和工程领域的算法,现实应用中数据规模较大,需要高效实现才能满足实际应用需求。为了研究使用异构编程模型高效实现FFT算法,以华为鲲鹏处理器和昇腾AI加速芯片为实验平台,以SYCL语言为异构编程...
FFT(快速傅立叶变换)是一种广泛应用于科学和工程领域的算法,现实应用中数据规模较大,需要高效实现才能满足实际应用需求。为了研究使用异构编程模型高效实现FFT算法,以华为鲲鹏处理器和昇腾AI加速芯片为实验平台,以SYCL语言为异构编程语言,实现了Cooley-Tukey基-2时域抽取FFT算法的方法和优化策略,并且提出了一种数据对切重组优化算法,大幅提高了对硬件并行能力的利用率。使用异构编程模型实现快速傅立叶变换算法可以更好地发挥异构计算设备的性能优势,易于编程且具有更高的兼容性。测试表明,在一定规模下,优化后的算法性能相比于优化前快了220.39倍。
展开更多
关键词
异构计算
sycl
AI芯片加速器
快速傅立叶变换
在线阅读
下载PDF
职称材料
一类n次微分系统的全局分支
被引量:
1
6
作者
胡召平
《上海师范大学学报(自然科学版)》
2008年第4期362-368,共7页
利用已有的关于Lienard系统极限环存在性和唯一、唯二性的诸多结论,结合旋转向量场理论,研究了n次微分系统x.=y,y.=-(hxn-1+δ)y-(xn-x)(h>0)当n为大于1的正整数时极限环的个数及其相互位置,并利用先前的结果作为特例,得到了相当完...
利用已有的关于Lienard系统极限环存在性和唯一、唯二性的诸多结论,结合旋转向量场理论,研究了n次微分系统x.=y,y.=-(hxn-1+δ)y-(xn-x)(h>0)当n为大于1的正整数时极限环的个数及其相互位置,并利用先前的结果作为特例,得到了相当完善的结果.
展开更多
关键词
LIENARD系统
极限环
旋转向量场
在线阅读
下载PDF
职称材料
题名
基于SYCL的多相流LBM模拟跨平台异构并行计算研究
被引量:
3
1
作者
丁越
徐传福
邱昊中
戴未希
汪青松
林拥真
王正华
机构
国防科技大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2023年第11期32-40,共9页
文摘
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理的格子数量以及形状,与基础并行版本相比,在CPU与GPU上分别取得了最高1.57以及1.34的加速比。结果表明,SYCL并行应用在CPU上更适合采用计算到工作项多对一映射的优化方法,在GPU上更适合采用ND-range并行内核,以提高性能。
关键词
sycl
格子玻尔兹曼方法
多相流模拟
异构并行计算
跨平台并行编程模型
Keywords
sycl
Lattice Boltzmann method
Multi-phase flows imulation
Heterogeneous parallel computing
Cross-platform parallel programming model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于异构编程模型的共性算子移植与并行优化
2
作者
马兆佳
邵恩
狄战元
马立贤
机构
处理器芯片全国重点实验室(中国科学院计算技术研究所)
中国科学院大学
中科南京信息高铁研究院
出处
《计算机研究与发展》
北大核心
2025年第4期1017-1032,共16页
基金
国家重点研发计划项目(2021YFB0300202)
国家自然科学基金项目(62102396)
+4 种基金
北京市科技新星计划项目(Z211100002121143,20220484217)
中国科学院青年促进会项目(2021099)
CCF-蚂蚁科研基金项目(CCF-AFSGRF20230207)
天津市科技计划项目(24ZXKJGX00060)
中国科学院计算技术研究所创新课题项目(E461030)。
文摘
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题.为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台.尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型.因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中.基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法.评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况.结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95%CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平.这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路.
关键词
sycl
跨异构体系结构
代码移植
GEMM
并行优化
Keywords
sycl
cross heterogeneous architecture
code migration
GEMM
parallel optimization
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
HTR-PM反应堆保护系统工程样机的研制
被引量:
4
3
作者
李铎
熊华胜
郭超
张良驹
石铭德
机构
清华大学核能与新能源技术研究院
出处
《仪器仪表用户》
2013年第5期36-38,共3页
基金
国家重大科技专项(ZX06901)资助项目
文摘
高温气冷堆核电站(HTR-PM)是国家"十一·五"重大专项支持的重点工程,数字化保护系统是HTR-PM重大专项关键技术及相关试验研究项目之一。HTR-PM保护系统工程样机的安全软件生命周期模型选择了典型的"V"字模型,样机研制过程中包括计算机系统设计、软件需求、软件设计、软件实现和计算机系统集成等阶段。与安全软件开发相应的是安全软件的验证与确认,对应每个开发步骤有相应的软件验证与确认活动,以保证安全软件开发过程的质量。保护系统工程样机的成功研制将形成拥有自主知识产权的高温气冷堆核电站配套技术。
关键词
反应堆保护系统
安全软件
生命周期模型
验证与确认
Keywords
reactor protection system
safety software
life
sycl
e model
verification and validation
分类号
TL36 [核科学技术—核技术及应用]
在线阅读
下载PDF
职称材料
题名
食饵种群具有常数放养的Ⅱ型功能反应捕食系统的定性分析
4
作者
刘平舟
景耀辉
机构
山西师大数学系
临汾地区教育学院
出处
《山西师范大学学报(自然科学版)》
1991年第1期78-78,80,共2页
基金
山西省自然科学基金
文摘
考虑食饵种群具有常数放养的Holling Ⅱ型功能反应捕食系统 x=(r—bx)x—yφ(x)+k y=y(-d+eφ(x))这里φ(x)=(ax)/(1+ωx)为Holling Ⅱ型功能反应函数,k】0是食饵种群的常数放养率。1 平衡点的性质及其稳定性经无量纲变换,系统(1)
关键词
functional
responce
constant——rate
GRAZING
equalibrium
LIMIT
sycl
e
Keywords
functional responce
constant——rate grazing
equalibrium
limit
sycl
e
分类号
N [自然科学总论]
在线阅读
下载PDF
职称材料
题名
基于异构编程模型的FFT算法实现和优化
5
作者
李亚美
陈莉丽
王锋
胡畅
机构
湖南大学信息科学与工程学院
军事科学院国防科技创新研究院
出处
《智能安全》
2023年第4期24-34,共11页
基金
国家重点研发计划项目(2022YFA1004303)。
文摘
FFT(快速傅立叶变换)是一种广泛应用于科学和工程领域的算法,现实应用中数据规模较大,需要高效实现才能满足实际应用需求。为了研究使用异构编程模型高效实现FFT算法,以华为鲲鹏处理器和昇腾AI加速芯片为实验平台,以SYCL语言为异构编程语言,实现了Cooley-Tukey基-2时域抽取FFT算法的方法和优化策略,并且提出了一种数据对切重组优化算法,大幅提高了对硬件并行能力的利用率。使用异构编程模型实现快速傅立叶变换算法可以更好地发挥异构计算设备的性能优势,易于编程且具有更高的兼容性。测试表明,在一定规模下,优化后的算法性能相比于优化前快了220.39倍。
关键词
异构计算
sycl
AI芯片加速器
快速傅立叶变换
Keywords
heterogeneous computing
sycl
AI chip accelerator
fast Fourier transform
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一类n次微分系统的全局分支
被引量:
1
6
作者
胡召平
机构
上海交通大学数学系
出处
《上海师范大学学报(自然科学版)》
2008年第4期362-368,共7页
基金
国家自然科学基金项目(10671127)
文摘
利用已有的关于Lienard系统极限环存在性和唯一、唯二性的诸多结论,结合旋转向量场理论,研究了n次微分系统x.=y,y.=-(hxn-1+δ)y-(xn-x)(h>0)当n为大于1的正整数时极限环的个数及其相互位置,并利用先前的结果作为特例,得到了相当完善的结果.
关键词
LIENARD系统
极限环
旋转向量场
Keywords
lienard system
linit
sycl
e
rotated vector field
分类号
O175.12 [理学—基础数学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于SYCL的多相流LBM模拟跨平台异构并行计算研究
丁越
徐传福
邱昊中
戴未希
汪青松
林拥真
王正华
《计算机科学》
CSCD
北大核心
2023
3
在线阅读
下载PDF
职称材料
2
基于异构编程模型的共性算子移植与并行优化
马兆佳
邵恩
狄战元
马立贤
《计算机研究与发展》
北大核心
2025
0
在线阅读
下载PDF
职称材料
3
HTR-PM反应堆保护系统工程样机的研制
李铎
熊华胜
郭超
张良驹
石铭德
《仪器仪表用户》
2013
4
在线阅读
下载PDF
职称材料
4
食饵种群具有常数放养的Ⅱ型功能反应捕食系统的定性分析
刘平舟
景耀辉
《山西师范大学学报(自然科学版)》
1991
0
在线阅读
下载PDF
职称材料
5
基于异构编程模型的FFT算法实现和优化
李亚美
陈莉丽
王锋
胡畅
《智能安全》
2023
0
在线阅读
下载PDF
职称材料
6
一类n次微分系统的全局分支
胡召平
《上海师范大学学报(自然科学版)》
2008
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部