期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于异构编程模型的共性算子移植与并行优化
1
作者 马兆佳 邵恩 +1 位作者 狄战元 马立贤 《计算机研究与发展》 北大核心 2025年第4期1017-1032,共16页
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为... GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题.为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台.尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型.因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中.基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法.评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况.结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95%CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平.这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路. 展开更多
关键词 SYCL 跨异构体系结构 代码移植 GEMM 并行优化
在线阅读 下载PDF
碳中和目标下减污降碳协同发展与人体健康风险的关系
2
作者 李建秀 许泽坤 +7 位作者 卢静 赵云皓 汤智 赵天慧 方梦园 罗荣昌 赵晓丽 吴丰昌 《环境卫生学杂志》 2025年第9期792-801,共10页
目的探究中国近年来碳排放与大气污染物排放的耦合协调度及影响因素,评估减污降碳政策下我国因细颗粒物(fine particulate matter,PM_(2.5))长期暴露导致的死亡负担。方法基于耦合协调度模型(coupling coordination degree model)和面... 目的探究中国近年来碳排放与大气污染物排放的耦合协调度及影响因素,评估减污降碳政策下我国因细颗粒物(fine particulate matter,PM_(2.5))长期暴露导致的死亡负担。方法基于耦合协调度模型(coupling coordination degree model)和面板回归模型探究我国碳排放量与大气污染物时空分布、耦合协调度以及影响因素,利用全球暴露-死亡模型(global exposure mortality model,GEMM)评估2014—2019年我国因PM_(2.5)长期暴露导致的5种主要疾病(缺血性心脏病、中风、慢性阻塞性肺病、肺癌和下呼吸道感染)过早死亡人数。结果2006—2020年我国大气污染物排放总量逐年下降,而碳排放量尽管增速放缓,仍呈现上升趋势。我国减污降碳协同治理水平正在提升,但区域间耦合协调水平差异明显;能源消费结构、人均GDP和交通运输结构是影响我国减污降碳耦合协调度的关键因素。2014—2019年我国归因于PM_(2.5)长期暴露导致的年平均过早死亡人数为137.86(95%CI:119.72~157.40)万人,其中缺血性心脏病、慢性阻塞性肺病和中风是主要疾病负担,分别占43.1%、20.1%和19.0%。结论减污降碳政策在环境治理方面取得了显著成效,但区域间发展仍不均衡,对人体健康的协同效应尚需进一步强化。未来应进一步优化政策设计,不仅要缩小区域差异,还应更加注重将减污降碳与人体健康的协同关系纳入治理框架。 展开更多
关键词 减污降碳 耦合度 细颗粒物(PM_(2.5)) 全球暴露-死亡模型(GEMM)
暂未订购
基于申威1600的3级BLAS GEMM函数优化 被引量:12
3
作者 刘昊 刘芳芳 +2 位作者 张鹏 杨超 蒋丽娟 《计算机系统应用》 2016年第12期234-239,共6页
BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指... BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库Goto BLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍. 展开更多
关键词 申威1600 三级BLAS GEMM 高性能计算 多核
在线阅读 下载PDF
数值软件自适应性能优化搜索过程评价技术研究 被引量:2
4
作者 孙相征 张云泉 +1 位作者 王宣强 王磊 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期679-686,共8页
随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高... 随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高性能数学软件包(SANS)如FFTW,ATLAS,PHiPAC,OSKI等,可有效解决前两种方法存在的问题,降低开发成本,提高软件可移植性.针对自适应性能优化技术中,优化参数搜索过程十分耗时的问题,提出对优化搜索过程的评价指标Pt,并给出用此指标控制优化搜索过程的方法.实验表明运用该指标可以在较短的时间内得到一个合理的性能值. 展开更多
关键词 自适应 优化过程评价指标 优化参数 性能跟踪 ATLAS GEMM
在线阅读 下载PDF
2013~2020年甘肃省PM_(2.5)健康负担的时空变化趋势及驱动力 被引量:3
5
作者 廖琴 李勇 陶燕 《环境科学》 EI CAS CSCD 北大核心 2024年第7期3893-3902,共10页
为评估大气污染防治行动计划以来,甘肃省PM_(2.5)相关健康影响的时空变化趋势及其驱动因素,应用最新的全球暴露死亡模型(GEMM)估算了2013~2020年甘肃省归因于PM_(2.5)的健康负担,并通过因素分解法进一步探讨了PM_(2.5)归因死亡长期变化... 为评估大气污染防治行动计划以来,甘肃省PM_(2.5)相关健康影响的时空变化趋势及其驱动因素,应用最新的全球暴露死亡模型(GEMM)估算了2013~2020年甘肃省归因于PM_(2.5)的健康负担,并通过因素分解法进一步探讨了PM_(2.5)归因死亡长期变化的主要原因.结果表明,2013~2020年,甘肃省人口加权PM_(2.5)浓度下降了34.57%,暴露于PM_(2.5)年均浓度超过35μg·m^(-3)的人口比例从72.89%大幅下降至11.61%.研究期间,甘肃省PM_(2.5)归因死亡人数从12 826(95%CI:7 840~17 408)人下降至9 814(95%CI:6 407~13 036)人,下降了23.48%;其中,缺血性心脏病的归因死亡人数有所增加(12.11%),而中风、慢性阻塞性肺病、肺癌和下呼吸道感染的归因死亡人数呈下降趋势;60岁及以上人群的归因死亡人数占80%以上;中东部地区的PM_(2.5)归因死亡人数显著高于河西地区,且大部分地区呈下降趋势;人口规模、年龄结构、基线死亡率和PM_(2.5)浓度在归因死亡人数变化中的贡献分别为-1.26%、16.16%、-9.84%和-28.55%,人口老龄化和PM_(2.5)浓度降低是PM_(2.5)归因死亡增加和减少的主要因素.甘肃省积极的清洁空气政策减轻了PM_(2.5)污染造成的健康负担,但在人口老龄化加剧的趋势下,未来需要大幅降低PM_(2.5)浓度才能避免更多的归因死亡. 展开更多
关键词 PM_(2.5) 过早死亡 GEMM模型 驱动因素 健康效益
原文传递
预测肿瘤药物临床试验效果的动物模型新进展 被引量:1
6
作者 余飞 丁慧 《中国比较医学杂志》 CAS 北大核心 2015年第6期65-69,70,共6页
基于人体试验的实际应用及伦理方面的考虑,合适的动物模型对于肿瘤药物研发至关重要。制药公司和研究机构在肿瘤治疗新药的开发过程中消耗大量资源,最佳动物体内模型的选择可以改进或缩短研发进程。在技术复杂性方面,肿瘤遗传工程小鼠模... 基于人体试验的实际应用及伦理方面的考虑,合适的动物模型对于肿瘤药物研发至关重要。制药公司和研究机构在肿瘤治疗新药的开发过程中消耗大量资源,最佳动物体内模型的选择可以改进或缩短研发进程。在技术复杂性方面,肿瘤遗传工程小鼠模型(GEMM)已逐步完善,并且GEMM能够准确重建人类肿瘤的同源发生,为加快肿瘤药物的开发提供机遇。本文主要综合比较预测肿瘤药物临床试验效果的不同类型动物模型,探讨其优劣,并对体内模型的评估方法及与临床转化等进行简述,为肿瘤药物临床前试验提供参考。 展开更多
关键词 抗肿瘤药物 模型 动物 GEMM 临床转化
暂未订购
环二鸟苷酸(c-di-GMP)在微生物体内的作用及其类似物的研究 被引量:5
7
作者 那路新 杨振军 《药学学报》 CAS CSCD 北大核心 2012年第3期307-312,258,共6页
环二鸟苷酸(cyclic diguanylate,c-di-GMP)是在细菌中普遍存在的第二信使分子,参与调节多种生理功能,包括细胞分化、生物被膜形成、致病因子产生等。细菌细胞内c-di-GMP合成与降解代谢分别受二鸟苷酸环化酶(diguanylate cyclase,DGC)和... 环二鸟苷酸(cyclic diguanylate,c-di-GMP)是在细菌中普遍存在的第二信使分子,参与调节多种生理功能,包括细胞分化、生物被膜形成、致病因子产生等。细菌细胞内c-di-GMP合成与降解代谢分别受二鸟苷酸环化酶(diguanylate cyclase,DGC)和磷酸二酯酶(phosphodiesterase,PDE)调控,DGC和PDE共处于同一个蛋白中,是一个双功能蛋白酶的两个区域,分别负责菌体内c-di-GMP的合成和降解。c-di-GMP作用菌体内下游靶点包括PilZ结构域和GEMM核开关两种类型。目前发现c-di-GMP核开关是唯一不参与代谢活动而参与信号传导的一类核开关。本文综述了c-di-GMP的代谢途径、调控机制、生物学功能,以及c-di-GMP结构类似物合成及生物学评价等方面的最新研究进展。 展开更多
关键词 环二鸟苷酸 C-DI-GMP 细菌信号传导 代谢酶 GEMM核开关
原文传递
珠三角地区PM_(2.5)浓度估算及其健康效应评估 被引量:14
8
作者 蔡清楠 车扬子 +4 位作者 孙凌瑜 田佳欣 房德琳 陈彬 罗明 《生态学报》 CAS CSCD 北大核心 2021年第22期8977-8990,共14页
快速的社会经济发展导致城市出现以PM_(2.5)为首要污染物的空气污染问题,PM_(2.5)污染严重危害人群健康。因此,厘清PM_(2.5)时空分布特征并估算其带来的健康影响,对于PM_(2.5)的区域联防联控具有重要意义。现有研究中,为弥补地面监测数... 快速的社会经济发展导致城市出现以PM_(2.5)为首要污染物的空气污染问题,PM_(2.5)污染严重危害人群健康。因此,厘清PM_(2.5)时空分布特征并估算其带来的健康影响,对于PM_(2.5)的区域联防联控具有重要意义。现有研究中,为弥补地面监测数据的不足,借助机器学习算法估算PM_(2.5)浓度成为研究热点,此外,基于流行病学研究结果的健康效应模型也被广泛用于评估PM_(2.5)健康影响的研究中。利用珠江三角洲地区2014-2018年56个空气质量监测站的PM_(2.5)实时监测数据、气象数据、社会经济数据和归一化植被指数,构建随机森林模型,多要素联合估算2000-2018年监测站点的PM_(2.5)浓度,并采用克里金插值方法获得PM_(2.5)浓度的空间分布,在此基础上应用全球暴露死亡(GEMM)模型,评估珠三角地区的PM_(2.5)健康效应。结果表明:(1)2000-2018年期间,珠三角地区的PM_(2.5)算术年均浓度维持在35μg/m^(3)左右,呈现"西北-东南"递减空间分异;降水量、温度、风速和水汽压等气象因子对PM_(2.5)浓度具有负向影响,GDP和人口密度等社会经济因子对PM_(2.5)浓度具有正向影响。(2)2000-2018年期间,珠三角地区PM_(2.5)人口加权年均浓度均低于PM_(2.5)算术年均浓度,表明珠三角地区人口密度和PM_(2.5)浓度未呈现明显的空间匹配关系,例如肇庆PM_(2.5)浓度较高但人口密度较低,深圳PM_(2.5)浓度较低但人口密度较高。(3)2000-2018年期间,珠三角地区PM_(2.5)污染对于缺血性心脏病和中风的健康影响较显著,而对下呼吸道感染的健康影响较弱。区域PM_(2.5)相关过早死亡人数逐渐增多,主要集中在PM_(2.5)浓度和人口密度较高的地区,例如珠三角中心地区,以广州中心城区表现明显。本研究建议珠三角地区加大空气污染治理力度,提高医疗服务水平,同时关注城市人口结构,引导城市人口有序流动迁移,以缓解PM_(2.5)带来的健康影响,实现城市化的健康发展。 展开更多
关键词 随机森林模型 PM_(2.5)时空分布 GEMM模型 健康效应 珠三角地区
在线阅读 下载PDF
一种基于遗传算法的BLAS库优化方法 被引量:2
9
作者 孙成国 兰静 姜浩 《计算机工程与科学》 CSCD 北大核心 2018年第5期798-804,共7页
基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个... 基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个体)所对应的稠密矩阵乘法的性能值作为该个体的适应度,通过不断迭代地进行选择、交叉、变异操作,找到最优的分块参数组合,使得稠密矩阵运算的性能值最优。数值实验表明,基于遗传算法求解得出最优分块参数下的GEMM性能值优于默认分块参数下的性能值,达到了优化的目的。 展开更多
关键词 BLAS GEMM 遗传算法 自动调优
在线阅读 下载PDF
河北省PM_(2.5)长期暴露的肺癌死亡负担及经济损失 被引量:4
10
作者 任萌 刘言玉 +4 位作者 李道娟 郝雅慧 师苗苗 王莹莹 贺宇彤 《环境卫生学杂志》 2022年第5期345-350,共6页
目的 评估2017年河北省因细颗粒物(fine particulate matter, PM_(2.5))长期暴露的肺癌死亡负担及经济损失,为河北省空气污染的治理及肺癌负担减轻提供参考。方法 选取达尔豪斯大学大气成分分析组所发布的PM_(2.5)数据及美国国家航空航... 目的 评估2017年河北省因细颗粒物(fine particulate matter, PM_(2.5))长期暴露的肺癌死亡负担及经济损失,为河北省空气污染的治理及肺癌负担减轻提供参考。方法 选取达尔豪斯大学大气成分分析组所发布的PM_(2.5)数据及美国国家航空航天局(NASA)提供的全球人口空间分布数据,基于全球暴露死亡模型(GEMM)评估2017年河北省因PM_(2.5)长期暴露的肺癌超额死亡人数,并采用统计生命价值法估计其对应的健康经济损失。结果 2014—2017年河北省PM_(2.5)年均质量浓度为47.31μg/m^(3),约有47.45%的人生活在PM_(2.5)年均质量浓度超过国家二级限值(35μg/m^(3))的地区;2017年河北省因PM_(2.5)长期暴露的肺癌超额死亡人数约为7 071(95%CI:4 448,9 503)人,排名前5位的城市依次是石家庄市、保定市、邯郸市、沧州市和邢台市;2017年河北省归因于PM_(2.5)长期暴露的肺癌超额死亡造成的健康经济损失约为50.69(95%CI:31.80,68.00)亿元,占河北省2017年国内生产总值的0.36%(95%CI:0.23%,0.48%),经济损失排名前5位的城市依次是石家庄市、沧州市、保定市、唐山市和邯郸市,5个城市经济损失总和占全省经济总损失的70.86%。结论 PM_(2.5)长期暴露对河北省肺癌死亡造成了严重的疾病负担以及经济损失,污染较高地区的负担也相应较高,应该有针对性的采取控制管理措施,以降低PM_(2.5)的污染,减少其所带来的健康负担及经济损失。 展开更多
关键词 细颗粒物(PM_(2.5)) 肺癌 全球暴露死亡模型(GEMM) 死亡负担 经济负担
暂未订购
盆地大气重污染区域PM 2.5暴露的疾病负担时间趋势研究——以成都市为例 被引量:3
11
作者 蒋叶 曾沛斌 +3 位作者 李佳蔚 陈林 雷弋 郭冰 《卫生软科学》 2021年第9期35-40,共6页
[目的]分析2014-2019年成都市大气PM 2.5长期暴露造成的疾病负担及变化趋势,并比较2种主流暴露反应函数的结果差异。[方法]从ChinaHighPMx数据集获取2014-2019年成都市的1km×1km高分辨率PM 2.5浓度值,分别利用全球疾病负担-综合风... [目的]分析2014-2019年成都市大气PM 2.5长期暴露造成的疾病负担及变化趋势,并比较2种主流暴露反应函数的结果差异。[方法]从ChinaHighPMx数据集获取2014-2019年成都市的1km×1km高分辨率PM 2.5浓度值,分别利用全球疾病负担-综合风险函数(GBD-IER)和全球暴露死亡率模型(GEMM)估计慢性阻塞性肺疾病(COPD)、缺血性心脏病(IHD)、肺癌和脑卒中4种疾病的死亡风险,进而评估PM 2.5的归因死亡。[结果]2019年成都市因大气PM 2.5污染导致COPD、IHD、肺癌和脑卒中4种疾病的过早死亡1.83万例,占4种疾病总死亡人数的28.13%;与2014年相比,因大气PM 2.5暴露导致的死亡人数占总死亡人数的百分比下降了9.86%,年龄标化归因死亡率降低了21.56%;4种疾病的归因死亡均有所下降,下降百分比分别为15.72%(脑卒中)、16.03%(IHD)、30.99%(COPD)和31.66%(肺癌)。对比2种主流暴露反应函数结果,除脑卒中外,GEMM方法对COPD、IHD及肺癌3种疾病的死亡风险估计都远高于GBD-IER方法,平均为89%、109%和58%。[结论]2019年成都市归因于PM 2.5长期暴露的疾病负担相比2014年有一定幅度的降低,但仍较严重,提示当地大气污染防控措施虽有一定成效,但还需进一步加强以降低大气PM 2.5的归因死亡。相比GEMM方法,GBD-IER方法可能低估了PM 2.5浓度降低导致的过早死亡降低程度。未来还需利用我国大气重污染区域队列建立更为准确的PM 2.5与人群慢性健康危害的暴露-反应关系函数。 展开更多
关键词 大气污染 环境细颗粒物 疾病负担 量化评估 IER GEMM 成都市
暂未订购
基于飞腾D2000的GEMM算法设计与优化实现技术 被引量:1
12
作者 郑恩 白林亭 文鹏程 《航空计算技术》 2024年第3期38-41,47,共5页
在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板... 在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板卡飞腾D2000、国产操作系统进行实验测试。实验结果表明优化后比优化前加速43.89倍,优化方法加速效果行之有效,可以大大降低人工智能模型在边缘端的推理延时。 展开更多
关键词 推理框架 GEMM OPENMP NEON 飞腾D2000
在线阅读 下载PDF
一种支持阻塞分段传输的DMA部件的设计与实现
13
作者 王占立 马胜 +1 位作者 许邦建 杨柳 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期117-122,共6页
针对通用矩阵乘(GEneralized matrix multiplication,GEMM)核心算法,提出了一种支持阻塞分段传输的直接存储访问控制器(direct memory access,DMA)结构.当有多个核进行核内到核外的数据传输时,阻塞分段传输机制可以替代软件锁同步的方... 针对通用矩阵乘(GEneralized matrix multiplication,GEMM)核心算法,提出了一种支持阻塞分段传输的直接存储访问控制器(direct memory access,DMA)结构.当有多个核进行核内到核外的数据传输时,阻塞分段传输机制可以替代软件锁同步的方式自动检测这些事务的状态,并在所有事务结束后启动分段传输事务.在NC-VERILOG仿真平台上的仿真结果表明,与软件锁同步方式相比,阻塞分段传输结构有2方面的优势:1)对单纯的数据传输,使用阻塞分段传输结构启动分段传输可以至少提前50拍;2)对GEMM核心算法,使用阻塞分段传输结构比使用软件锁同步的运行时间减少10 000拍以上. 展开更多
关键词 通用矩阵乘(GEMM) 软件流水 DMA控制器 分段传输 阻塞分段传输
在线阅读 下载PDF
面向申威1621通用矩阵乘算法的实现与优化 被引量:2
14
作者 李爽 赵荣彩 王磊 《计算机科学》 CSCD 北大核心 2021年第S02期699-704,718,共7页
BLAS库作为高性能计算中最基本的数学库,对高性能计算机平台上的数值计算、人工智能等领域应用都起着重要作用。BLAS3级函数GEMM是整个BLAS库性能的核心指标。目前,还没有能够充分发挥申威1621平台优势的高性能BLAS库。针对上述问题,在... BLAS库作为高性能计算中最基本的数学库,对高性能计算机平台上的数值计算、人工智能等领域应用都起着重要作用。BLAS3级函数GEMM是整个BLAS库性能的核心指标。目前,还没有能够充分发挥申威1621平台优势的高性能BLAS库。针对上述问题,在申威1621平台上,实现了GotoBLAS的移植与优化。提出了一种使用SIMD向量化进行核心代码优化的算法实现,为满足向量优化的算法实现分别进行了数据重排、计算数据块选择、浮点寄存器分配、向量化指令改写等优化技术。分别比较了SGEMM和DGEMM在Micro-kernel中使用cache行和使用向量化优化的最优数据块选择方案。实验结果表明,优化后最佳分块下的SGEMM单核性能比GotoBLAS单核单精度浮点数平均加速52.09倍,DGEMM单核性能比GotoBLAS单核双精度浮点数平均加速32.75倍。 展开更多
关键词 申威1621 程序优化 GEMM 算法实现 SIMD
在线阅读 下载PDF
基于X-DSP的GEMM算法实现
15
作者 王华龙 陈小文 《计算机与数字工程》 2019年第11期2705-2708,2745,共5页
矩阵乘法作为高性能计算中的重要组成部分,是非常典型的计算和访存密集算法。针对特定处理器结构,优化GEMM算法,充分发挥处理器的计算效率,是非常重要的工作。论文主要在X-DSP平台上实现GEMM算法的设计,结合X-DSP的硬件资源和体系结构... 矩阵乘法作为高性能计算中的重要组成部分,是非常典型的计算和访存密集算法。针对特定处理器结构,优化GEMM算法,充分发挥处理器的计算效率,是非常重要的工作。论文主要在X-DSP平台上实现GEMM算法的设计,结合X-DSP的硬件资源和体系结构进行了访存优化,对存储空间进行了合理的划分,设计和实现了高性能的GEMM。通过性能测试,X-DSP的单核单精度浮点数的性能达8.49GFLOPS,多核性能达52.8GFLOPS。 展开更多
关键词 多核处理器 矩阵分块 GEMM 多核并行
在线阅读 下载PDF
Modeling human gastric cancers in immunocompetent mice
16
作者 Weihong Zhang Shilong Wang +4 位作者 Hui Zhang Yan Meng Shi Jiao Liwei An Zhaocai Zhou 《Cancer Biology & Medicine》 SCIE CAS CSCD 2024年第7期553-570,共18页
Gastric cancer(GC)is a major cause of cancer-related mortality worldwide.GC is determined by multiple(epi)genetic and environmental factors;can occur at distinct anatomic positions of the stomach;and displays high het... Gastric cancer(GC)is a major cause of cancer-related mortality worldwide.GC is determined by multiple(epi)genetic and environmental factors;can occur at distinct anatomic positions of the stomach;and displays high heterogeneity,with different cellular origins and diverse histological and molecular features.This heterogeneity has hindered efforts to fully understand the pathology of GC and develop efficient therapeutics.In the past decade,great progress has been made in the study of GC,particularly in molecular subtyping,investigation of the immune microenvironment,and defining the evolutionary path and dynamics.Preclinical mouse models,particularly immunocompetent models that mimic the cellular and molecular features of human GC,in combination with organoid culture and clinical studies,have provided powerful tools for elucidating the molecular and cellular mechanisms underlying GC pathology and immune evasion,and the development of novel therapeutic strategies.Herein,we first briefly introduce current progress and challenges in GC study and subsequently summarize immunocompetent GC mouse models,emphasizing the potential application of genetically engineered mouse models in antitumor immunity and immunotherapy studies. 展开更多
关键词 Gastric cancer HETEROGENEITY mouse model GEMM IMMUNOCOMPETENT
暂未订购
基于卷积神经网络的GFW加速调度算法
17
作者 宋铁 《软件》 2019年第3期217-221,共5页
神经网络的广泛应用使得人们更加关注神经网络的训练,更高精度的要求给神经网络的训练带来了困难,因此加速神经网络的训练成为了研究的重点。对于神经网络的训练中卷积层占据了大部分的训练时间,所以加速卷积层的训练成为了加速神经网... 神经网络的广泛应用使得人们更加关注神经网络的训练,更高精度的要求给神经网络的训练带来了困难,因此加速神经网络的训练成为了研究的重点。对于神经网络的训练中卷积层占据了大部分的训练时间,所以加速卷积层的训练成为了加速神经网络的关键。本文提出了GFW加速调度算法,GFW算法通过对不同卷积图像的大小和卷积核的数量调用不同的卷积算法,以达到整体的最佳训练效果。实验中具体分析了9层卷积网络的加速训练,实验结果显示,相比于GEMM卷积算法,GFW算法实现了2.901倍的加速,相比于FFT算法GFW算法实现了1.467倍的加速,相比于Winograd算法,GFW算法实现了1.318倍的加速。 展开更多
关键词 卷积神经网络 GEMM FFT Winograd算法 GFW调度算法
在线阅读 下载PDF
Optimizing winograd-based convolution with DCU’s matrix cores
18
作者 Jiandong Shang Fuchang Gao +5 位作者 Zhaopeng Li Yizhe Sui Gang Wu Nan Wang Lingling Wang Dujuan Zhang 《CCF Transactions on High Performance Computing》 2026年第1期107-119,共13页
Convolution algorithms based on the Winograd implementation can reduce computational complexity and are widely used in CNNs.As an emerging GPU-like accelerator,DCU has achieved some performance optimization for the Wi... Convolution algorithms based on the Winograd implementation can reduce computational complexity and are widely used in CNNs.As an emerging GPU-like accelerator,DCU has achieved some performance optimization for the Winograd algorithm,but it fails to fully exploit the Matrix Cores of DCU to further enhance the efficiency of Winograd convolution computations.This paper proposes an improved fused Winograd convolution optimization scheme that integrates all transformation stages into a single kernel,which is specifically designed to exploit the characteristics of Matrix Cores.In the input transformation stage,we design an efficient data reuse mechanism that reduces redundant global memory accesses.In the element-wise matrix multiplication stage,we transform Hadamard products into batched GEMMs,boosting computational intensity and complying with the data layout requirements of Matrix Cores.During kernel fusion,we eliminate shared memory bank conflicts by reorganizing thread layout and further introduce software pipelining to effectively mask memory access latency.The results show that our method achieves average speedups of 1.35×and 1.72×(up to 1.81×and 2.78×)over the Winograd and Implicit GEMM algorithms in MIOpen under FP16 mode,and 1.22×and 1.53×(up to 1.55×and 1.88×)under FP32 mode. 展开更多
关键词 CONVOLUTION Fused Winograd Batched gemms Matrix Cores
在线阅读 下载PDF
Optimizing Standard Convolution for Diverse Precision on DCU
19
作者 Haobo Hua Chuangzheng Hou +4 位作者 Zhuxin Wen Xiangkai Zhang Xiaodong Yu Jiandong Shang Litao Zhang 《CCF Transactions on High Performance Computing》 2026年第1期61-79,共19页
Standard convolution remains a major performance bottleneck in modern deep neural networks.Although existing optimization libraries demonstrate effectiveness,they often underutilize key architectural features of emerg... Standard convolution remains a major performance bottleneck in modern deep neural networks.Although existing optimization libraries demonstrate effectiveness,they often underutilize key architectural features of emerging accelerators like DCUs,leading to suboptimal performance.To address this limitation,we propose a holistic,architecture-aware framework that systematically co-optimizes memory hierarchy and computational pipelines.The framework dynamically adapts to convolution parameters for maximal hardware utilization,with core contributions including:an innovative memory management strategy mitigating access conflicts,an adaptive computation pipeline balancing parallelism and data reuse,and a method bypassing API limitations to leverage underlying hardware instructions.On DCU hardware,our framework achieves significant speedups over MIOpen-delivering 3.09×and 1.64×average acceleration for FP16 and FP32 precision respectively,while reducing end-to-end training time for ResNet and EfficientNet by 6.7%and 12.1%. 展开更多
关键词 CONVOLUTION Implicit GEMM DCU Performance optimization Memory optimization
在线阅读 下载PDF
Leveraging Large-Scale Data for Efficient Low-Bit CUTLASS GEMM Optimization via Neural Networks
20
作者 Hong Guo Nianhui Guo +1 位作者 Christoph Meinel Haojin Yang 《Big Data Mining and Analytics》 2026年第2期632-652,共21页
Optimizing GEneral Matrix Multiplication(GEMM)on GPU platforms is becoming increasingly critical to meet the growing computational demands of modern deep neural network research.While significant progress has been mad... Optimizing GEneral Matrix Multiplication(GEMM)on GPU platforms is becoming increasingly critical to meet the growing computational demands of modern deep neural network research.While significant progress has been made in accelerating high-precision GEMM,the optimization of low-bit GEMM remains a challenging open problem.The CUTLASS library provides highly optimized low-bit GEMM templates leveraging Tensor Cores;however,performance varies considerably depending on tile and pipeline configurations across different GPU architectures.In this work,we propose a novel auto-tuning framework for low-bit CUTLASS GEMM,utilizing a neural network model to predict optimal GEMM template parameters for target GPUs.Our model is trained on a synthetic dataset with up to 116100 unique samples,encompassing diverse matrix sizes across various Ampere GPUs,and is thoroughly evaluated on these hardware platforms.Experimental results show that our method achieves an accuracy of up to 95.11%on the validation dataset.Furthermore,real-time evaluations of low-bit data types on the A100 GPU demonstrate speedups of up to 1.99×for GEMM operations and 1.28×for the linear layer,compared to the default CUTLASS templates. 展开更多
关键词 Low-bit GEneral Matrix Multiplication(GEMM) CUTLASS optimization neural network auto-tuning Tensor Cores tile and pipeline large-scale dataset
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部