期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于申威1600的3级BLAS GEMM函数优化 被引量:11
1
作者 刘昊 刘芳芳 +2 位作者 张鹏 杨超 蒋丽娟 《计算机系统应用》 2016年第12期234-239,共6页
BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指... BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库Goto BLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍. 展开更多
关键词 申威1600 三级BLAS gemm 高性能计算 多核
在线阅读 下载PDF
基于飞腾D2000的GEMM算法设计与优化实现技术 被引量:1
2
作者 郑恩 白林亭 文鹏程 《航空计算技术》 2024年第3期38-41,47,共5页
在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板... 在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板卡飞腾D2000、国产操作系统进行实验测试。实验结果表明优化后比优化前加速43.89倍,优化方法加速效果行之有效,可以大大降低人工智能模型在边缘端的推理延时。 展开更多
关键词 推理框架 gemm OPENMP NEON 飞腾D2000
在线阅读 下载PDF
基于X-DSP的GEMM算法实现
3
作者 王华龙 陈小文 《计算机与数字工程》 2019年第11期2705-2708,2745,共5页
矩阵乘法作为高性能计算中的重要组成部分,是非常典型的计算和访存密集算法。针对特定处理器结构,优化GEMM算法,充分发挥处理器的计算效率,是非常重要的工作。论文主要在X-DSP平台上实现GEMM算法的设计,结合X-DSP的硬件资源和体系结构... 矩阵乘法作为高性能计算中的重要组成部分,是非常典型的计算和访存密集算法。针对特定处理器结构,优化GEMM算法,充分发挥处理器的计算效率,是非常重要的工作。论文主要在X-DSP平台上实现GEMM算法的设计,结合X-DSP的硬件资源和体系结构进行了访存优化,对存储空间进行了合理的划分,设计和实现了高性能的GEMM。通过性能测试,X-DSP的单核单精度浮点数的性能达8.49GFLOPS,多核性能达52.8GFLOPS。 展开更多
关键词 多核处理器 矩阵分块 gemm 多核并行
在线阅读 下载PDF
小鼠CFU-GEMM性能的研究
4
作者 裴雪涛 严传双 朱壬葆 《中国应用生理学杂志》 CAS CSCD 1989年第2期177-181,200,共6页
本文对小鼠多能造血祖细胞(CFU-GEMM)进行了集落细胞组成、克隆线性关系、细胞周期活动及再植能力的观察;并在胎肝体外长期培养中观察了其数量的动态变化。发现:CFU-GEMM具有一定的增殖和自我更新能力,可多向分化,其中的细胞多数处于相... 本文对小鼠多能造血祖细胞(CFU-GEMM)进行了集落细胞组成、克隆线性关系、细胞周期活动及再植能力的观察;并在胎肝体外长期培养中观察了其数量的动态变化。发现:CFU-GEMM具有一定的增殖和自我更新能力,可多向分化,其中的细胞多数处于相对静止状态,是一群性能非常接近于CFU-S的多能祖细胞。胎肝体外长期培养中,CFU-GEMM与CFU-S数量的动态变化趋势也是一致的。这一结果表明:在人类及其它大动物目前还不能测定CFU-S的情况下,CFU-GEMM是一类可以反映造血干细胞池性能及动态变化的细胞。 展开更多
关键词 造血祖细胞 造血干细胞 胎肝培养
暂未订购
碳中和目标下减污降碳协同发展与人体健康风险的关系
5
作者 李建秀 许泽坤 +7 位作者 卢静 赵云皓 汤智 赵天慧 方梦园 罗荣昌 赵晓丽 吴丰昌 《环境卫生学杂志》 2025年第9期792-801,共10页
目的探究中国近年来碳排放与大气污染物排放的耦合协调度及影响因素,评估减污降碳政策下我国因细颗粒物(fine particulate matter,PM_(2.5))长期暴露导致的死亡负担。方法基于耦合协调度模型(coupling coordination degree model)和面... 目的探究中国近年来碳排放与大气污染物排放的耦合协调度及影响因素,评估减污降碳政策下我国因细颗粒物(fine particulate matter,PM_(2.5))长期暴露导致的死亡负担。方法基于耦合协调度模型(coupling coordination degree model)和面板回归模型探究我国碳排放量与大气污染物时空分布、耦合协调度以及影响因素,利用全球暴露-死亡模型(global exposure mortality model,GEMM)评估2014—2019年我国因PM_(2.5)长期暴露导致的5种主要疾病(缺血性心脏病、中风、慢性阻塞性肺病、肺癌和下呼吸道感染)过早死亡人数。结果2006—2020年我国大气污染物排放总量逐年下降,而碳排放量尽管增速放缓,仍呈现上升趋势。我国减污降碳协同治理水平正在提升,但区域间耦合协调水平差异明显;能源消费结构、人均GDP和交通运输结构是影响我国减污降碳耦合协调度的关键因素。2014—2019年我国归因于PM_(2.5)长期暴露导致的年平均过早死亡人数为137.86(95%CI:119.72~157.40)万人,其中缺血性心脏病、慢性阻塞性肺病和中风是主要疾病负担,分别占43.1%、20.1%和19.0%。结论减污降碳政策在环境治理方面取得了显著成效,但区域间发展仍不均衡,对人体健康的协同效应尚需进一步强化。未来应进一步优化政策设计,不仅要缩小区域差异,还应更加注重将减污降碳与人体健康的协同关系纳入治理框架。 展开更多
关键词 减污降碳 耦合度 细颗粒物(PM_(2.5)) 全球暴露-死亡模型(gemm)
暂未订购
基于异构编程模型的共性算子移植与并行优化
6
作者 马兆佳 邵恩 +1 位作者 狄战元 马立贤 《计算机研究与发展》 北大核心 2025年第4期1017-1032,共16页
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为... GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题.为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台.尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型.因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中.基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法.评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况.结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95%CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平.这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路. 展开更多
关键词 SYCL 跨异构体系结构 代码移植 gemm 并行优化
在线阅读 下载PDF
超长指令字DSP上的多方向Sobel算法实现与优化
7
作者 唐俊龙 段美竹 时洋 《湖南大学学报(自然科学版)》 北大核心 2025年第8期130-139,共10页
VLIW(very long instruction word)架构的DSP在图像处理和计算机视觉等实时性应用场景得到广泛应用,高并行性的多方向Sobel算法是这些应用领域的重要算法之一,面向VLIW DSP实现和优化多方向Sobel算法具有重要意义.本文提出了基于VLIW的... VLIW(very long instruction word)架构的DSP在图像处理和计算机视觉等实时性应用场景得到广泛应用,高并行性的多方向Sobel算法是这些应用领域的重要算法之一,面向VLIW DSP实现和优化多方向Sobel算法具有重要意义.本文提出了基于VLIW的数据重排Im2col(image to column)加矩阵乘GEMM(general matrix multiplication)优化卷积计算的方法,并采用DMA(direct memory access)双缓冲机制实现数据传输与内核计算的并行,减少了等待数据传输的时间开销,使用该方法在FT-Matrix DSP上实现并优化了多方向Sobel算法.实验结果显示,优化后的算法相比于OpenCV图像库中算法,实现了4.96~8.76倍的加速;比TMS320C6678处理器提升了3.26~6.60倍.这些结果表明,采用VLIW架构的DSP在密集型数据处理方面具有显著优势,在VLIW DSP上实现与优化的图像检测算法具有广阔应用前景. 展开更多
关键词 超长指令字(VLIW) 多方向Sobel算法 数据重排 矩阵乘 DMA双缓冲
在线阅读 下载PDF
一种具有动态可重构数据流的混合矩阵向量处理器
8
作者 艾晨阳 赵乐川 +2 位作者 华涛 王新安 王颖 《计算机工程与科学》 北大核心 2025年第11期1912-1921,共10页
脉动阵列作为通用矩阵乘法(GEMM)算子的高能效加速器,受到了学术界和工业界广泛关注。然而,它往往占用大量面积,并且通常需要VPU单元配合使用,这种组合经常出现在神经网络加速器中。此外,它还存在时间空间利用率低、端到端场景性能有限... 脉动阵列作为通用矩阵乘法(GEMM)算子的高能效加速器,受到了学术界和工业界广泛关注。然而,它往往占用大量面积,并且通常需要VPU单元配合使用,这种组合经常出现在神经网络加速器中。此外,它还存在时间空间利用率低、端到端场景性能有限等问题。为了解决这些问题,通过结合脉动阵列与向量处理器,提出了一种脉动向量处理器HVSA。通过对VPU中存储、广播和通道间通信单元进行复用,HVSA可在阵列的形状和数据流方面进行可重构配置,可以在可接受的硬件面积开销的前提下,更有效地支持GEMM和向量运算。同时提出了适用于HVSA的端到端编译框架,包括基于MLIR的编译前端、数据流调度和兼容RISC-V向量扩展的编程模型。实验数据表明,与同等面积的脉动阵列相比,HVSA计算速度提升了30.30倍。在端到端应用中,相比同等面积的“VPU+脉动阵列”,HVSA的平均运行时间缩短为原来的约4.7%,能耗减少约58.7%。 展开更多
关键词 通用矩阵乘法 向量运算 脉动阵列 向量处理单元 数据流调度 编译器
在线阅读 下载PDF
数值软件自适应性能优化搜索过程评价技术研究 被引量:2
9
作者 孙相征 张云泉 +1 位作者 王宣强 王磊 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期679-686,共8页
随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高... 随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高性能数学软件包(SANS)如FFTW,ATLAS,PHiPAC,OSKI等,可有效解决前两种方法存在的问题,降低开发成本,提高软件可移植性.针对自适应性能优化技术中,优化参数搜索过程十分耗时的问题,提出对优化搜索过程的评价指标Pt,并给出用此指标控制优化搜索过程的方法.实验表明运用该指标可以在较短的时间内得到一个合理的性能值. 展开更多
关键词 自适应 优化过程评价指标 优化参数 性能跟踪 ATLAS gemm
在线阅读 下载PDF
2013~2020年甘肃省PM_(2.5)健康负担的时空变化趋势及驱动力 被引量:2
10
作者 廖琴 李勇 陶燕 《环境科学》 EI CAS CSCD 北大核心 2024年第7期3893-3902,共10页
为评估大气污染防治行动计划以来,甘肃省PM_(2.5)相关健康影响的时空变化趋势及其驱动因素,应用最新的全球暴露死亡模型(GEMM)估算了2013~2020年甘肃省归因于PM_(2.5)的健康负担,并通过因素分解法进一步探讨了PM_(2.5)归因死亡长期变化... 为评估大气污染防治行动计划以来,甘肃省PM_(2.5)相关健康影响的时空变化趋势及其驱动因素,应用最新的全球暴露死亡模型(GEMM)估算了2013~2020年甘肃省归因于PM_(2.5)的健康负担,并通过因素分解法进一步探讨了PM_(2.5)归因死亡长期变化的主要原因.结果表明,2013~2020年,甘肃省人口加权PM_(2.5)浓度下降了34.57%,暴露于PM_(2.5)年均浓度超过35μg·m^(-3)的人口比例从72.89%大幅下降至11.61%.研究期间,甘肃省PM_(2.5)归因死亡人数从12 826(95%CI:7 840~17 408)人下降至9 814(95%CI:6 407~13 036)人,下降了23.48%;其中,缺血性心脏病的归因死亡人数有所增加(12.11%),而中风、慢性阻塞性肺病、肺癌和下呼吸道感染的归因死亡人数呈下降趋势;60岁及以上人群的归因死亡人数占80%以上;中东部地区的PM_(2.5)归因死亡人数显著高于河西地区,且大部分地区呈下降趋势;人口规模、年龄结构、基线死亡率和PM_(2.5)浓度在归因死亡人数变化中的贡献分别为-1.26%、16.16%、-9.84%和-28.55%,人口老龄化和PM_(2.5)浓度降低是PM_(2.5)归因死亡增加和减少的主要因素.甘肃省积极的清洁空气政策减轻了PM_(2.5)污染造成的健康负担,但在人口老龄化加剧的趋势下,未来需要大幅降低PM_(2.5)浓度才能避免更多的归因死亡. 展开更多
关键词 PM_(2.5) 过早死亡 gemm模型 驱动因素 健康效益
原文传递
预测肿瘤药物临床试验效果的动物模型新进展 被引量:1
11
作者 余飞 丁慧 《中国比较医学杂志》 CAS 北大核心 2015年第6期65-69,70,共6页
基于人体试验的实际应用及伦理方面的考虑,合适的动物模型对于肿瘤药物研发至关重要。制药公司和研究机构在肿瘤治疗新药的开发过程中消耗大量资源,最佳动物体内模型的选择可以改进或缩短研发进程。在技术复杂性方面,肿瘤遗传工程小鼠模... 基于人体试验的实际应用及伦理方面的考虑,合适的动物模型对于肿瘤药物研发至关重要。制药公司和研究机构在肿瘤治疗新药的开发过程中消耗大量资源,最佳动物体内模型的选择可以改进或缩短研发进程。在技术复杂性方面,肿瘤遗传工程小鼠模型(GEMM)已逐步完善,并且GEMM能够准确重建人类肿瘤的同源发生,为加快肿瘤药物的开发提供机遇。本文主要综合比较预测肿瘤药物临床试验效果的不同类型动物模型,探讨其优劣,并对体内模型的评估方法及与临床转化等进行简述,为肿瘤药物临床前试验提供参考。 展开更多
关键词 抗肿瘤药物 模型 动物 gemm 临床转化
暂未订购
环二鸟苷酸(c-di-GMP)在微生物体内的作用及其类似物的研究 被引量:5
12
作者 那路新 杨振军 《药学学报》 CAS CSCD 北大核心 2012年第3期307-312,258,共6页
环二鸟苷酸(cyclic diguanylate,c-di-GMP)是在细菌中普遍存在的第二信使分子,参与调节多种生理功能,包括细胞分化、生物被膜形成、致病因子产生等。细菌细胞内c-di-GMP合成与降解代谢分别受二鸟苷酸环化酶(diguanylate cyclase,DGC)和... 环二鸟苷酸(cyclic diguanylate,c-di-GMP)是在细菌中普遍存在的第二信使分子,参与调节多种生理功能,包括细胞分化、生物被膜形成、致病因子产生等。细菌细胞内c-di-GMP合成与降解代谢分别受二鸟苷酸环化酶(diguanylate cyclase,DGC)和磷酸二酯酶(phosphodiesterase,PDE)调控,DGC和PDE共处于同一个蛋白中,是一个双功能蛋白酶的两个区域,分别负责菌体内c-di-GMP的合成和降解。c-di-GMP作用菌体内下游靶点包括PilZ结构域和GEMM核开关两种类型。目前发现c-di-GMP核开关是唯一不参与代谢活动而参与信号传导的一类核开关。本文综述了c-di-GMP的代谢途径、调控机制、生物学功能,以及c-di-GMP结构类似物合成及生物学评价等方面的最新研究进展。 展开更多
关键词 环二鸟苷酸 C-DI-GMP 细菌信号传导 代谢酶 gemm核开关
原文传递
一种基于遗传算法的BLAS库优化方法 被引量:2
13
作者 孙成国 兰静 姜浩 《计算机工程与科学》 CSCD 北大核心 2018年第5期798-804,共7页
基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个... 基于OpenBLAS和BLIS开源线性代数基础算法库,对稠密矩阵乘法GEMM运算的性能优化展开研究。针对如何选取稠密矩阵分块并行算法的关键分块参数这一问题,建立性能优化模型。采用改进的遗传算法求解上述优化模型,将某一分块参数组合(种群个体)所对应的稠密矩阵乘法的性能值作为该个体的适应度,通过不断迭代地进行选择、交叉、变异操作,找到最优的分块参数组合,使得稠密矩阵运算的性能值最优。数值实验表明,基于遗传算法求解得出最优分块参数下的GEMM性能值优于默认分块参数下的性能值,达到了优化的目的。 展开更多
关键词 BLAS gemm 遗传算法 自动调优
在线阅读 下载PDF
珠三角地区PM_(2.5)浓度估算及其健康效应评估 被引量:13
14
作者 蔡清楠 车扬子 +4 位作者 孙凌瑜 田佳欣 房德琳 陈彬 罗明 《生态学报》 CAS CSCD 北大核心 2021年第22期8977-8990,共14页
快速的社会经济发展导致城市出现以PM_(2.5)为首要污染物的空气污染问题,PM_(2.5)污染严重危害人群健康。因此,厘清PM_(2.5)时空分布特征并估算其带来的健康影响,对于PM_(2.5)的区域联防联控具有重要意义。现有研究中,为弥补地面监测数... 快速的社会经济发展导致城市出现以PM_(2.5)为首要污染物的空气污染问题,PM_(2.5)污染严重危害人群健康。因此,厘清PM_(2.5)时空分布特征并估算其带来的健康影响,对于PM_(2.5)的区域联防联控具有重要意义。现有研究中,为弥补地面监测数据的不足,借助机器学习算法估算PM_(2.5)浓度成为研究热点,此外,基于流行病学研究结果的健康效应模型也被广泛用于评估PM_(2.5)健康影响的研究中。利用珠江三角洲地区2014-2018年56个空气质量监测站的PM_(2.5)实时监测数据、气象数据、社会经济数据和归一化植被指数,构建随机森林模型,多要素联合估算2000-2018年监测站点的PM_(2.5)浓度,并采用克里金插值方法获得PM_(2.5)浓度的空间分布,在此基础上应用全球暴露死亡(GEMM)模型,评估珠三角地区的PM_(2.5)健康效应。结果表明:(1)2000-2018年期间,珠三角地区的PM_(2.5)算术年均浓度维持在35μg/m^(3)左右,呈现"西北-东南"递减空间分异;降水量、温度、风速和水汽压等气象因子对PM_(2.5)浓度具有负向影响,GDP和人口密度等社会经济因子对PM_(2.5)浓度具有正向影响。(2)2000-2018年期间,珠三角地区PM_(2.5)人口加权年均浓度均低于PM_(2.5)算术年均浓度,表明珠三角地区人口密度和PM_(2.5)浓度未呈现明显的空间匹配关系,例如肇庆PM_(2.5)浓度较高但人口密度较低,深圳PM_(2.5)浓度较低但人口密度较高。(3)2000-2018年期间,珠三角地区PM_(2.5)污染对于缺血性心脏病和中风的健康影响较显著,而对下呼吸道感染的健康影响较弱。区域PM_(2.5)相关过早死亡人数逐渐增多,主要集中在PM_(2.5)浓度和人口密度较高的地区,例如珠三角中心地区,以广州中心城区表现明显。本研究建议珠三角地区加大空气污染治理力度,提高医疗服务水平,同时关注城市人口结构,引导城市人口有序流动迁移,以缓解PM_(2.5)带来的健康影响,实现城市化的健康发展。 展开更多
关键词 随机森林模型 PM_(2.5)时空分布 gemm模型 健康效应 珠三角地区
在线阅读 下载PDF
河北省PM_(2.5)长期暴露的肺癌死亡负担及经济损失 被引量:4
15
作者 任萌 刘言玉 +4 位作者 李道娟 郝雅慧 师苗苗 王莹莹 贺宇彤 《环境卫生学杂志》 2022年第5期345-350,共6页
目的 评估2017年河北省因细颗粒物(fine particulate matter, PM_(2.5))长期暴露的肺癌死亡负担及经济损失,为河北省空气污染的治理及肺癌负担减轻提供参考。方法 选取达尔豪斯大学大气成分分析组所发布的PM_(2.5)数据及美国国家航空航... 目的 评估2017年河北省因细颗粒物(fine particulate matter, PM_(2.5))长期暴露的肺癌死亡负担及经济损失,为河北省空气污染的治理及肺癌负担减轻提供参考。方法 选取达尔豪斯大学大气成分分析组所发布的PM_(2.5)数据及美国国家航空航天局(NASA)提供的全球人口空间分布数据,基于全球暴露死亡模型(GEMM)评估2017年河北省因PM_(2.5)长期暴露的肺癌超额死亡人数,并采用统计生命价值法估计其对应的健康经济损失。结果 2014—2017年河北省PM_(2.5)年均质量浓度为47.31μg/m^(3),约有47.45%的人生活在PM_(2.5)年均质量浓度超过国家二级限值(35μg/m^(3))的地区;2017年河北省因PM_(2.5)长期暴露的肺癌超额死亡人数约为7 071(95%CI:4 448,9 503)人,排名前5位的城市依次是石家庄市、保定市、邯郸市、沧州市和邢台市;2017年河北省归因于PM_(2.5)长期暴露的肺癌超额死亡造成的健康经济损失约为50.69(95%CI:31.80,68.00)亿元,占河北省2017年国内生产总值的0.36%(95%CI:0.23%,0.48%),经济损失排名前5位的城市依次是石家庄市、沧州市、保定市、唐山市和邯郸市,5个城市经济损失总和占全省经济总损失的70.86%。结论 PM_(2.5)长期暴露对河北省肺癌死亡造成了严重的疾病负担以及经济损失,污染较高地区的负担也相应较高,应该有针对性的采取控制管理措施,以降低PM_(2.5)的污染,减少其所带来的健康负担及经济损失。 展开更多
关键词 细颗粒物(PM_(2.5)) 肺癌 全球暴露死亡模型(gemm) 死亡负担 经济负担
暂未订购
激光辐照多年生黑麦草种子的生物学效应初探 被引量:12
16
作者 崔延棠 尉亚辉 慕东 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第5期573-575,共3页
通过对不同剂量He-Ne激光辐照多年生黑麦草(守门员)种子产生的生物学效应,结果分析表明,低剂量的He-Ne激光辐照能显著地提高多年生黑麦草种子活力,而高剂量有明显地抑制种子活力的作用,He-Ne激光辐照亦可提高多年生黑麦草越夏能力和抗... 通过对不同剂量He-Ne激光辐照多年生黑麦草(守门员)种子产生的生物学效应,结果分析表明,低剂量的He-Ne激光辐照能显著地提高多年生黑麦草种子活力,而高剂量有明显地抑制种子活力的作用,He-Ne激光辐照亦可提高多年生黑麦草越夏能力和抗旱能力即抗逆性。 展开更多
关键词 HE-NE激光 多年生黑麦草 发芽率 活力指数 抗逆性
在线阅读 下载PDF
面向深度学习的批处理矩阵乘法设计与实现 被引量:8
17
作者 黄春 姜浩 +3 位作者 全哲 左克 何楠 刘文超 《计算机学报》 EI CAS CSCD 北大核心 2022年第2期225-239,共15页
本文设计并实现了面向深度学习的统一框架批处理矩阵乘法.我们细致地分析了利用矩阵乘法实现卷积的过程中卷积核、输入特征图和输出特征图在NCHW和NHWC两类存储格式下的矩阵数据排列特点,指出了其和矩阵行列主序的关系.在此基础上,为了... 本文设计并实现了面向深度学习的统一框架批处理矩阵乘法.我们细致地分析了利用矩阵乘法实现卷积的过程中卷积核、输入特征图和输出特征图在NCHW和NHWC两类存储格式下的矩阵数据排列特点,指出了其和矩阵行列主序的关系.在此基础上,为了更好复用共享的卷积核数据,我们提出将批量输入特征图转化为一个矩阵整体进行计算的方法.我们设计了统一框架的批处理分块矩阵乘法,该框架计算同一矩阵和多个不同矩阵的乘法,可以处理并输出任意存储格式的矩阵数据.我们优化了分块矩阵乘法实现,根据输入参数特征规划计算顺序,利用矩阵转置技巧复用核心计算模块,没有增加额外的数据组织操作.数值试验表明:本文设计实现的批处理单精度矩阵乘法的计算速度比循环调用原始单精度矩阵乘法的计算速度在处理中小尺度矩阵时在四款不同处理器平台上性能最高分别提高4.80%、26.57%、29.27%和25.55%,平均分别提升2.37%、14.37%、9.89%和15.72%. 展开更多
关键词 批处理矩阵乘法 卷积 分块算法 深度学习 数据排列
在线阅读 下载PDF
盆地大气重污染区域PM 2.5暴露的疾病负担时间趋势研究——以成都市为例 被引量:3
18
作者 蒋叶 曾沛斌 +3 位作者 李佳蔚 陈林 雷弋 郭冰 《卫生软科学》 2021年第9期35-40,共6页
[目的]分析2014-2019年成都市大气PM 2.5长期暴露造成的疾病负担及变化趋势,并比较2种主流暴露反应函数的结果差异。[方法]从ChinaHighPMx数据集获取2014-2019年成都市的1km×1km高分辨率PM 2.5浓度值,分别利用全球疾病负担-综合风... [目的]分析2014-2019年成都市大气PM 2.5长期暴露造成的疾病负担及变化趋势,并比较2种主流暴露反应函数的结果差异。[方法]从ChinaHighPMx数据集获取2014-2019年成都市的1km×1km高分辨率PM 2.5浓度值,分别利用全球疾病负担-综合风险函数(GBD-IER)和全球暴露死亡率模型(GEMM)估计慢性阻塞性肺疾病(COPD)、缺血性心脏病(IHD)、肺癌和脑卒中4种疾病的死亡风险,进而评估PM 2.5的归因死亡。[结果]2019年成都市因大气PM 2.5污染导致COPD、IHD、肺癌和脑卒中4种疾病的过早死亡1.83万例,占4种疾病总死亡人数的28.13%;与2014年相比,因大气PM 2.5暴露导致的死亡人数占总死亡人数的百分比下降了9.86%,年龄标化归因死亡率降低了21.56%;4种疾病的归因死亡均有所下降,下降百分比分别为15.72%(脑卒中)、16.03%(IHD)、30.99%(COPD)和31.66%(肺癌)。对比2种主流暴露反应函数结果,除脑卒中外,GEMM方法对COPD、IHD及肺癌3种疾病的死亡风险估计都远高于GBD-IER方法,平均为89%、109%和58%。[结论]2019年成都市归因于PM 2.5长期暴露的疾病负担相比2014年有一定幅度的降低,但仍较严重,提示当地大气污染防控措施虽有一定成效,但还需进一步加强以降低大气PM 2.5的归因死亡。相比GEMM方法,GBD-IER方法可能低估了PM 2.5浓度降低导致的过早死亡降低程度。未来还需利用我国大气重污染区域队列建立更为准确的PM 2.5与人群慢性健康危害的暴露-反应关系函数。 展开更多
关键词 大气污染 环境细颗粒物 疾病负担 量化评估 IER gemm 成都市
暂未订购
细粒度任务并行GPU通用矩阵乘 被引量:5
19
作者 张帅 李涛 +2 位作者 王艺峰 焦晓帆 杨愚鲁 《计算机工程与科学》 CSCD 北大核心 2015年第5期847-856,共10页
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEM... 稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。 展开更多
关键词 通用矩阵乘 持久化kernel 任务并行 负载均衡
在线阅读 下载PDF
一种支持阻塞分段传输的DMA部件的设计与实现
20
作者 王占立 马胜 +1 位作者 许邦建 杨柳 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期117-122,共6页
针对通用矩阵乘(GEneralized matrix multiplication,GEMM)核心算法,提出了一种支持阻塞分段传输的直接存储访问控制器(direct memory access,DMA)结构.当有多个核进行核内到核外的数据传输时,阻塞分段传输机制可以替代软件锁同步的方... 针对通用矩阵乘(GEneralized matrix multiplication,GEMM)核心算法,提出了一种支持阻塞分段传输的直接存储访问控制器(direct memory access,DMA)结构.当有多个核进行核内到核外的数据传输时,阻塞分段传输机制可以替代软件锁同步的方式自动检测这些事务的状态,并在所有事务结束后启动分段传输事务.在NC-VERILOG仿真平台上的仿真结果表明,与软件锁同步方式相比,阻塞分段传输结构有2方面的优势:1)对单纯的数据传输,使用阻塞分段传输结构启动分段传输可以至少提前50拍;2)对GEMM核心算法,使用阻塞分段传输结构比使用软件锁同步的运行时间减少10 000拍以上. 展开更多
关键词 通用矩阵乘(gemm) 软件流水 DMA控制器 分段传输 阻塞分段传输
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部