期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向迈创3000异构处理器的多头注意力机制多重并行优化
被引量:
1
1
作者
路瑶
栾钟治
+4 位作者
李根
齐家兴
韩斌
杨海龙
钱德沛
《计算机学报》
北大核心
2025年第9期2049-2063,共15页
针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令...
针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令集、片上存储层次和DMA传输特性,设计了三方面的优化策略:在算子方面,对Linear和Softmax等算子进行内核级优化与算子融合,减少计算与访存开销;在访存方面,利用广播机制与全局共享内存(GSM)优化数据流,降低主存带宽依赖;在调度方面,以行为粒度分块并行,隐藏数据传输延迟。实验表明,优化后的Linear算子单簇峰值性能达1.53 TFLOPS,占理论峰值的37.7%,较NVIDIA V100 GPU加速比最高达5.34倍;在典型大语言模型配置下(嵌入维度4096/8192,头数32/64),MHA机制相较NVIDIA V100 GPU实现最高23.53倍加速,且在单节点多簇环境中扩展性良好。本研究为MT-3000在长序列推理任务中的高效部署提供了解决方案,并为天河超算支持大语言模型等复杂AI任务奠定了技术基础。
展开更多
关键词
mt-
3000
多头注意力
性能优化
PyTorch
加速比
在线阅读
下载PDF
职称材料
面向MT-3000异构处理器的PyTorch虚拟算子设计与实现
被引量:
1
2
作者
王嘉豪
王昊天
+3 位作者
隋轶丞
陈锐
孙羽菲
张玉志
《南开大学学报(自然科学版)》
CAS
CSCD
北大核心
2023年第6期24-28,共5页
国防科技大学团队自主研发设计了MT-3000高性能多区异构处理器,并将其作为重要算力部署于我国新一代天河超级计算机系统中.为拓展MT-3000在人工智能领域的应用前景,亟需攻克PyTorch等主流深度学习框架仅与国外少数厂商的硬件深度绑定这...
国防科技大学团队自主研发设计了MT-3000高性能多区异构处理器,并将其作为重要算力部署于我国新一代天河超级计算机系统中.为拓展MT-3000在人工智能领域的应用前景,亟需攻克PyTorch等主流深度学习框架仅与国外少数厂商的硬件深度绑定这一技术壁垒.聚焦于PyTorch中常用算子与MT-3000异构处理器适配方法的研究.针对MT-3000处理器中,部分PyTorch算子难以利用DSP加速核实现加速的问题.设计并实现了PyTorch虚拟算子.通过常用算子的对比实验表明,提出的方法准确可靠,且基本没有性能损失.
展开更多
关键词
mt-
3000
PyTorch
异构计算设备
原文传递
面向天河新一代超算系统的大规模精确对角化方法
3
作者
李彪
刘杰
王庆林
《计算机研究与发展》
北大核心
2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的...
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上.
展开更多
关键词
精确对角化
HUBBARD模型
异构并行计算
mt-
3000
处理器
量子多体系统
在线阅读
下载PDF
职称材料
面向异构众核处理器MT-3000的PanguLU混合精度优化方法
4
作者
张思为
李军贤
+1 位作者
李易达
刘伟峰
《数值计算与计算机应用》
2025年第4期386-397,共12页
在大规模线性系统求解中,传统稀疏直接法解法器往往采用单一精度计算方式,难以灵活平衡计算效率与数值精度.为解决该问题,基于分布式稀疏直接法解法器PanguLU提出了一种面向异构众核处理器MT-3000的混合精度优化算法.该算法依据矩阵块...
在大规模线性系统求解中,传统稀疏直接法解法器往往采用单一精度计算方式,难以灵活平衡计算效率与数值精度.为解决该问题,基于分布式稀疏直接法解法器PanguLU提出了一种面向异构众核处理器MT-3000的混合精度优化算法.该算法依据矩阵块的空间位置与数值敏感性动态选择块存储精度,从而在数值分解阶段实现混合精度计算,同时,针对解法器中的通用矩阵乘子任务,设计了一种计算与存储精度分离的流水线机制.实验结果表明,所提出的方法在数值分解阶段实现了1.04倍至1.19倍的性能提升,同时将相对残差较单精度方案降低了1.97倍至4.15倍,在提升求解速度的同时有效控制了精度损失.
展开更多
关键词
稀疏直接法解法器
PanguLU
mt-
3000
混合精度
原文传递
发动机分析仪的应用(3)
5
《汽车与驾驶维修》
2001年第5期45-46,59,共3页
关键词
汽车
发动机分析仪
检测仪器
mt-
3000
A
在线阅读
下载PDF
职称材料
题名
面向迈创3000异构处理器的多头注意力机制多重并行优化
被引量:
1
1
作者
路瑶
栾钟治
李根
齐家兴
韩斌
杨海龙
钱德沛
机构
北京航空航天大学计算机学院
出处
《计算机学报》
北大核心
2025年第9期2049-2063,共15页
基金
国家重点研发计划项目“面向新一代国产超算系统的应用支撑环境和开发框架”(No.2023YFB3001900)资助。
文摘
针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令集、片上存储层次和DMA传输特性,设计了三方面的优化策略:在算子方面,对Linear和Softmax等算子进行内核级优化与算子融合,减少计算与访存开销;在访存方面,利用广播机制与全局共享内存(GSM)优化数据流,降低主存带宽依赖;在调度方面,以行为粒度分块并行,隐藏数据传输延迟。实验表明,优化后的Linear算子单簇峰值性能达1.53 TFLOPS,占理论峰值的37.7%,较NVIDIA V100 GPU加速比最高达5.34倍;在典型大语言模型配置下(嵌入维度4096/8192,头数32/64),MHA机制相较NVIDIA V100 GPU实现最高23.53倍加速,且在单节点多簇环境中扩展性良好。本研究为MT-3000在长序列推理任务中的高效部署提供了解决方案,并为天河超算支持大语言模型等复杂AI任务奠定了技术基础。
关键词
mt-
3000
多头注意力
性能优化
PyTorch
加速比
Keywords
mt-
3000
multi-head attention
performance optimization
PyTorch
speedup
分类号
TP338 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向MT-3000异构处理器的PyTorch虚拟算子设计与实现
被引量:
1
2
作者
王嘉豪
王昊天
隋轶丞
陈锐
孙羽菲
张玉志
机构
南开大学软件学院
出处
《南开大学学报(自然科学版)》
CAS
CSCD
北大核心
2023年第6期24-28,共5页
基金
国家重点研发计划(2021YFB0300104)
中央高校基本科研业务费专项资金资助。
文摘
国防科技大学团队自主研发设计了MT-3000高性能多区异构处理器,并将其作为重要算力部署于我国新一代天河超级计算机系统中.为拓展MT-3000在人工智能领域的应用前景,亟需攻克PyTorch等主流深度学习框架仅与国外少数厂商的硬件深度绑定这一技术壁垒.聚焦于PyTorch中常用算子与MT-3000异构处理器适配方法的研究.针对MT-3000处理器中,部分PyTorch算子难以利用DSP加速核实现加速的问题.设计并实现了PyTorch虚拟算子.通过常用算子的对比实验表明,提出的方法准确可靠,且基本没有性能损失.
关键词
mt-
3000
PyTorch
异构计算设备
Keywords
mt-
3000
PyTorch
heterogeneous computing devices
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
原文传递
题名
面向天河新一代超算系统的大规模精确对角化方法
3
作者
李彪
刘杰
王庆林
机构
高端装备数字化软件湖南省重点实验室(国防科技大学)
并行与分布计算全国重点实验室(国防科技大学)
国防科技大学计算机学院
出处
《计算机研究与发展》
北大核心
2025年第6期1347-1362,共16页
基金
国家重点研发计划项目(2023YFA1011704,2021YFBO300101)。
文摘
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上.
关键词
精确对角化
HUBBARD模型
异构并行计算
mt-
3000
处理器
量子多体系统
Keywords
exact diagonalization
Hubbard model
heterogeneous parallel computing
mt-3000 processor
Quantum many-body system
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
TP309 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向异构众核处理器MT-3000的PanguLU混合精度优化方法
4
作者
张思为
李军贤
李易达
刘伟峰
机构
中国石油大学(北京)计算机科学与技术系
出处
《数值计算与计算机应用》
2025年第4期386-397,共12页
基金
国家重点研发计划(2023YFB3001604)
国家自然科学基金(62372467,U23A20301)资助.
文摘
在大规模线性系统求解中,传统稀疏直接法解法器往往采用单一精度计算方式,难以灵活平衡计算效率与数值精度.为解决该问题,基于分布式稀疏直接法解法器PanguLU提出了一种面向异构众核处理器MT-3000的混合精度优化算法.该算法依据矩阵块的空间位置与数值敏感性动态选择块存储精度,从而在数值分解阶段实现混合精度计算,同时,针对解法器中的通用矩阵乘子任务,设计了一种计算与存储精度分离的流水线机制.实验结果表明,所提出的方法在数值分解阶段实现了1.04倍至1.19倍的性能提升,同时将相对残差较单精度方案降低了1.97倍至4.15倍,在提升求解速度的同时有效控制了精度损失.
关键词
稀疏直接法解法器
PanguLU
mt-
3000
混合精度
Keywords
Sparse direct solver
PanguLU
mt-
3000
Mixed-precision
分类号
TP332 [自动化与计算机技术—计算机系统结构]
原文传递
题名
发动机分析仪的应用(3)
5
机构
朱军汽车实验室
出处
《汽车与驾驶维修》
2001年第5期45-46,59,共3页
关键词
汽车
发动机分析仪
检测仪器
mt-
3000
A
分类号
U467.4 [机械工程—车辆工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向迈创3000异构处理器的多头注意力机制多重并行优化
路瑶
栾钟治
李根
齐家兴
韩斌
杨海龙
钱德沛
《计算机学报》
北大核心
2025
1
在线阅读
下载PDF
职称材料
2
面向MT-3000异构处理器的PyTorch虚拟算子设计与实现
王嘉豪
王昊天
隋轶丞
陈锐
孙羽菲
张玉志
《南开大学学报(自然科学版)》
CAS
CSCD
北大核心
2023
1
原文传递
3
面向天河新一代超算系统的大规模精确对角化方法
李彪
刘杰
王庆林
《计算机研究与发展》
北大核心
2025
0
在线阅读
下载PDF
职称材料
4
面向异构众核处理器MT-3000的PanguLU混合精度优化方法
张思为
李军贤
李易达
刘伟峰
《数值计算与计算机应用》
2025
0
原文传递
5
发动机分析仪的应用(3)
《汽车与驾驶维修》
2001
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部