期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
面向迈创3000异构处理器的多头注意力机制多重并行优化 被引量:1
1
作者 路瑶 栾钟治 +4 位作者 李根 齐家兴 韩斌 杨海龙 钱德沛 《计算机学报》 北大核心 2025年第9期2049-2063,共15页
针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令... 针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令集、片上存储层次和DMA传输特性,设计了三方面的优化策略:在算子方面,对Linear和Softmax等算子进行内核级优化与算子融合,减少计算与访存开销;在访存方面,利用广播机制与全局共享内存(GSM)优化数据流,降低主存带宽依赖;在调度方面,以行为粒度分块并行,隐藏数据传输延迟。实验表明,优化后的Linear算子单簇峰值性能达1.53 TFLOPS,占理论峰值的37.7%,较NVIDIA V100 GPU加速比最高达5.34倍;在典型大语言模型配置下(嵌入维度4096/8192,头数32/64),MHA机制相较NVIDIA V100 GPU实现最高23.53倍加速,且在单节点多簇环境中扩展性良好。本研究为MT-3000在长序列推理任务中的高效部署提供了解决方案,并为天河超算支持大语言模型等复杂AI任务奠定了技术基础。 展开更多
关键词 mt-3000 多头注意力 性能优化 PyTorch 加速比
在线阅读 下载PDF
面向MT-3000异构处理器的PyTorch虚拟算子设计与实现 被引量:1
2
作者 王嘉豪 王昊天 +3 位作者 隋轶丞 陈锐 孙羽菲 张玉志 《南开大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期24-28,共5页
国防科技大学团队自主研发设计了MT-3000高性能多区异构处理器,并将其作为重要算力部署于我国新一代天河超级计算机系统中.为拓展MT-3000在人工智能领域的应用前景,亟需攻克PyTorch等主流深度学习框架仅与国外少数厂商的硬件深度绑定这... 国防科技大学团队自主研发设计了MT-3000高性能多区异构处理器,并将其作为重要算力部署于我国新一代天河超级计算机系统中.为拓展MT-3000在人工智能领域的应用前景,亟需攻克PyTorch等主流深度学习框架仅与国外少数厂商的硬件深度绑定这一技术壁垒.聚焦于PyTorch中常用算子与MT-3000异构处理器适配方法的研究.针对MT-3000处理器中,部分PyTorch算子难以利用DSP加速核实现加速的问题.设计并实现了PyTorch虚拟算子.通过常用算子的对比实验表明,提出的方法准确可靠,且基本没有性能损失. 展开更多
关键词 mt-3000 PyTorch 异构计算设备
原文传递
面向天河新一代超算系统的大规模精确对角化方法
3
作者 李彪 刘杰 王庆林 《计算机研究与发展》 北大核心 2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的... 精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上. 展开更多
关键词 精确对角化 HUBBARD模型 异构并行计算 mt-3000处理器 量子多体系统
在线阅读 下载PDF
面向异构众核处理器MT-3000的PanguLU混合精度优化方法
4
作者 张思为 李军贤 +1 位作者 李易达 刘伟峰 《数值计算与计算机应用》 2025年第4期386-397,共12页
在大规模线性系统求解中,传统稀疏直接法解法器往往采用单一精度计算方式,难以灵活平衡计算效率与数值精度.为解决该问题,基于分布式稀疏直接法解法器PanguLU提出了一种面向异构众核处理器MT-3000的混合精度优化算法.该算法依据矩阵块... 在大规模线性系统求解中,传统稀疏直接法解法器往往采用单一精度计算方式,难以灵活平衡计算效率与数值精度.为解决该问题,基于分布式稀疏直接法解法器PanguLU提出了一种面向异构众核处理器MT-3000的混合精度优化算法.该算法依据矩阵块的空间位置与数值敏感性动态选择块存储精度,从而在数值分解阶段实现混合精度计算,同时,针对解法器中的通用矩阵乘子任务,设计了一种计算与存储精度分离的流水线机制.实验结果表明,所提出的方法在数值分解阶段实现了1.04倍至1.19倍的性能提升,同时将相对残差较单精度方案降低了1.97倍至4.15倍,在提升求解速度的同时有效控制了精度损失. 展开更多
关键词 稀疏直接法解法器 PanguLU mt-3000 混合精度
原文传递
发动机分析仪的应用(3)
5
《汽车与驾驶维修》 2001年第5期45-46,59,共3页
关键词 汽车 发动机分析仪 检测仪器 mt-3000A
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部