期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于MLIR的数据流模型
1
作者 李金熹 尹首一 +1 位作者 魏少军 胡杨 《计算机工程与科学》 CSCD 北大核心 2024年第7期1151-1157,共7页
在冯诺依曼架构下,指令集的使用让软硬件得以解耦并各自飞速发展。然而,近年来并行多核架构加速器的热潮为冯诺依曼架构下的顺序编程模型带来了挑战。在顺序编程模型下设计而成的指令集缺乏对并行硬件的抽象,因此仅仅使用指令集已不能... 在冯诺依曼架构下,指令集的使用让软硬件得以解耦并各自飞速发展。然而,近年来并行多核架构加速器的热潮为冯诺依曼架构下的顺序编程模型带来了挑战。在顺序编程模型下设计而成的指令集缺乏对并行硬件的抽象,因此仅仅使用指令集已不能完全完成软硬件的解耦。人工智能软件编译栈领域需要新的编程模型,以对接顺序执行的编程平台和并行多核的硬件后端,并进一步探索并行硬件提供的优化机会。使用数据流模型作为编程模型,为顺序执行程序和并行硬件指令集的对接过程提供通用抽象,在指令集的基础上进一步实现软件前端与硬件后端的解耦。为确保项目的可复用性,将数据流模型以codelet dialect的形式实现在谷歌提出的编译器框架MLIR上。MLIR致力于整合碎片化的编译器生态,提高前后端对接流程的可复用性,在MLIR上实现的数据流模型将进一步提升MLIR系统的可复用性。 展开更多
关键词 数据流模型 端到端编译 mlir
在线阅读 下载PDF
基于MLIR的FP8量化模拟与推理内存优化
2
作者 徐金龙 桂中华 +2 位作者 李嘉楠 李颖颖 韩林 《计算机科学》 CSCD 北大核心 2024年第9期112-120,共9页
随着目标检测模型和语言大模型的迅速发展,网络模型正变得越来越庞大。为了更好地在端侧硬件上进行模型部署,通常采用模型量化技术对模型进行压缩。现有的模型量化策略主要基于FP16,BF16和INT8等类型实现。其中,8bit数据类型在降低推理... 随着目标检测模型和语言大模型的迅速发展,网络模型正变得越来越庞大。为了更好地在端侧硬件上进行模型部署,通常采用模型量化技术对模型进行压缩。现有的模型量化策略主要基于FP16,BF16和INT8等类型实现。其中,8bit数据类型在降低推理内存占用与部署开销方面最为显著,但INT8类型依赖特定的校准算法,未能很好地处理动态范围大、离群点多的模型。FP8类型能够更好地拟合神经网络中的数据分布,同时具有多种数制,可在表达范围和表达精度上灵活调整。然而,当前MLIR系统缺乏对FP8类型量化的支持。为此,提出了一种基于MLIR系统的FP8量化模拟策略,包含FP8E4M3和FP8E5M2两种数制,通过对网络中的算子进行量化模拟,评估FP8两种数制对模型推理精度的影响。同时,针对推理引擎中存在的内存分配冗余问题,提出了一种基于定义使用链的内存复用策略,使得模型推理过程中的内存占用峰值进一步减小。实验选取了典型的Yolov5s和Resnet50模型进行测试,结果表明相较于现有的INT8量化策略,FP8量化策略能够保持更好的模型精度,同时不依赖特定校准算法,部署更为简便。在模型精度上,测试用例分别达到了55.5%和77.8%的准确度,经过内存复用优化,内存占用峰值降低了约15%~20%。 展开更多
关键词 模型压缩 深度学习编译器 FP8量化 mlir Yolov5s模型
在线阅读 下载PDF
Hiperti:high performance system for cross-platform code generation of transformer model inference based on MLIR
3
作者 Jiashu Yao Junmin Xiao +7 位作者 Baokang Xie Shilong Xu Xi Chen Yunfei Pang Mingyi Li Hui Ma Yun Song Guangming Tan 《CCF Transactions on High Performance Computing》 2025年第6期589-622,共34页
In recent years,various network architectures based on the Transformer model have achieved significant success in natural language processing and are increasingly being applied to other fields,underscoring the importa... In recent years,various network architectures based on the Transformer model have achieved significant success in natural language processing and are increasingly being applied to other fields,underscoring the importance of accelerating Transformer models.Models based on the Transformer architecture typically contain a vast number of parameters and impose substantial computational demands.The training and inference of these models requires significant computational resource,placing considerable demands on the computational backends.Developing software ecosystem across different platforms requires substantial development effort,making the research into cross-platform code generation technology for Transformer models particularly important.In the work,we propose HiperTI,a high performance system designed for cross-platform code generation,facilitating the inference of large transformer models based on MLIR.The GEMM code generated by HiperTI matches cuBLAS on NVIDIA A100 GPUs in performance,while its Attention computation achieves twice the performance of Triton.Additionally,on the Hygon DCU Z100,the Attention kernel from HiperTI demonstrates a 20%average performance improvement over PyTorch. 展开更多
关键词 Transformer·mlir·Pass·Tuning strategy·Cross-platform code generation
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部