-
题名基于MLIR的数据流模型
- 1
-
-
作者
李金熹
尹首一
魏少军
胡杨
-
机构
清华大学集成电路学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2024年第7期1151-1157,共7页
-
文摘
在冯诺依曼架构下,指令集的使用让软硬件得以解耦并各自飞速发展。然而,近年来并行多核架构加速器的热潮为冯诺依曼架构下的顺序编程模型带来了挑战。在顺序编程模型下设计而成的指令集缺乏对并行硬件的抽象,因此仅仅使用指令集已不能完全完成软硬件的解耦。人工智能软件编译栈领域需要新的编程模型,以对接顺序执行的编程平台和并行多核的硬件后端,并进一步探索并行硬件提供的优化机会。使用数据流模型作为编程模型,为顺序执行程序和并行硬件指令集的对接过程提供通用抽象,在指令集的基础上进一步实现软件前端与硬件后端的解耦。为确保项目的可复用性,将数据流模型以codelet dialect的形式实现在谷歌提出的编译器框架MLIR上。MLIR致力于整合碎片化的编译器生态,提高前后端对接流程的可复用性,在MLIR上实现的数据流模型将进一步提升MLIR系统的可复用性。
-
关键词
数据流模型
端到端编译
mlir
-
Keywords
codelet model
end-to-end compilation
mlir
-
分类号
TP303
[自动化与计算机技术—计算机系统结构]
-
-
题名基于MLIR的FP8量化模拟与推理内存优化
- 2
-
-
作者
徐金龙
桂中华
李嘉楠
李颖颖
韩林
-
机构
郑州大学国家超级计算郑州中心
郑州大学计算机与人工智能学院
信息工程大学四院
-
出处
《计算机科学》
CSCD
北大核心
2024年第9期112-120,共9页
-
基金
2022年河南省重大科技专项(221100210600)。
-
文摘
随着目标检测模型和语言大模型的迅速发展,网络模型正变得越来越庞大。为了更好地在端侧硬件上进行模型部署,通常采用模型量化技术对模型进行压缩。现有的模型量化策略主要基于FP16,BF16和INT8等类型实现。其中,8bit数据类型在降低推理内存占用与部署开销方面最为显著,但INT8类型依赖特定的校准算法,未能很好地处理动态范围大、离群点多的模型。FP8类型能够更好地拟合神经网络中的数据分布,同时具有多种数制,可在表达范围和表达精度上灵活调整。然而,当前MLIR系统缺乏对FP8类型量化的支持。为此,提出了一种基于MLIR系统的FP8量化模拟策略,包含FP8E4M3和FP8E5M2两种数制,通过对网络中的算子进行量化模拟,评估FP8两种数制对模型推理精度的影响。同时,针对推理引擎中存在的内存分配冗余问题,提出了一种基于定义使用链的内存复用策略,使得模型推理过程中的内存占用峰值进一步减小。实验选取了典型的Yolov5s和Resnet50模型进行测试,结果表明相较于现有的INT8量化策略,FP8量化策略能够保持更好的模型精度,同时不依赖特定校准算法,部署更为简便。在模型精度上,测试用例分别达到了55.5%和77.8%的准确度,经过内存复用优化,内存占用峰值降低了约15%~20%。
-
关键词
模型压缩
深度学习编译器
FP8量化
mlir
Yolov5s模型
-
Keywords
Model compression
Deep learning compiler
FP8 quantification
mlir
Yolov5s model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-