-
题名分布式技术在大模型训练和推理中的应用
- 1
-
-
作者
郑纬民
-
机构
清华大学计算机科学与技术系
-
出处
《大数据》
2024年第5期1-10,共10页
-
基金
国家自然科学基金项目(No.U23A6007)。
-
文摘
近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统SuperFS,能够同时满足低延迟和可扩展的要求。在数据预处理环节,针对从分布式文件系统读取数据开销大的问题,研发了高效大数据处理引擎“诸葛弩”。在模型训练环节,针对检查点文件读写性能差的问题,提出了分布式检查点策略,加快了检查点文件的读写速度。在模型推理环节,针对KVCache对存储系统的挑战,研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用,使大模型能够充分利用计算资源,加快训练速度,有利于人工智能领域的发展。
-
关键词
分布式技术
大模型
海量小文件
大数据处理引擎
检查点
kvcache
-
Keywords
distributed technology
large language model
massive small files
big data processing engine
checkpoint
kvcache
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-