针对大规模语言模型(Large Language Models, LLMs)在资源受限的边缘设备部署遭遇的双重技术挑战,现有的各种解决方法往往缺乏动态适配能力,既难以全面满足边缘环境下算力、内存与网络资源的时变特征,也难以应对不同推理阶段计算需求之...针对大规模语言模型(Large Language Models, LLMs)在资源受限的边缘设备部署遭遇的双重技术挑战,现有的各种解决方法往往缺乏动态适配能力,既难以全面满足边缘环境下算力、内存与网络资源的时变特征,也难以应对不同推理阶段计算需求之间的差异性特征。文章提出SYNERGOS框架,采用动态分片调度策略与多维度异构资源协同优化机制在边缘计算场景中实现LLMs的高效推理。此框架依靠设备异构算力评定,动态内存预算塑造以及网络拓扑特点分析,规划出分片自适应划分算法,形成模型层组动态重组系统,并创建起预填充时期和自回归时期的端到端时延合并改良模型,采用轻量压缩通信协议来削减中间激活张量跨设备传递的费用。实验显示,在BERT,GPT-2和Qwen2这些模型布置当中,SYNERGOS相对于标准做法达成了最多可达16.8%的端到端时延减小比例,这个框架凭借动态内存安全限定以及对时延敏感任务实施调度,给资源受到限制的边缘设备赋予了一种可拓展且能自行调节的LLMs推理服务结构。展开更多
文摘针对大规模语言模型(Large Language Models, LLMs)在资源受限的边缘设备部署遭遇的双重技术挑战,现有的各种解决方法往往缺乏动态适配能力,既难以全面满足边缘环境下算力、内存与网络资源的时变特征,也难以应对不同推理阶段计算需求之间的差异性特征。文章提出SYNERGOS框架,采用动态分片调度策略与多维度异构资源协同优化机制在边缘计算场景中实现LLMs的高效推理。此框架依靠设备异构算力评定,动态内存预算塑造以及网络拓扑特点分析,规划出分片自适应划分算法,形成模型层组动态重组系统,并创建起预填充时期和自回归时期的端到端时延合并改良模型,采用轻量压缩通信协议来削减中间激活张量跨设备传递的费用。实验显示,在BERT,GPT-2和Qwen2这些模型布置当中,SYNERGOS相对于标准做法达成了最多可达16.8%的端到端时延减小比例,这个框架凭借动态内存安全限定以及对时延敏感任务实施调度,给资源受到限制的边缘设备赋予了一种可拓展且能自行调节的LLMs推理服务结构。