混合专家模型(mixture of experts,MoE)是一种神经网络模型架构,其特点是在模型中引入路由网络与专家子网络,进而代替原始的稠密网络。在推理过程中,MoE架构通过路由网络选择每次需要激活的专家子网络,仅激活其中部分专家完成给定任务...混合专家模型(mixture of experts,MoE)是一种神经网络模型架构,其特点是在模型中引入路由网络与专家子网络,进而代替原始的稠密网络。在推理过程中,MoE架构通过路由网络选择每次需要激活的专家子网络,仅激活其中部分专家完成给定任务。由于采用稀疏激活机制,混合专家模型同与其性能相当的稠密模型相比,大幅减少了训练和推理过程的计算开销,使得在给定计算成本下扩展模型规模成为可能。展开更多
文摘混合专家模型(mixture of experts,MoE)是一种神经网络模型架构,其特点是在模型中引入路由网络与专家子网络,进而代替原始的稠密网络。在推理过程中,MoE架构通过路由网络选择每次需要激活的专家子网络,仅激活其中部分专家完成给定任务。由于采用稀疏激活机制,混合专家模型同与其性能相当的稠密模型相比,大幅减少了训练和推理过程的计算开销,使得在给定计算成本下扩展模型规模成为可能。