论文：SoftMoE，一种改进的稀疏混合专家模型，低成本提高模型容量

talkingdev • 2023-08-04

1188574 views

SoftMoE 是一种新的模型架构，它改进了稀疏的混合专家（MoE）模型。通过使用软分配方法，每个专家处理输入令牌的子集，SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中，SoftMoE的表现超过了标准的变压器和其它MoE模型。与ViT-Huge/14模型相比，它的表现同样出色，但推理成本要低得多。当进行扩展时，SoftMoE大幅增加了模型参数，同时保持推理时间成本最小，从而提高了性能。更重要的是，它是完全可微的！

核心要点

SoftMoE 是一种新的模型架构，改进了稀疏的混合专家（MoE）模型
SoftMoE的表现超过了标准的变压器和其它MoE模型
SoftMoE大幅增加了模型参数，同时保持推理时间成本最小，从而提高了性能

论文：SoftMoE，一种改进的稀疏混合专家模型，低成本提高模型容量

核心要点

Related posts