论文:Yuan 2.0-M32,具备注意力路由的MOE专家混合模型
talkingdev • 2024-05-31
505447 views
Yuan 2.0-M32是一款具备40亿参数的专家混合模型,其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19,但其性能却接近后者。该模型在2万亿个token上进行了训练,展现出了令人惊讶的强大性能。Yuan 2.0-M32的设计理念在于通过注意力路由机制来优化模型性能和计算效率,从而在保持较低计算成本的同时,提供高质量的输出。这种技术不仅提升了模型的灵活性和适应性,还为大规模语言模型的发展提供了新的方向。
核心要点
- Yuan 2.0-M32拥有40亿参数,任意时刻激活3.7亿参数
- 其计算需求仅为Llama 3 70B的1/19,但性能接近
- 在2万亿个token上进行训练,展现出强大性能