AI21发布Jamba语言模型,性能超越Transformers
talkingdev • 2024-03-29
686967 views
AI21实验室近日发布了一款新型语言模型——Jamba,它采用了独特的模型结构,旨在实现比Transformers更高的效率,同时保持相当的性能水平。Jamba模型的最大亮点在于其创新性地融合了MoE(Mixture of Experts)层,这使得其在处理长文本时表现出色。据悉,Jamba模型能够以每秒1.6k的速率处理128k token长度的文本,且在MMLU基准测试中取得了67%的优异成绩。目前,该模型的权重已经对外公开,供研究者和开发者使用。