Kimi Linear技术报告发布:新型架构实现注意力机制效率突破
thinkindev • 2025-10-31
3637 views
月之暗面(Moonshot AI)正式发布Kimi Linear技术报告,这项突破性架构通过创新设计实现了对传统全注意力机制的全面超越。该架构在保持同等性能水平下,将KV缓存使用量最高降低75%,在100万上下文长度场景中解码吞吐量提升高达6倍。技术团队开源了即插即用的KDA内核,可直接替代现有全注意力模块。两个公开模型基于5.7万亿token进行训练,在长序列处理任务中展现出显著优势。这一技术突破对大规模语言模型部署具有重大意义,特别是在需要处理超长文本的工业应用场景中,为降低计算成本、提升推理效率提供了新的技术路径。
核心要点
- KV缓存使用量最高降低75%,解码吞吐量提升6倍
- 开源KDA内核支持即插即用替换全注意力机制
- 基于5.7万亿token训练的双模型架构