漫话开发者 - UWL.ME Mobile

近日,开发者dipampaul17在GitHub上发布了KVSplit项目,该项目通过差异化精度的KV缓存量化技术,在苹果芯片(M1/M2/M3/M4)上实现了更长上下文的LLM推理。研究发现,LLM推理中的KV缓存中,键(Keys)和值(Values)对量化的敏感度不同:键需要更高的精度以保持模型质量。KVSplit通过为键和值分配不同的比特宽度(如8-bit键和4-bit值),在内存减少59%的同时,仅带来0.86%的困惑度损失。相比之下,4-bit键和8-bit值的配置虽然内存减少相同,但困惑度损失高达6.06%。这一技术使得用户可以在同一台Mac上运行上下文长度增加2-3倍的LLM。项目已集成到llama.cpp中,支持Metal加速,并提供了基准测试和可视化工具。

核心要点

  • KVSplit通过差异化精度的KV缓存量化技术,在苹果芯片上实现内存减少59%且困惑度损失低于1%。
  • 8-bit键和4-bit值的配置(K8V4)比4-bit键和8-bit值(K4V8)的质量高7倍。
  • 该项目已集成到llama.cpp,支持Metal加速,适用于M1/M2/M3/M4芯片的Mac设备。

Read more >