KVSplit开源-苹果上运行更长上下文的LLM，内存减少59%

近日，开发者dipampaul17在GitHub上发布了KVSplit项目，该项目通过差异化精度的KV缓存量化技术，在苹果芯片（M1/M2/M3/M4）上实现了更长上下文的LLM推理。研究发现，LLM推理中的KV缓存中，键（Keys）和值（Values）对量化的敏感度不同：键需要更高的精度以保持模型质量。KVSplit通过为键和值分配不同的比特宽度（如8-bit键和4-bit值），在内存减少59%的同时，仅带来0.86%的困惑度损失。相比之下，4-bit键和8-bit值的配置虽然内存减少相同，但困惑度损失高达6.06%。这一技术使得用户可以在同一台Mac上运行上下文长度增加2-3倍的LLM。项目已集成到llama.cpp中，支持Metal加速，并提供了基准测试和可视化工具。