漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

新技术SpQR:高效LLM压缩技术

talkingdev • 2023-06-12

1341219 views

近日,研究人员提出了一种名为Sparse-Quantized Representation(SpQR)的新技术,可以实现对大型语言模型(LLMs)的几乎无损压缩,克服了量化带来的精度损失。这项技术使得强大的LLMs可以在像笔记本电脑和手机这样的普通设备上运行,而不会导致性能下降,提供了超过4倍的内存压缩率和比传统方法更快的推理速度。 ## 主要内容 新技术SpQR可以实现以下三点核心内容: - SpQR是一种新的压缩格式和技术,可以实现对大型语言模型的几乎无损压缩。 - SpQR可以使强大的LLMs在普通设备上运行,而不会导致性能下降。 - SpQR比传统方法更快地完成推理任务。