Transformer-Lite的相关内容 - 漫话开发者

2024-04-02 talkingdev

论文：Transformer-Lite，在手机GPU上运行大型语言模型

在移动设备上运行语言模型面临着延迟、带宽和功耗等多方面的挑战。本研究通过采用量化技术、移除键值缓存以及其他优化手段，成功实现了在手机上以每秒30个令牌的速度运行强大的Gemma 2B模型。这一成果比其他框架快约...