论文:PowerInfer消费级GPU的LLMs
thinkindev • 2024-01-01
1439108 views
本文探讨了模型中存在几乎所有输入都会使用的热神经元和很少使用的冷神经元的想法。通过将热神经元预加载到GPU中,您可以节省内存而不会牺牲太多吞吐量。可以使用配套的代码库。
核心要点
- 探讨模型中存在的热神经元和冷神经元的想法
- 通过将热神经元预加载到GPU中,可以节省内存
- 代码库可用
thinkindev • 2024-01-01
1439108 views
本文探讨了模型中存在几乎所有输入都会使用的热神经元和很少使用的冷神经元的想法。通过将热神经元预加载到GPU中,您可以节省内存而不会牺牲太多吞吐量。可以使用配套的代码库。