推理加速的相关内容 - 漫话开发者

2024-05-09 talkingdev

QoQ高效量化算法助力LLM推理加速

QoQ，一种新型量化算法，通过使用4位权重、8位激活和4位KV缓存，加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术，它能够减少模型的存储需求和计算复杂性。在这种情况下，QoQ算法采用了较低精度的数...

2024-05-08 talkingdev

Consistency LLM是一种新的自然语言处理模型，可以将其转换为并行解码器，从而将推理时间缩短至3.5倍。LLM模型是一种具有良好性能的模型，但推理速度较慢。该研究团队将LLM转换为并行解码器，使用了一种名为一致性训...

2023-10-25 talkingdev

DeepSparse是一种CPU推理运行时，它利用稀疏性加速神经网络推理。稀疏性是指神经网络中有很多权重为零的连接，DeepSparse利用这些零权重的连接，跳过不必要的计算，从而实现推理加速。DeepSparse是一个开源项目，可...

2023-06-19 talkingdev

本文讨论了几种加速大型语言模型（LLM）训练和推理的技术，以使用高达100K个输入令牌的大上下文窗口。这些技术包括：ALiBi位置嵌入，稀疏注意力，闪电注意力，多查询注意力，条件计算以及使用80GB的A100 GPU。