语言模型推理的相关内容 - 漫话开发者

2024-05-09 talkingdev

QoQ高效量化算法助力LLM推理加速

QoQ，一种新型量化算法，通过使用4位权重、8位激活和4位KV缓存，加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术，它能够减少模型的存储需求和计算复杂性。在这种情况下，QoQ算法采用了较低精度的数...

2024-03-18 talkingdev

本文深入探讨了基于变换器的语言模型推理的“光速”理论极限，强调了内存带宽相较于计算能力的重要性。文章通过实例展示了推理速度主要受限于从内存中读取数据的能力，而非执行计算的速度，这对于优化和理解AI性能是一...

2024-01-21 talkingdev

LMSYS发布了两项语言模型推理的新技术。第一项是对后端进行的改进，提高了每秒的标记总数性能。第二项是嵌入式领域特定语言，用于复杂提示技术，允许并行提示。

2023-12-25 talkingdev

苹果公司发布了两篇论文，介绍了新的三维头像和高效语言模型推理技术，这些技术可以让AI系统在iPhone和iPad上运行。这些技术的引入将使iPhone和iPad变得更加智能，更加个性化。这意味着用户可以在他们的设备上运行更...

2023-12-18 talkingdev

本文包含几个新的人工智能发展故事。这些故事涵盖了人工智能领域的竞争、行业就业现状、人工智能战略、Sourcegraph的Cody AI编码助手正式上线等。多年来致力于为其代码添加注释的工程师们为大型语言模型推理其代码提...

2023-11-23 talkingdev

加速自回归语言模型推理的方式有很多。人们正在热衷于使用草稿模型的一种方式。这需要两个模型，但速度可能会更慢。然而，通过从相同模型生成相关的n-gram，可以减轻对草稿模型的需求，并使生成速度线性加快。

2023-10-05 talkingdev

最近的研究表明，为ViTs注册器添加[reg]标记可以修复图像注意力映射的突增。这项工作表明，将一系列可学习的[pause]标记预置到序列中可以提高语言模型推理（仅解码器，最高可达10亿）的能力，最多可提高18%。直观上...

2023-09-12 talkingdev

语言模型推理通常较慢，因为这些模型的运行严重依赖内存。为了解决这一问题，人们引入了使用较小的草稿模型进行推测性解码，以“提前”提供给大模型的建议。这种方法效果不错，但实现起来复杂，且寻找一个好的草稿模型...

2023-04-16 talkingdev

新闻内容： - Web LLM是一种基于WebGPU技术的大型语言模型推理方法 - 该技术可提高大型语言模型的推理速度和效率 - Web LLM有望应用于自然语言处理、机器翻译等领域，为人工智能技术的应用提供更为便利的解决方案