量化的相关内容 - 漫话开发者

2024-04-02 talkingdev

论文：Transformer-Lite，在手机GPU上运行大型语言模型

在移动设备上运行语言模型面临着延迟、带宽和功耗等多方面的挑战。本研究通过采用量化技术、移除键值缓存以及其他优化手段，成功实现了在手机上以每秒30个令牌的速度运行强大的Gemma 2B模型。这一成果比其他框架快约...

2024-03-29 talkingdev

1比特语言模型的研究为深度学习领域带来了新的突破。该技术通过在不损失性能的前提下，对语言模型中的线性层进行量化处理，实现了模型大小的大幅压缩。这一创新使得原本只能在高性能计算平台上运行的700亿参数模型，...

2024-03-04 talkingdev

随着人工智能模型的不断发展，越来越多的研究人员开始研究如何在不影响模型准确性的前提下，提高模型的计算效率和内存利用率。LLM量化是一种后训练量化技术，可以使像OPT和LLaMA2这样的大型语言模型更具内存和计算效...

2024-02-29 talkingdev

IR-QLoRA是一种新方法，它可以提高量化大型语言模型的准确性，使它们更适合在资源有限的设备上使用。量化是一种通过降低浮点精度来减少计算资源需求的技术。虽然这种方法可以大大减少模型的计算量和存储空间，但它也...

2024-02-21 talkingdev

KV缓存的量化是Transformer架构的一个技术细节，它使其在推理时使用更少的内存。量化是在最小损失质量的情况下缩小浮点精度。

2024-02-20 talkingdev

Qwen团队发布了两个新的语言模型，分别是1.8B和72B的LLMs，与Llama 2相似，这些模型训练了3T个标记，并且在许多任务上表现出色。除了发布聊天版本和量化版本外，这些模型还在推理、数学和代码方面表现出色。

2024-02-01 talkingdev

使用较低精度的模型训练速度更快、更便宜，但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上，提供易于阅读和可修改的代码，实现浮点8训练。

2024-02-01 talkingdev

本周，Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露，该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道，该模型在EQ-Bench上超过了全球所有其他LLM模型，仅次于GPT-4。Mistra...