语言模型训练的相关内容 - 漫话开发者

2023-06-21 talkingdev

LOMO：高效的LLM训练（GitHub开源）

这项研究介绍了LOw-Memory Optimization（LOMO），这是一种旨在显著减少大型语言模型（LLM）训练所需资源的优化器，目前这一过程需要大量的GPU资源。LOMO的创新方法使得只需使用一台具有8个RTX 3090 GPU（每个具有24...

本文讨论了几种加速大型语言模型（LLM）训练和推理的技术，以使用高达100K个输入令牌的大上下文窗口。这些技术包括：ALiBi位置嵌入，稀疏注意力，闪电注意力，多查询注意力，条件计算以及使用80GB的A100 GPU。

## 新闻内容： GitHub开源社区发布了一款名为CodeTF的Python Transformer库，致力于提高代码智能化的水平，为使用者提供了一个训练与推理的平台，可以轻松实现代码智能化任务，如代码摘要、翻译、生成等。 CodeTF...