PyTorch的相关内容 - 漫话开发者

2024-03-26 talkingdev

Cerebras推出新型CS3芯片，支持24T参数语言模型训练

Cerebras公司近日推出了其最新款的CS3晶圆芯片，该芯片具备训练高达24T参数语言模型的能力。CS3芯片的发布，标志着在人工智能领域对高性能计算芯片的需求得到了进一步的满足。这款芯片原生支持PyTorch，使得开发者能...

2024-03-22 talkingdev

Meta公司近日发布了一个名为Torchtune的原生PyTorch库，专门用于精细调整语言模型。该库旨在为开发者提供更为便捷的工具，以便在PyTorch框架中进行语言模型的微调工作。通过Torchtune，开发者可以更容易地实现模型性...

2024-03-13 talkingdev

Meta在这篇博客文章中概述了用于训练Llama 3的基础设施。它介绍了存储、网络、Pytorch、NCCL等改进。这将为Meta今年其余时间上线的H100s打下基础。

2024-03-08 talkingdev

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术，以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术，并详细讨论了它们的优缺点。...

2024-02-21 talkingdev

AdamW通常用于解耦学习率和权重衰减。然而，Pytorch中的常见实现并没有明确地做到这一点。本文讨论了如何调整这些参数。 AdamW是一种优化算法，它在Adam的基础上加入了权重衰减。AdamW的优点之一是可以解决权重衰减...

2024-02-14 talkingdev

Axolotl是许多团队用来微调语言模型的工具。这个PR通过Pytorch和MPS添加了对Mac M设备的支持。

2024-02-01 talkingdev

使用较低精度的模型训练速度更快、更便宜，但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上，提供易于阅读和可修改的代码，实现浮点8训练。

2024-01-29 talkingdev

本文将提供一个使用Pytorch从零开始编写稀疏混合专家模型的教程，图文并茂地讲解了每一步骤并提供了代码。其中，对top-k路由的解释特别有见地。