模型训练的相关内容 - 漫话开发者

2024-04-10 talkingdev

使用Colab在H100上训练超过20万上下文窗口的新梯度累积卸载技术

Longcontext Alpaca训练技术最近取得了重大突破，通过在H100硬件上使用新的梯度累积卸载技术，成功训练了超过200,000个上下文窗口。这种创新方法使得大规模深度学习模型的训练变得更加高效，显著提高了计算资源的利...

2024-04-09 talkingdev

近期，Andrei Karpathy推出了一个名为llm.c的项目，该项目展示了如何使用C和CUDA编程语言来训练大型语言模型（LLM）。这一创新方法避免了对PyTorch等大型深度学习框架的依赖，尤其是其所需的250MB以上的资源。这种训...

2024-04-08 talkingdev

Meta的研究团队近日推出了一款新型的优化器，并已在X平台上公开代码及其多种集成方式。这款优化器的独特之处在于它不依赖于学习率（LR）调度，训练过程中无需预先设定总步数。经过实证，该优化器在包括语言模型在内...

2024-04-05 talkingdev

YouTube 首席执行官 Neal Mohan 近日表示，使用该平台的视频内容来训练 OpenAI 的 Sora 文本到视频生成器将违反 YouTube 的服务条款。尽管 Neal Mohan 没有直接证据表明此类训练已经发生，但他的声明明确了 YouTube...

2024-04-05 talkingdev

OpenAI最近宣布扩大其定制模型计划，通过辅助微调和定制训练模型，帮助企业客户开发适合特定使用场景的生成式AI模型。这一服务的推出，意味着企业可以根据自己的特定需求，获得更加个性化和高效的AI解决方案。生成式...

2024-04-03 talkingdev

HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成，还包括对数据进行精心的筛选和过滤，以确保其在模型训练中的有效性和准确性。通过这种方...

2024-03-26 talkingdev

Cerebras公司近日推出了其最新款的CS3晶圆芯片，该芯片具备训练高达24T参数语言模型的能力。CS3芯片的发布，标志着在人工智能领域对高性能计算芯片的需求得到了进一步的满足。这款芯片原生支持PyTorch，使得开发者能...

2024-03-25 talkingdev

Databricks Mosaic团队在语言模型训练领域不断创新。在最近的一篇文章中，他们讨论了用于fp8训练的训练技术栈，以及通过降低精度所带来的一些优势。fp8作为一种新兴的计算精度格式，能够在保持足够精度的同时，大幅...