Mosaic的相关内容 - 漫话开发者

2024-07-01 talkingdev

深入探讨：训练MoEs模型

Mosaic团队已与PyTorch合作，撰写关于如何扩展他们的MoEs模型至数千个GPU的文章。MoEs，全称Mixture of Experts，是一种深度学习的模型结构，其核心思想是将复杂的问题分解为若干个相对简单的子问题，然后由专家系统...

2024-03-28 talkingdev

科技巨头Databrix与Mosaic合作，成功训练了一个具有132B参数的混合专家（MoE）模型。该模型在3000个H100 GPU上进行了训练，目前其权重文件已经公开发布。此外，该模型也已在Databricks API上提供服务，供企业和开发...

2024-03-25 talkingdev

Databricks Mosaic团队在语言模型训练领域不断创新。在最近的一篇文章中，他们讨论了用于fp8训练的训练技术栈，以及通过降低精度所带来的一些优势。fp8作为一种新兴的计算精度格式，能够在保持足够精度的同时，大幅...

2024-01-03 talkingdev

BERT是一种仅有编码器的Transformer。这意味着它通常用于以嵌入形式表示自然语言，而不是用于生成文本。重要的是，它是最早用于搜索的Transformer之一，因为它可以表示查询和要检索的信息。Mosaic团队集成了FlashAtt...

2023-10-31 talkingdev

MosaicML发布了一篇关于使用AMD GPU进行大型语言模型训练的文章。该公司在本文中介绍了他们的最新研究结果，使用AMD Radeon Instinct MI100 GPU对GPT-2、GPT-3和T5等大型语言模型进行了训练。结果显示，使用AMD GPU...

2023-10-27 talkingdev

最受欢迎的扩散模型，如稳定扩散，已经在各种数据上进行了训练，但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练，其性能与SD2相当，并且只需要训练数据的一小部分。

2023-10-17 talkingdev

MosaicFusion是一款神奇的工具，可以创建许多对象的新图片，而无需任何先前的学习。它分两步完成：首先制作图片，然后创建一个遮罩，显示每个对象的位置。

2023-07-03 talkingdev

这篇文章共享了关于Casetext的深入见解，它是一个花了十年时间才取得成功的一夜爆红案例，这篇文章展示了人工智能的变革性能量以及在机会来临时，必须要抓住机会的重要性。

2023-06-23 talkingdev

MPT是MosaicML推出的一系列语言模型。仅在推出几周内，其7B模型已经被下载了数百万次。这款全新的30B模型是在H100s上进行训练的，具备8000个上下文长度。它经过商业授权，甚至可以进行编码！该模型可以在单个A100上...

2023-06-02 talkingdev

最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型，它可以在上下文中使用高达65k个标记。但是，使用这个模型进行推理非常缓慢。通过添加键/值缓存，我们可以将生成速度提高近10倍。 ## 内...