Mosaic的相关内容 - 漫话开发者

2023-06-23 talkingdev

MPT 30B发布：具备编码能力的巨型语言模型

MPT是MosaicML推出的一系列语言模型。仅在推出几周内，其7B模型已经被下载了数百万次。这款全新的30B模型是在H100s上进行训练的，具备8000个上下文长度。它经过商业授权，甚至可以进行编码！该模型可以在单个A100上...

2023-06-02 talkingdev

最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型，它可以在上下文中使用高达65k个标记。但是，使用这个模型进行推理非常缓慢。通过添加键/值缓存，我们可以将生成速度提高近10倍。 ## 内...

2023-05-08 talkingdev

MosaicML最近发布了一种新的语言模型，可以处理多达65k个“词”的文本。这意味着该模型可以将整个小说《了不起的盖茨比》放入上下文中，并根据其写出一篇结尾。以下是该技术的三个核心要点： - 传统的语言模型只能在...

2023-05-05 talkingdev

近期，mosaic ML平台引起了广泛关注。其中一个令人惊讶的模型就是Pass@20，该模型的大小惊人地小，但性能卓越。它由曾经在Google编程合成项目工作的人员在转到Replit后进行训练。在标准的HumanEval基准测试中，它可...

2023-05-03 talkingdev

Mosaic ML正在开发一个工具包，使模型训练变得非常容易。他们在公共云上复制了稳定扩散训练，只需47,000美元。该代码已经开源。他们的平台可以自动从硬件故障中恢复。有趣的是，这个模型得到了用户高度评价，可能是...

2023-04-21 talkingdev

- Mosaic使用440个GPU训练了一个10亿参数的模型，训练了2000亿个令牌 - 这个模型展示了Mosaic强大的模型训练技术，称为RedPajama - 该模型使用了AliBi技术，理论上可以扩展到超过2000个上下文以上是关于Mosaic发布...