漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-23 talkingdev

MPT 30B发布:具备编码能力的巨型语言模型

MPT是MosaicML推出的一系列语言模型。仅在推出几周内,其7B模型已经被下载了数百万次。这款全新的30B模型是在H100s上进行训练的,具备8000个上下文长度。它经过商业授权,甚至可以进行编码!该模型可以在单个A100上...

Read More
2023-06-02 talkingdev

加速MPT 65K上下文模型

最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型,它可以在上下文中使用高达65k个标记。但是,使用这个模型进行推理非常缓慢。通过添加键/值缓存,我们可以将生成速度提高近10倍。 ## 内...

Read More
2023-05-08 talkingdev

新技术发布:MosaicML发布具有更长“上下文”的语言模型

MosaicML最近发布了一种新的语言模型,可以处理多达65k个“词”的文本。这意味着该模型可以将整个小说《了不起的盖茨比》放入上下文中,并根据其写出一篇结尾。以下是该技术的三个核心要点: - 传统的语言模型只能在...

Read More
2023-05-05 talkingdev

HuggingFace在Replit上开放Pass@20代码模型

近期,mosaic ML平台引起了广泛关注。其中一个令人惊讶的模型就是Pass@20,该模型的大小惊人地小,但性能卓越。它由曾经在Google编程合成项目工作的人员在转到Replit后进行训练。在标准的HumanEval基准测试中,它可...

Read More
2023-05-03 talkingdev

火车稳定扩散,只需要5万美元

Mosaic ML正在开发一个工具包,使模型训练变得非常容易。他们在公共云上复制了稳定扩散训练,只需47,000美元。该代码已经开源。他们的平台可以自动从硬件故障中恢复。有趣的是,这个模型得到了用户高度评价,可能是...

Read More
2023-04-21 talkingdev

科技新闻:RedPajama发布首款模型

- Mosaic使用440个GPU训练了一个10亿参数的模型,训练了2000亿个令牌 - 这个模型展示了Mosaic强大的模型训练技术,称为RedPajama - 该模型使用了AliBi技术,理论上可以扩展到超过2000个上下文 以上是关于Mosaic发布...

Read More
  1. Prev Page