模型训练的相关内容 - 漫话开发者

2023-11-03 talkingdev

用于RAG、微调和模型服务的开源工具包

最近，一家开发团队发布了一个名为“LLM Toolkit”的开源Python工具包，用于构建基于RAG的语言模型生成应用程序。它提供了快速的RAG微调、模型训练和服务脚本，同时支持多种文本数据输入和输出格式。该工具包的代码已...

2023-11-01 talkingdev

近期，研究人员深入探究了多模态大型语言模型（MLLMs）中使用的视觉编码器，并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM，一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

2023-10-31 talkingdev

MosaicML发布了一篇关于使用AMD GPU进行大型语言模型训练的文章。该公司在本文中介绍了他们的最新研究结果，使用AMD Radeon Instinct MI100 GPU对GPT-2、GPT-3和T5等大型语言模型进行了训练。结果显示，使用AMD GPU...

2023-10-25 talkingdev

芝加哥大学的研究人员开发了一种工具，让艺术家可以给他们的艺术作品添加不可见的变化，这会导致AI模型训练失败。这个工具旨在防止AI公司未经许可使用艺术家的作品。这个叫Nightshade的工具将被集成到Glaze中，Glaze...

2023-10-19 talkingdev

大规模训练中的不稳定性对于大多数研究人员来说很难复制。一项新论文展示了如何在小模型中重现这些不稳定性，并验证了许多常见的修复方法在这些小模型上同样有效。该论文的作者认为，这样做有助于提高大规模训练的可...

2023-10-17 talkingdev

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议，但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式，以便更方便地进...

2023-10-03 talkingdev

训练优秀的视频模型通常需要巨大的资源，这种需求往往超出了学术界的承受范围。现在，研究人员已经找到了一种方法，只需要使用一台配备八个标准GPU的机器，在一天内就能完成这些模型的训练。这意味着，我们不再需要...

2023-09-29 talkingdev

模型通常针对特定任务（例如，语言生成和图像生成）进行单独训练。然而，最近提出的一种名为联合自回归混合（JAM）的算法，通过巧妙地交叉注意力和温和的微调，成功地将不同的模型结合在一起。这种新颖的方法在多种...