数据集发布的相关内容 - 漫话开发者

2024-06-04 talkingdev

FineWeb：高质量网络规模文本数据集发布

训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而，FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集，用于语言模型训练。...

2024-05-10 talkingdev

Buzz是一个创新型的数据集，它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现，这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现，无疑为人工智能研究提供了新...

2024-04-03 talkingdev

近日，一个庞大的工业文档OCR数据集正式发布，该数据集包含了2600万页的高质量PDF文档，总计约180亿个标记。这些文档涵盖了工业领域的广泛内容，包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布，将...

2024-02-14 talkingdev

WebLinx是一个包含10万个基于对话格式的网络交互的数据集。它的发布是为了改善基于语言模型导向的网络导航的研究。该数据集包括对话、URL、HTML和屏幕截图。它由Carnegie Mellon大学的研究人员发布，已经开源。这个...

2024-01-26 talkingdev

Song Describer数据集包含1000多个人工编写的音乐记录描述，该数据集可帮助评估音乐与语言模型，例如音乐字幕和文本转音乐生成。

2023-12-21 talkingdev

M3DBench是一个全新的广泛数据集，旨在改变AI的3D理解，填补多模态语言模型研究中的差距。它包括超过320,000个不同的指令响应对，集成了文本、图像和3D对象，为AI执行更广泛的现实3D任务铺平了道路。

2023-11-08 talkingdev

Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据，并具有令人印象深刻的广度。重要的是，已经完成了许多去重工作和一些启发式过滤工作，没有代码数据。

2023-09-20 talkingdev

在谷歌的新数据集发布后，CulturaX紧随其后，推出了新的数据集。这是一个清洁整理过的多语言数据标记集，总量达到了6T。这一数据集的发布，将为多语言语言模型的进一步发展提供巨大的助力。谷歌和CulturaX的这两次数...

2023-06-20 talkingdev

MAGICBRUSH是一个独特的、大规模的数据集，可帮助通过文本指令进行图像编辑，改进了过去容易出错且需要大量手动调整的方法。MAGICBRUSH包含超过10,000个图像及其文本指令的示例，已用于训练InstructPix2Pix图像编辑...

2023-06-09 talkingdev

近日，一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍，这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下，借助这个数据集和创新的...