漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-30 talkingdev

OpenAI推出数据伙伴计划,与机构合作生产训练AI模型的数据集

近日,OpenAI推出了数据伙伴计划,旨在与机构合作生产训练人工智能模型所需的数据集。该计划已经与包括冰岛政府和非营利组织Free Law Project在内的众多机构建立了合作关系。数据伙伴计划旨在通过与合作伙伴共享数据...

Read More
2023-11-08 talkingdev

30T多语言开放数据集发布

Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。

Read More
2023-10-27 talkingdev

论文:基于开放数据训练的图像扩散模型

最受欢迎的扩散模型,如稳定扩散,已经在各种数据上进行了训练,但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练,其性能与SD2相当,并且只需要训练数据的一小部分。

Read More
2023-08-21 talkingdev

3万亿的开放数据集Dolma发布,助力研究者规模化研究数据效应

虽然有许多开放数据集,但能够训练前沿模型的规模却少之又少。艾伦人工智能研究所的Dolma数据集就致力于这一目标,希望能够使研究者能够在大规模上研究数据效应。这一数据集的发布,不仅为研究者提供了更高质量,更...

Read More
2023-05-04 talkingdev

开放数据集“Pick-a-Pic”用于生成文本到图像的用户偏好研究

一个名为“Pick-a-Pic”的网络应用程序被创建,让人们生成图像并分享他们的喜好,从而形成了一个大型的开放数据集,用于训练一个智能评分系统PickScore。PickScore非常擅长预测人们的喜好,并且在评估文本到图像模型方...

Read More