近日,OpenAI推出了数据伙伴计划,旨在与机构合作生产训练人工智能模型所需的数据集。该计划已经与包括冰岛政府和非营利组织Free Law Project在内的众多机构建立了合作关系。数据伙伴计划旨在通过与合作伙伴共享数据...
Read MoreRed Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。
Read More最受欢迎的扩散模型,如稳定扩散,已经在各种数据上进行了训练,但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练,其性能与SD2相当,并且只需要训练数据的一小部分。
Read More虽然有许多开放数据集,但能够训练前沿模型的规模却少之又少。艾伦人工智能研究所的Dolma数据集就致力于这一目标,希望能够使研究者能够在大规模上研究数据效应。这一数据集的发布,不仅为研究者提供了更高质量,更...
Read More一个名为“Pick-a-Pic”的网络应用程序被创建,让人们生成图像并分享他们的喜好,从而形成了一个大型的开放数据集,用于训练一个智能评分系统PickScore。PickScore非常擅长预测人们的喜好,并且在评估文本到图像模型方...
Read More