MusicBrainz 是一个开放的音乐百科全书,致力于为用户提供全面的音乐信息和数据。作为一个社区驱动的平台,MusicBrainz 允许用户贡献和编辑有关艺术家、专辑、曲目及其历史的详细资料。这一平台的独特之处在于其开放...
Read More近日,OpenAI推出了数据伙伴计划,旨在与机构合作生产训练人工智能模型所需的数据集。该计划已经与包括冰岛政府和非营利组织Free Law Project在内的众多机构建立了合作关系。数据伙伴计划旨在通过与合作伙伴共享数据...
Read MoreRed Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。
Read More最受欢迎的扩散模型,如稳定扩散,已经在各种数据上进行了训练,但其中很多数据受到不同的版权限制。MosaicML提出的这种新模型纯粹基于创意共享数据进行训练,其性能与SD2相当,并且只需要训练数据的一小部分。
Read More虽然有许多开放数据集,但能够训练前沿模型的规模却少之又少。艾伦人工智能研究所的Dolma数据集就致力于这一目标,希望能够使研究者能够在大规模上研究数据效应。这一数据集的发布,不仅为研究者提供了更高质量,更...
Read More一个名为“Pick-a-Pic”的网络应用程序被创建,让人们生成图像并分享他们的喜好,从而形成了一个大型的开放数据集,用于训练一个智能评分系统PickScore。PickScore非常擅长预测人们的喜好,并且在评估文本到图像模型方...
Read More