漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

30T多语言开放数据集发布

talkingdev • 2023-11-08

911943 views

Red Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。

核心要点

  • Red Pajama v2数据集发布
  • 数据集比GPT-4训练数据集大2.5倍
  • 涵盖五种语言的多语言数据

Read more >