漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

HuggingFace开源数据过滤库Datatrove

talkingdev • 2024-01-23

693033 views

HuggingFace发布了Datatrove,这是一个用于过滤大型文本数据集的库。它具有许多有用的原语和用于文本过滤的完整并行管道。可在C4中使用Gopher质量过滤器的示例。

核心要点

  • HuggingFace发布了数据过滤库Datatrove。
  • Datatrove用于过滤大型文本数据集。
  • Datatrove具有许多有用的原语和完整并行管道。

Read more >