漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

TabLiB 800B发布,推动大规模数据模型发展

talkingdev • 2023-10-17

975626 views

近日,TabLiB 800B发布,这是目前最大的公开表格数据集,包括了6.27亿张表格和8670亿个上下文信息的令牌。这个数据集的发布旨在鼓励社区构建更好地理解表格数据的大型数据模型。此外,该数据集还包含了来自不同领域的数据,例如医学、金融和工程等。目前,TabLiB 800B已经在Hugging Face上面开放下载,为研究人员和数据科学家提供了极大的便利。未来,该数据集还将不断完善和更新,以期推动大规模数据模型的发展。

核心要点

  • TabLiB 800B是最大的公开表格数据集
  • 数据集包括6.27亿张表格和8670亿个上下文信息的令牌
  • 该数据集的发布旨在鼓励社区构建更好地理解表格数据的大型数据模型

Read more >