漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-17 talkingdev

Libgen转换为txt的文本数据集开源

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议,但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式,以便更方便地进...

Read More