数据标记的相关内容 - 漫话开发者

2024-06-28 talkingdev

Meta发布LLM编译器：性能优化至77%，反汇编性能达45%

近日，Meta发布了两款语言模型，旨在将代码编译成汇编语言并能够反编译至LLVM IR。这两款模型在5460亿个高质量数据标记上接受了训练，并进行了进一步的指令调优。Meta的这一创新实现了优化后的汇编性能达到77%，反汇...

2024-03-29 talkingdev

CoDA作为一种新的无监督领域适应（UDA）方法，通过在场景和图像两个层面学习差异，帮助AI模型更好地适应未标记的、具有挑战性的环境。CoDA的核心在于利用大量未标记数据来训练模型，使其在面对新场景时仍能保持高效...

2024-01-22 talkingdev

以往认为难问题需要难数据，但这些数据很难标记且带噪音。这项研究表明，对相关但易处理的数据进行微调训练，可以极大提高模型解决难问题的能力。这是支持微调训练是引出知识而非添加知识的又一数据点。本研究成果对...

2023-09-20 talkingdev

在谷歌的新数据集发布后，CulturaX紧随其后，推出了新的数据集。这是一个清洁整理过的多语言数据标记集，总量达到了6T。这一数据集的发布，将为多语言语言模型的进一步发展提供巨大的助力。谷歌和CulturaX的这两次数...