论文：用小模型研究大模型，研究人员通过小模型验证大模型训练中的不稳定性

talkingdev • 2023-10-19

969815 views

大规模训练中的不稳定性对于大多数研究人员来说很难复制。一项新论文展示了如何在小模型中重现这些不稳定性，并验证了许多常见的修复方法在这些小模型上同样有效。该论文的作者认为，这样做有助于提高大规模训练的可靠性，为更好地训练大规模深度学习模型打下基础。