漫话开发者 - UWL.ME Mobile

近日,NVIDIA研究团队提出了一种名为“金鹅”(Golden Goose)的创新方法,旨在解决大语言模型(LLM)强化学习领域的一个关键瓶颈。当前,基于可验证奖励的强化学习(RLVR)是解锁LLM复杂推理能力的重要基石,但其发展受限于现有可验证数据的规模不足,导致模型在长时间训练后性能提升趋于饱和。“金鹅”方法巧妙地通过一个简单的技巧,将大量原本无法直接用于RLVR训练的、富含推理过程但未经验证的互联网文本(如科学教科书),转化为可无限合成的RLVR任务。其核心在于,针对给定的源文本,利用LLM识别并掩码关键推理步骤,然后生成一组多样且合理的干扰选项,从而构建出一个多项选择的“填空”任务版本。基于此方法,研究团队从数学、编程和通用科学领域的文本中,合成了包含超过70万个任务的大规模RLVR数据集GooseReason-0.7M。实验表明,该数据集能有效“唤醒”在现有RLVR数据上已饱和的模型性能,在持续强化学习训练下带来稳健、持续的提升,并使1.5B和4B-Instruct参数规模的模型在15个不同的基准测试中取得了新的最先进(SOTA)结果。更值得关注的是,研究团队将“金鹅”方法应用于现实场景,从网络安全领域的原始网络抓取文本(FineWeb)中合成了RLVR任务,创建了GooseReason-Cyber数据集。使用该数据集训练的Qwen3-4B-Instruct模型,在网络安全任务上树立了新的SOTA,甚至超越了经过大量领域特定预训练和后训练的7B参数专业模型。这项工作凸显了通过挖掘海量、富含推理、但未经验证的互联网文本,来自动化扩展RLVR数据的巨大潜力,为突破大模型强化学习的数据瓶颈提供了新的可行路径。

核心要点

  • 提出“金鹅”方法,通过将未验证网络文本转化为多项选择填空任务,无限合成RLVR数据,解决强化学习数据瓶颈。
  • 基于该方法构建了超70万任务的GooseReason数据集,有效提升模型在数学、科学等领域的持续学习性能,达到SOTA水平。
  • 成功应用于网络安全等零数据领域,仅用合成数据训练的4B模型即超越经大量专业训练的7B模型,展示了方法的强大泛化能力。

Read more >