论文推荐|简单自蒸馏显著提升大模型代码生成能力,无需额外验证器或强化学习
thinkindev • 2026-04-06
1639 views
一项名为‘简单自蒸馏’(Simple Self-Distillation, SSD)的新方法为大语言模型的代码生成能力提升开辟了一条高效且成本低廉的路径。该方法的核心在于,仅利用模型自身在特定采样配置(如温度参数和截断策略)下生成的原始代码输出作为训练数据,随后通过标准的有监督微调对模型进行再训练。研究显示,这一看似简单的后训练技术能带来显著的性能跃升。例如,在Qwen3-30B-Instruct模型上,SSD将其在LiveCodeBench v6基准测试上的pass@1准确率从42.4%大幅提升至55.3%,且提升效果在更困难的问题上尤为集中。该方法在Qwen和Llama系列不同规模的模型(4B、8B、30B)上均表现出良好的泛化能力,涵盖了指令微调和思维链变体。 为了探究SSD有效性的内在机理,研究人员深入分析了模型解码过程中的‘精度-探索冲突’。他们发现,SSD能够以一种上下文相关的方式重塑模型的词元分布:在需要高精度的场景下,它会抑制那些分散注意力的‘长尾’低概率选项;而在需要创造性探索的环节,它又能保留有用的多样性。这种动态调整能力,使得模型在生成代码时能更好地平衡正确性与灵活性。SSD的成功表明,无需依赖外部验证器、教师模型或复杂的强化学习框架,仅通过模型自身产出的‘经验’进行迭代优化,就能有效挖掘大语言模型在代码生成领域的潜力,为模型后训练优化提供了一个极具吸引力的补充方向。
核心要点
- 简单自蒸馏(SSD)方法仅利用大模型自身生成的代码样本进行微调,无需额外验证器或强化学习,即可显著提升代码生成准确率。
- 实验表明,SSD能将Qwen3-30B-Instruct在LiveCodeBench v6上的pass@1准确率从42.4%提升至55.3%,并在不同模型和规模上具有良好泛化性。
- 机理分析揭示,SSD通过上下文相关的方式重塑词元分布,解决解码中的‘精度-探索冲突’,在需要时抑制干扰项并保留有用多样性。