漫话开发者 - UWL.ME Mobile

DeepMind的研究团队近日在arXiv上发布了一项名为“弹性循环Transformer”的创新工作,为视觉生成模型领域带来了显著的效率突破。传统视觉生成模型通常依赖堆叠大量独立的Transformer层,导致参数量庞大。ELT的核心创新在于采用了一种循环、权重共享的Transformer块架构,通过让同一组参数在模型深度上循环使用,从而在保持高质量生成能力的同时,大幅削减了模型的总参数量。为了有效训练这种循环架构,研究团队提出了“循环内自蒸馏”方法,在单次训练步骤中,将完整循环(教师配置)的知识蒸馏给中间循环(学生配置),确保了模型在不同循环深度下输出的一致性。这一框架使得仅通过一次训练就能获得一个“弹性”模型家族,支持“任意时间”推理,用户可以在推理时动态权衡计算成本与生成质量,而无需重新训练或切换模型。实验结果表明,ELT显著提升了视觉合成的效率边界:在同等推理计算量下,参数量减少至1/4,仍在ImageNet 256×256类别条件图像生成上取得了2.0的竞争性FID分数,在UCF-101类别条件视频生成上取得了72.8的FVD分数。这项研究为开发更轻量、更灵活的下一代生成式AI模型提供了重要思路。

核心要点

  • 采用循环权重共享Transformer块,大幅减少视觉生成模型参数量,提升效率。
  • 提出循环内自蒸馏训练方法,确保单次训练所得模型在不同深度下性能一致。
  • 实现“弹性”推理,支持用户动态权衡计算成本与生成质量,无需重新训练。

Read more >