论文推荐|DeepMind提出弹性循环Transformer：参数锐减4倍，视觉生成质量依然顶尖

DeepMind的研究团队近日在arXiv上发布了一项名为“弹性循环Transformer”的创新工作，为视觉生成模型领域带来了显著的效率突破。传统视觉生成模型通常依赖堆叠大量独立的Transformer层，导致参数量庞大。ELT的核心创新在于采用了一种循环、权重共享的Transformer块架构，通过让同一组参数在模型深度上循环使用，从而在保持高质量生成能力的同时，大幅削减了模型的总参数量。为了有效训练这种循环架构，研究团队提出了“循环内自蒸馏”方法，在单次训练步骤中，将完整循环（教师配置）的知识蒸馏给中间循环（学生配置），确保了模型在不同循环深度下输出的一致性。这一框架使得仅通过一次训练就能获得一个“弹性”模型家族，支持“任意时间”推理，用户可以在推理时动态权衡计算成本与生成质量，而无需重新训练或切换模型。实验结果表明，ELT显著提升了视觉合成的效率边界：在同等推理计算量下，参数量减少至1/4，仍在ImageNet 256×256类别条件图像生成上取得了2.0的竞争性FID分数，在UCF-101类别条件视频生成上取得了72.8的FVD分数。这项研究为开发更轻量、更灵活的下一代生成式AI模型提供了重要思路。

周刊订阅 - Newsletter

论文推荐|DeepMind提出弹性循环Transformer：参数锐减4倍，视觉生成质量依然顶尖

核心要点