漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

思考再说:为LLMs添加暂停标记以提高推理能力

talkingdev • 2023-10-05

1009738 views

最近的研究表明,为ViTs注册器添加[reg]标记可以修复图像注意力映射的突增。这项工作表明,将一系列可学习的[pause]标记预置到序列中可以提高语言模型推理(仅解码器,最高可达10亿)的能力,最多可提高18%。直观上,这增加了一些可学习和可操作的向量,用于存储在生成序列时要使用的重要全局信息。一般来说,添加标记已经扩展到超过130亿个参数,但是在前沿模型规模上这种方法的效果如何还不清楚。

核心要点

  • 为ViTs注册器添加[reg]标记可以修复图像注意力映射的突增
  • 将一系列可学习的[pause]标记预置到序列中可以提高语言模型推理的能力,最多可提高18%
  • 添加标记已经扩展到超过130亿个参数,但是在前油模型规模上这种方法的效果如何还不清楚

Read more >