漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

单个非自回归Transformer实现掩码音频生成

talkingdev • 2024-01-12

724685 views

大多数音频生成技术使用扩散或自回归模型来生成声音。而这项研究并不使用多步骤或复杂的Transformer。相反,它使用了一个掩码语言模型来生成音频令牌。

核心要点

  • 使用单个非自回归Transformer实现音频生成
  • 不使用扩散或自回归模型生成声音
  • 使用掩码语言模型生成音频令牌

Read more >