漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

该项目探索了视觉转换器在基于扩散的生成学习中的有效性,揭示了Diffusion Vision Transformers(DiffiT)。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像,具有非常好的效果。该代码库可供广大研究人员使用。

核心要点

  • DiffiT是一款基于扩散的视觉转换器,用于高分辨率图像生成。
  • DiffiT将U形编码器-解码器架构与新型时变自注意模块相结合。
  • 该代码库可供广大研究人员使用。

Read more >