漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

GitHub上发布了一个名为“Flexible Vision Transformer”的仓库,该架构设计用于创建任意分辨率和纵横比的图像。与传统模型不同,FiT将图像视为变量大小的标记序列,在训练和推理过程中更有效地适应不同的图像大小。这一技术的研发或许有望在未来改善图像处理、计算机视觉等领域的现有技术。

核心要点

  • GitHub发布“Flexible Vision Transformer”仓库
  • 该仓库支持生成任意分辨率和纵横比的图像
  • FiT将图像视为变量大小的标记序列,在训练和推理过程中更有效地适应不同的图像大小

Read more >