Flexible Vision Transformer开源，可生成任意分辨率图片

talkingdev • 2024-02-22

606653 views

GitHub上发布了一个名为“Flexible Vision Transformer”的仓库，该架构设计用于创建任意分辨率和纵横比的图像。与传统模型不同，FiT将图像视为变量大小的标记序列，在训练和推理过程中更有效地适应不同的图像大小。这一技术的研发或许有望在未来改善图像处理、计算机视觉等领域的现有技术。

核心要点

GitHub发布“Flexible Vision Transformer”仓库
该仓库支持生成任意分辨率和纵横比的图像
FiT将图像视为变量大小的标记序列，在训练和推理过程中更有效地适应不同的图像大小

Flexible Vision Transformer开源，可生成任意分辨率图片

核心要点

Related posts