漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

提升视觉基础模型性能:ViSFT开源

talkingdev • 2024-01-23

692308 views

针对图像-文本训练中使用的视觉基础模型,研究人员提出了一种名为ViSFT的新方法,以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先,该模型使用大规模的无监督预训练来学习图像和文本的表示,然后使用有监督的微调来进一步提高模型性能。研究人员表示,他们在多个数据集上对ViSFT进行了评估,证明了该方法的有效性。ViSFT方法已在GitHub上开源。

核心要点

  • ViSFT方法可提高视觉基础模型性能
  • 使用类似于语言模型中的微调的两阶段过程
  • ViSFT方法已在GitHub上开源

Read more >