提升视觉基础模型性能：ViSFT开源

talkingdev • 2024-01-23

692308 views

针对图像-文本训练中使用的视觉基础模型，研究人员提出了一种名为ViSFT的新方法，以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先，该模型使用大规模的无监督预训练来学习图像和文本的表示，然后使用有监督的微调来进一步提高模型性能。研究人员表示，他们在多个数据集上对ViSFT进行了评估，证明了该方法的有效性。ViSFT方法已在GitHub上开源。

核心要点

ViSFT方法可提高视觉基础模型性能
使用类似于语言模型中的微调的两阶段过程
ViSFT方法已在GitHub上开源

提升视觉基础模型性能：ViSFT开源

核心要点

Related posts