VLM的相关内容 - 漫话开发者

2024-05-20 talkingdev

PaliGemma：谷歌最新实时运行的推理VLM模型

现在，您可以使用GPT-Fast实时运行最新的Google VLM。这为我们打开了一扇强大的大门，因为该模型非常容易为特定任务进行微调。这意味着，我们可以轻松地将其应用到各种下游任务中。PaliGemma的实时运行不仅能够提高...

2024-05-17 talkingdev

Xmodel-VLM是一种针对消费级GPU服务器优化的视觉语言模型。为解决高昂的服务成本限制了大规模多模态系统的应用，这个10亿规模的模型采用了LLaVA范式进行模态对齐。这是一种新的方法，它优化了视觉和语言之间的协同工...

2024-05-10 talkingdev

近日，一种新型的标签方法被研究者利用在了图片和文字的配对上，这种方法运用了两次的VLMs（视觉语言模型）扫描，产生了极为详细的图片和文字配对数据。这些配对数据的标题比以往的任何数据集都要详细，能够帮助训练...

2024-04-30 talkingdev

Moondream 2模型作为一种高效的AI模型，其性能强大且体积小巧，现已发布其全功能的VLM可执行文件，名为llamafile。这款全功能的VLM可执行文件是一种完全自包含的程序，可以在边缘设备上运行。这意味着，即使在没有网...

2024-04-02 talkingdev

视觉语言模型（VLMs）在处理输入图像时，有时会遇到无法回答的问题。即便是最先进的VLMs，如GPT-4V，也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试，并探讨了一些可能的改进方向。研究者们通过...

2024-03-21 talkingdev

Chain-of-Spot（CoS）技术近日提出了一种交互式推理方法，该方法大幅提升了大型视觉语言模型（LVLMs）处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域，使得LVLMs能够在不损失图像分辨率的前...

2024-02-22 talkingdev

近日，GitHub推出了一项新的方法，可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器，有效地保护这些模型免受恶意图像攻击，提高了它们在现实应用中的可靠...

2024-02-09 talkingdev

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...