漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-22 talkingdev

VLM开源:增强AI对抗攻击的防御能力

近日,GitHub推出了一项新的方法,可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器,有效地保护这些模型免受恶意图像攻击,提高了它们在现实应用中的可靠...

Read More
2023-08-23 talkingdev

HuggingFace发布视觉/语言模型IDEFICS:复制并优化Flamingo模型

人工智能公司HuggingFace近日发布了IDEFICS,这个名字是一个复杂的缩写,全称为Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS。IDEFICS实质上是Flamingo模型的复制版本,Flamingo...

Read More
2023-06-29 talkingdev

DeepMind开源FlamingoV2模型,可回答视觉问题

Flamingo是DeepMind的一个模型,可以处理图像和文本。它能够回答视觉问题,并具有强大的语言建模性能。这项工作是对这些模型的复制研究。它还使用了MPT和Red pajama基础模型,这些模型在许可使用上较为灵活。这个复...

Read More
2023-04-18 talkingdev

Multimodal C4:一个开放的、具有十亿级图像的文本语料库

以下是本新闻的三个核心要点: - Multimodal C4(mmc4)是一个公开可用的数据集,它将纯文本的c4语料库与交错的图像相结合,支持像Flamingo这样的上下文视觉和语言模型。该数据集使用带有CLIP特征的线性分配算法创...

Read More