漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-31 talkingdev

ICTC-个性化图像聚类库开源

这篇论文介绍了一种名为IC⁠TC的基于文本条件的图像聚类方法,该方法利用视觉语言模型根据用户提供的文本描述对图像进行排序。IC⁠TC方法使用了预训练的视觉语言模型来生成图像和文本之间的嵌入,然后使用这些嵌入来聚...

Read More
2023-10-25 talkingdev

cola,利用视觉语言模型增强视觉推理

Cola是一个使用大型语言模型来协调各种视觉语言模型(VLM)以改进视觉推理的系统。该代码库已经在GitHub上发布。

Read More
2023-09-12 talkingdev

论文:更好理解和推理图片的新方法研究

本研究的作者们已经创建了一种方法,用以测试视觉语言模型对于他们所看到的内容进行逻辑思考的能力。视觉语言模型是一种结合了计算机视觉和自然语言处理的技术,它能理解和解释图片中的内容。然而,这种模型在理解和...

Read More
2023-08-29 talkingdev

Meta AI发布基于虚幻引擎的超真实图形数据集

Meta AI近日公布了一系列利用虚幻引擎进行超真实图像处理的数据集。发布的数据集包括用于基础模型研究的PUG:动物,用于评估图像分类器鲁棒性的PUG:ImageNet,以及用于视觉语言模型评估的PUG:SPAR。这些数据集的发...

Read More
2023-08-07 talkingdev

PerceptionCLIP,开源增强zero-shot击图像分类方法

一项最新研究介绍了PerceptionCLIP,这是一种模拟人类视觉感知过程的两步图像分类方法,旨在更好地利用CLIP,一种突出的视觉语言模型。首先,通过识别背景属性并利用它们区分前景物体,这种新方法在图像分类任务中提...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5