漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-23 talkingdev

SoM开源,多模态语言模型的新进展

多模态语言模型(multimodal language models)的发展正日益成熟。最近,一种名为State of Mark prompting的方法在GitHub Repo上引起了广泛关注。该方法首先使用Segment Anything算法对图像进行处理,对检测到的类别...

Read More
2023-10-04 talkingdev

论文:使多模态大型语言模型适应各种任务

多模态大型语言模型在许多任务中表现优秀,但在定位图像中的特定对象方面往往存在困难。为了改善这一问题,研究人员已经开发出一种新的方法:将物体的位置转化为文本,并通过特殊任务进行模型的训练。这种方法的出现...

Read More
2023-08-25 talkingdev

cheetah:开源的多模态语言模型,用于处理视觉-语言任务

近期的模型常常在处理复杂的视觉-语言任务上遇到困难,这主要是由于它们在理解混合的图像-文本上下文时存在限制。为了评估这些任务,研究人员引入了I4基准。结果显示,视觉提示生成器的注意力存在缺陷。为了解决这个...

Read More
2023-04-18 talkingdev

Multimodal C4:一个开放的、具有十亿级图像的文本语料库

以下是本新闻的三个核心要点: - Multimodal C4(mmc4)是一个公开可用的数据集,它将纯文本的c4语料库与交错的图像相结合,支持像Flamingo这样的上下文视觉和语言模型。该数据集使用带有CLIP特征的线性分配算法创...

Read More
  1. Prev Page