漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-11 talkingdev

利用大型语言模型提升视频理解能力——FAVOR新方法的引入

研究人员推出了一种名为FAVOR的新方法,该方法通过在帧级别精细融合音频和视觉细节,使大型语言模型能够理解视频。FAVOR方法的推出,为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...

Read More
2023-10-04 talkingdev

视觉-语言模型DA-CLIP带来更优秀的图像修复效果

视觉-语言模型如CLIP在许多任务中表现出色,但在图像修复方面却面临一些挑战。因此,一项新的项目引入了DA-CLIP模型,该模型优化了CLIP的工作方式,使其更好地处理这些任务,从而带来更清晰的图像重建。DA-CLIP模型...

Read More
2023-09-29 talkingdev

谷歌发布SigLIP的checkpoints

联合嵌入模型将两种数据类型整合到一个空间中。CLIP是将图像和文本结合的热门方法之一。近期,谷歌研究员提出了一个表现优秀并且基于视觉变压器的Sigmoid CLIP模型。他们现在已经发布了关于模型的更多信息,并更新了...

Read More
2023-09-06 talkingdev

论文:强化零样本模型的微调技术

零样本模型是人工智能模型中的一种,他们在广泛的分布上都有着强大的性能。但是,如果你在特定的狭窄任务上对它们进行调整,它们可能会在提高特定任务性能的同时,失去原本的广泛适应性。这个现象虽然有其积极的一面...

Read More
2023-08-29 talkingdev

开源视觉-语言模型:识别面部表情

本研究公开了一个新的模型-DFER-CLIP,该模型对CLIP模型进行了改进,专门用于识别现实世界中变化的面部表情。CLIP模型是一个多模态的人工智能模型,它能够理解图像和文本之间的关系。这个新的DFER-CLIP模型,通过增...

Read More
2023-08-24 talkingdev

Clip4Cir开源-使用CLIP和标题改进图像搜索

该项目引入了一种搜索图像的方法,该图像看起来像给定的图片,但是在标题中描述了变化。它使用了增加了特殊技巧的CLIP模型。该方法在FashionIQ和CIRR等流行的图像搜索数据集上表现更好。CLIP模型是一个多模态视觉模...

Read More
2023-08-11 talkingdev

提升视觉-语言模型精度的新策略

这个代码库介绍了一种改善视觉-语言模型,特别是在详细属性检测和图像内部位置定位任务中的表现的多任务策略。这种策略以视觉-语言模型CLIP为例,展示了如何通过多任务学习提升模型的表现。通过这种方式,模型可以更...

Read More
2023-08-07 talkingdev

PerceptionCLIP,开源增强zero-shot击图像分类方法

一项最新研究介绍了PerceptionCLIP,这是一种模拟人类视觉感知过程的两步图像分类方法,旨在更好地利用CLIP,一种突出的视觉语言模型。首先,通过识别背景属性并利用它们区分前景物体,这种新方法在图像分类任务中提...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page