漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-01 talkingdev

论文:AI模型的视觉感知能力得到提升

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。

Read More
2023-08-07 talkingdev

PerceptionCLIP,开源增强zero-shot击图像分类方法

一项最新研究介绍了PerceptionCLIP,这是一种模拟人类视觉感知过程的两步图像分类方法,旨在更好地利用CLIP,一种突出的视觉语言模型。首先,通过识别背景属性并利用它们区分前景物体,这种新方法在图像分类任务中提...

Read More
2023-06-19 talkingdev

Seal:增强车辆视觉感知的框架(GitHub资源库)

Seal是一个新的系统,使用先进的视觉识别模型来更好地解释各种类型的车辆传感器数据,使其更高效和适应性。在测试中,与标准方法相比,它提高了近37%的传感器数据解释能力,显示了改善未来汽车安全和导航系统的巨大...

Read More
2023-05-17 talkingdev

GitHub仓库分享:全方位机器人学习资源

机器人一直是人类探索未知领域的重要工具,对于机器人学习者来说,学习资源的质量和数量至关重要。这个 GitHub 仓库收集了大量机器人学习相关的资源,无论你是初学者、专家还是从业者,都能从中受益。以下是该仓库的...

Read More