漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-15 talkingdev

ViT-CoMer:新神经网络模型增强Vision Transformers的密集预测任务能力

近日,一项名为ViT-CoMer的神经网络模型问世,增强了Vision Transformers(ViT)在密集预测任务中的表现,而无需预训练。这项研究由卡内基梅隆大学的学者领导,他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...

Read More
2024-03-15 talkingdev

Skyvern:基于LLMs和计算机视觉的浏览器自动化工具

近日,Skyvern项目在GitHub上发布,该项目利用LLMs和计算机视觉技术自动化浏览器流程。Skyvern提供了一个简单的API端点,可以完全自动化手动工作流程,替代脆弱或不可靠的自动化解决方案。其实现原理是利用LLMs提供...

Read More
2024-03-14 talkingdev

MoAI:整合视觉任务信息的增强型语言模型

MoAI是一种新型的大型语言和视觉模型,它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布,旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法,可以...

Read More
2024-03-05 talkingdev

DSNIE-单目表面法向量估计新方法

DSNIE是一种方法,可以显著提高单目表面法向量估计的准确度,可用于多种计算机图形应用程序。DSNIE方法基于深度学习,使用卷积神经网络对输入图像进行处理,并输出表面法向量。该方法在各种室内和室外场景中进行了测...

Read More
2024-03-01 talkingdev

论文:AI模型的视觉感知能力得到提升

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。

Read More
2024-02-27 talkingdev

使用LLMs进行注释的论文精选

这是一份关于使用LLMs进行注释的精选论文列表,LLMs是一种基于机器学习的语言模型,能够自动预测文本中的下一个单词或字符。使用LLMs进行注释可以提高注释的准确性和效率,目前在自然语言处理和计算机视觉领域被广泛...

Read More
2024-02-26 talkingdev

WoVoGen-高质量街景视频生成器开源

世界体积感知多摄像头驾驶场景生成器(WoVoGen)是一个创新系统,旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频,以帮助自动驾驶车辆更好地识别和适应不同的路况。W...

Read More
2024-02-22 talkingdev

Flexible Vision Transformer开源,可生成任意分辨率图片

GitHub上发布了一个名为“Flexible Vision Transformer”的仓库,该架构设计用于创建任意分辨率和纵横比的图像。与传统模型不同,FiT将图像视为变量大小的标记序列,在训练和推理过程中更有效地适应不同的图像大小。这...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page