计算机视觉的相关内容 - 漫话开发者

2024-03-15 talkingdev

ViT-CoMer：新神经网络模型增强Vision Transformers的密集预测任务能力

近日，一项名为ViT-CoMer的神经网络模型问世，增强了Vision Transformers（ViT）在密集预测任务中的表现，而无需预训练。这项研究由卡内基梅隆大学的学者领导，他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...

2024-03-15 talkingdev

近日，Skyvern项目在GitHub上发布，该项目利用LLMs和计算机视觉技术自动化浏览器流程。Skyvern提供了一个简单的API端点，可以完全自动化手动工作流程，替代脆弱或不可靠的自动化解决方案。其实现原理是利用LLMs提供...

2024-03-14 talkingdev

MoAI是一种新型的大型语言和视觉模型，它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布，旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法，可以...

2024-03-05 talkingdev

DSNIE是一种方法，可以显著提高单目表面法向量估计的准确度，可用于多种计算机图形应用程序。DSNIE方法基于深度学习，使用卷积神经网络对输入图像进行处理，并输出表面法向量。该方法在各种室内和室外场景中进行了测...

2024-03-01 talkingdev

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈，并创建了Q-Pathway数据集，以分析其清晰度、色彩和亮度。

2024-02-27 talkingdev

这是一份关于使用LLMs进行注释的精选论文列表，LLMs是一种基于机器学习的语言模型，能够自动预测文本中的下一个单词或字符。使用LLMs进行注释可以提高注释的准确性和效率，目前在自然语言处理和计算机视觉领域被广泛...

2024-02-26 talkingdev

世界体积感知多摄像头驾驶场景生成器（WoVoGen）是一个创新系统，旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频，以帮助自动驾驶车辆更好地识别和适应不同的路况。W...

2024-02-22 talkingdev

GitHub上发布了一个名为“Flexible Vision Transformer”的仓库，该架构设计用于创建任意分辨率和纵横比的图像。与传统模型不同，FiT将图像视为变量大小的标记序列，在训练和推理过程中更有效地适应不同的图像大小。这...