计算机视觉的相关内容 - 漫话开发者

2023-10-20 talkingdev

$13M种子轮融资用于构建企业低代码多模式搜索工具包

Objective公司已经完成了一轮种子融资，以便为企业构建低代码多模式搜索工具包。这款工具包将使用自然语言处理、计算机视觉和语音识别技术，可以帮助企业快速构建自定义搜索引擎，减少搜索时间。Objective的目标客户...

2023-10-19 talkingdev

ChatGPT的Browse With Bing现已退出Beta测试，DALL-E 3正在进行Beta测试。这是OpenAI最近的两个重要更新，Browse With Bing是一款由OpenAI推出的基于自然语言的浏览器，用户可以通过聊天的方式寻找信息，而DALL-E 3...

2023-10-06 talkingdev

谷歌的DeepMind与33个研究所联手，共同开发了名为Open X-Embodiment的数据库，这个数据库相当于计算机视觉中的ImageNet数据库。这个数据库包含来自22种机器人类型的500多个技能和150,000个任务，旨在通过提供共享资...

2023-10-04 talkingdev

视觉-语言模型如CLIP在许多任务中表现出色，但在图像修复方面却面临一些挑战。因此，一项新的项目引入了DA-CLIP模型，该模型优化了CLIP的工作方式，使其更好地处理这些任务，从而带来更清晰的图像重建。DA-CLIP模型...

2023-09-26 talkingdev

NeuralLabeling是一款使用3D技术进行详细场景注释的工具。这款工具可以帮助用户精确地标注出图像中的各个物体和场景，从而为计算机视觉应用如自动驾驶、虚拟现实等提供更丰富、更准确的数据。NeuralLabeling的优势在...

2023-09-25 talkingdev

研究人员已经介绍了一种名为TCOVIS的在线视频实例分割技术，这种技术优先考虑时间一致性。在线视频实例分割是计算机视觉领域的热门课题，它的目的是将视频帧中的每个实例独立地识别和分割出来。然而，现有的方法通常...

2023-09-21 talkingdev

DFormer是一种独特的方法，可以同时研究图像的颜色和深度。与旧有的方法不同，DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息（R，G，B）和深度信息（D）的图像。DFormer的设计目标是提供一种更有效的...

2023-09-12 talkingdev

本研究的作者们已经创建了一种方法，用以测试视觉语言模型对于他们所看到的内容进行逻辑思考的能力。视觉语言模型是一种结合了计算机视觉和自然语言处理的技术，它能理解和解释图片中的内容。然而，这种模型在理解和...