图像识别的相关内容 - 漫话开发者

2024-09-16 talkingdev

思维链助力变换器解决序列性问题

随着人工智能领域的不断发展，变换器（Transformers）模型在处理序列性问题方面表现出色。近期的研究表明，思维链（Chain of Thought）技术能够进一步提升变换器的效率，尤其在解决需要多步骤推理的任务时。这一方法...

2024-08-11 talkingdev

OpenDevin是一个为AI软件开发者提供通用Agent服务的开放平台，旨在提供一个统一的接口，使得AI软件开发者能够更加方便地使用各种不同类型的AI算法和模型。该平台提供了一系列的工具和接口，包括数据集管理、模型训练...

2024-07-02 talkingdev

无监督SAM（UnSAM）是一种新型的全图像分割模型，它消除了对人工注释的需求。UnSAM通过结合自上而下和自下而上的聚类方法，识别视觉场景中的层次结构，采用一种分而治之的方法。在复杂的视觉场景中，这种方法可以更...

2024-06-26 talkingdev

OpenGlass是一款创新的技术项目，其目标是将任何眼镜转变为AI技术驱动的智能眼镜。这款项目的核心理念是利用AI技术，使得传统的眼镜拥有智能眼镜的功能，包括语音识别、图像识别和现实增强等技术。这样，用户无需更...

2024-06-25 talkingdev

在2024年CVPR（计算机视觉与模式识别）会议中，我们精心策划了一份计算机视觉领域的论文清单。这些论文涵盖了计算机视觉的各个方面，包括深度学习、物体检测、图像识别、语义分割等。每篇论文都代表了该领域的最新研...

2024-06-20 talkingdev

近日，一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布，其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息，其性能和效率都达到了非常高的水平。这些模...

2024-06-19 talkingdev

子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段，采用子对象标记化的模型会从有意义的段落，例如物体的部分来观察图像。这种新的视觉模型理解方式，相比传统的划分方案，可能更加...

2024-06-19 talkingdev

蜥蜴（Chameleon）是一个早期融合模型，它能同时操作图像和文本标记。其团队几周前发布了这篇论文。现在，他们已经发布了模型检查点以及推理代码。这一模型的发布，标志着图像和文本融合技术的新进展，同时，它的开...

2024-06-07 talkingdev

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型（VLM）。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术，包括深度学习和神经网络优化，从而实...

2024-05-28 talkingdev

苹果的AI战略致力于通过实用的AI功能来提升其产品。核心项目之一是Project Greymatter，这是一套将集成到苹果关键应用中的AI工具。这些AI工具旨在提供更智能、更高效的用户体验，涵盖从语音助手到图像识别等多方面的...