随着人工智能领域的不断发展,变换器(Transformers)模型在处理序列性问题方面表现出色。近期的研究表明,思维链(Chain of Thought)技术能够进一步提升变换器的效率,尤其在解决需要多步骤推理的任务时。这一方法...
Read MoreOpenDevin是一个为AI软件开发者提供通用Agent服务的开放平台,旨在提供一个统一的接口,使得AI软件开发者能够更加方便地使用各种不同类型的AI算法和模型。该平台提供了一系列的工具和接口,包括数据集管理、模型训练...
Read More无监督SAM(UnSAM)是一种新型的全图像分割模型,它消除了对人工注释的需求。UnSAM通过结合自上而下和自下而上的聚类方法,识别视觉场景中的层次结构,采用一种分而治之的方法。在复杂的视觉场景中,这种方法可以更...
Read MoreOpenGlass是一款创新的技术项目,其目标是将任何眼镜转变为AI技术驱动的智能眼镜。这款项目的核心理念是利用AI技术,使得传统的眼镜拥有智能眼镜的功能,包括语音识别、图像识别和现实增强等技术。这样,用户无需更...
Read More在2024年CVPR(计算机视觉与模式识别)会议中,我们精心策划了一份计算机视觉领域的论文清单。这些论文涵盖了计算机视觉的各个方面,包括深度学习、物体检测、图像识别、语义分割等。每篇论文都代表了该领域的最新研...
Read More近日,一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布,其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息,其性能和效率都达到了非常高的水平。这些模...
Read More子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段,采用子对象标记化的模型会从有意义的段落,例如物体的部分来观察图像。这种新的视觉模型理解方式,相比传统的划分方案,可能更加...
Read More蜥蜴(Chameleon)是一个早期融合模型,它能同时操作图像和文本标记。其团队几周前发布了这篇论文。现在,他们已经发布了模型检查点以及推理代码。这一模型的发布,标志着图像和文本融合技术的新进展,同时,它的开...
Read MoreTogether AI团队发布了一款名为DragonFly Vision的全新视觉语言模型(VLM)。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术,包括深度学习和神经网络优化,从而实...
Read More苹果的AI战略致力于通过实用的AI功能来提升其产品。核心项目之一是Project Greymatter,这是一套将集成到苹果关键应用中的AI工具。这些AI工具旨在提供更智能、更高效的用户体验,涵盖从语音助手到图像识别等多方面的...
Read More