机器视觉的相关内容 - 漫话开发者

2024-07-02 talkingdev

UnSAM-无监督SAM自动图像分割技术开源

无监督SAM（UnSAM）是一种新型的全图像分割模型，它消除了对人工注释的需求。UnSAM通过结合自上而下和自下而上的聚类方法，识别视觉场景中的层次结构，采用一种分而治之的方法。在复杂的视觉场景中，这种方法可以更...

2024-06-19 talkingdev

近日，一项名为OGNI-DC的全新框架在GitHub上发布。该框架采用了“优化引导神经迭代”(Optimization-Guided Neural Iterations，简称OGNI)的技术。这种技术通过优化深度梯度场并将深度梯度集成到深度地图中，从而实现深...

2024-06-19 talkingdev

近日，一款名为Duoduo CLIP的3D表征学习模型引起了业界的广泛关注。与传统的3D表征学习模型不同，Duoduo CLIP采用多视图图像，而非点云数据作为输入。这种独特的设计，使得Duoduo CLIP在3D表征学习的效果上，可能会...

2024-05-16 talkingdev

近日，EfficientTrain++推出了一种新颖的课程学习策略，显著减少了主要视觉模型如ResNet和Swin在ImageNet数据库上的训练时间。据悉，这种新的学习策略最多可以将模型训练时间缩短三倍。EfficientTrain++的这一突破不...

2024-03-26 talkingdev

PSALM是大型多模态模型（LMM）的扩展版本，通过引入一个掩码解码器和多功能输入模式，在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制，而且还使模型能够有效理解和分类复杂图像。PSALM的创...

2024-03-19 talkingdev

近期，一个创新性的目标识别方法在GitHub上发布，该项目通过聚焦于对象中心信息，以识别在RGB、近红外和热成像等多种光谱下拍摄的图像中的对象。这一方法的核心在于克服背景噪声，从而提高识别的准确度。研究团队通...

2023-09-20 talkingdev

从单一的2D图像中确定3D深度是一项棘手的任务，因为许多3D场景在2D中看起来可能相同。这种方法将相机的细节与图片的内容进行了分离，使得在各种情况下更容易猜测深度。这种深度估计的灵活性可以在各种复杂环境下，如...

2023-09-20 talkingdev

PIPS2是一种最新的点追踪系统，能够进行密集的像素级追踪，并且能抵抗基础遮挡和快速运动。这种技术通过实现密集的像素级追踪，提供了一种更为精细和准确的方式来追踪和分析运动。此外，PIPS2的设计使其能够在遭受基...