漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-01 talkingdev

论文:探索Mamba,先进计算机视觉的视觉基础模型

Mamba模型是一种先进的方法,擅长处理长序列,而不会带来传统Transformers的计算缺点。在计算机视觉领域,Mamba模型已经取得了显著的成果,并在多个应用中展现出其优越性。相比于传统的Transformers模型,Mamba模型...

Read More
2024-04-10 talkingdev

论文:OA-DG方法助力单域目标检测性能提升

目标检测领域,单域泛化(S-DG)一直是一个挑战。为了解决这一问题,最新的OA-DG方法应运而生。该方法采用了OA-Mix数据增强技术以及OA-Loss训练策略,旨在提高模型在单域环境下的泛化能力。OA-Mix通过混合不同类别...

Read More
2024-03-27 talkingdev

DETR技术开源,提升目标检测性能

近期,一个名为Salience DETR的项目引起了业界关注。该项目采用了层次化显著性过滤技术,对目标检测中的查询选择进行了优化。通过这种方式,Salience DETR在保持计算效率的同时,也提高了检测的准确性。这一技术的出...

Read More
2024-03-19 talkingdev

论文:视觉变换器技术助力水下机器人目标检测能力提升

最新研究项目YOLOX-ViT在水下机器人领域中引入了一种创新的目标检测方法,该方法通过整合视觉变换器(Visual Transformers)和知识蒸馏(Knowledge Distillation)技术,显著提高了目标检测的准确性和效率。该技术的...

Read More
2024-02-09 talkingdev

Yolo-World: 实时开放词汇的目标检测

目标检测是识别物体及其边界框的过程。通常只能为训练前选择的一组固定物体进行检测。本研究介绍了一种实时方法,可以进行开放词汇目标检测,这意味着它可以检测任何在运行时指定的物体组合的边界框。该方法使用了一...

Read More
2024-01-09 talkingdev

V*搜索:提高GPT-V验证码识别性能的视觉算法

V*是一种新的基于图像的搜索算法,可以显著提高GPT-V(和其他VLM)验证码识别性能。这项技术的开发者表示,V*可以通过大量的图像数据来训练模型,从而提高模型的精度。V*算法的另一个优点是它可以将不同的图像元素组...

Read More
2023-12-05 talkingdev

SAFE:一种用于模式识别的融合框架开源

SAFE是一种新的模式识别融合框架,它结合了预训练的视觉和语言模型,使用RGB帧、事件流和语义标签进行融合。该框架能够通过各种传感器收集的数据来识别和理解环境中的对象和场景,具有广泛的应用前景。在实现过程中...

Read More
2023-11-19 talkingdev

Frigate:开源网络视频录制器,实时AI目标检测

Frigate是一款基于树莓派和Docker的开源网络视频录制器,可以实现实时AI目标检测。该软件使用了TensorFlow、OpenCV和Kubernetes等技术,支持多种摄像头和视频流格式,并且可以在树莓派或者其他设备上运行。用户可以...

Read More
2023-08-24 talkingdev

Roboflow-最新开源的视觉模型推理工具

Roboflow推理是一种在最先进的计算机视觉模型上运行推理的工具。它可以在各种设备和环境上部署,无需机器学习的先验知识。Roboflow推理支持目标检测、分类、实例分割模型以及基础模型。有一个展示Roboflow推理在足球...

Read More
2023-08-23 talkingdev

论文:专为小物体识别而设计的CFINet:提升小物体的目标检测能力

尽管现有的技术在目标检测方面已经表现出色,但在识别小物体的能力上往往存在问题。因此,专为解决这个问题而设计的CFINet应运而生。该网络采用分步骤方法,首先找到可能存在小物体的感兴趣区域,然后专注于模仿特征...

Read More
  1. Next Page