漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-07-27 talkingdev

增强版视频对象分割方法:SgMg(GitHub 仓库)

这个GitHub仓库介绍了一个名为SgMg的新方法,改进了视频中所提到的对象分割过程。该方法解决了特性漂移的问题,利用视觉细节更好地优化分割。新方法还使得视频中多个对象的同时分割成为可能,使得这个过程更加快速和...

Read More
2023-07-26 talkingdev

CTVIS-在线视频分割新的训练方法

最近的一份研究论文提出了一种名为一致在线视频实例分割(CTVIS)的新训练方法,以便在视频分割中更好地区分时间线上的对象。通过使用来自多个帧的一致信息,而不仅仅是一个,以及向数据添加噪声,CTVIS可以更有效地处...

Read More
2023-07-03 talkingdev

多视角扩散技术提供全景图像生成能力

这项工作允许您使用一张单一的图像和一个预训练的生成模型来生成全景图像或图像的多个视角。

Read More
2023-06-29 talkingdev

LightGlue:更智能快速的图像匹配技术(GitHub开源)

LightGlue是一种新技术,可以更轻松、更快速地找到图片之间的相似之处,甚至比当前最好的方法Superglue还要好。LightGlue最好的部分是它可以根据图像复杂度进行自适应,对于简单的图像可以更快地工作,在实时应用中...

Read More
2023-05-23 talkingdev

Meta的语音识别技术可识别1100多种语言

Meta科学家在一个名为Massively Multilingual Speech(MMS)的项目中取得了突破性进展,教会了机器如何理解和说出成千上万种语言。该技术使用自学习系统和超过1,100种语言的数据库,旨在使信息更易于获取,并帮助保...

Read More
2023-04-18 talkingdev

Multimodal C4:一个开放的、具有十亿级图像的文本语料库

以下是本新闻的三个核心要点: - Multimodal C4(mmc4)是一个公开可用的数据集,它将纯文本的c4语料库与交错的图像相结合,支持像Flamingo这样的上下文视觉和语言模型。该数据集使用带有CLIP特征的线性分配算法创...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7