漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-23 talkingdev

Stability发布全新Stable Diffusion模型,新版将不再出现意大利面手

稳定性人工智能发布了一种新的人工智能模型,用于生成比以往更逼真的图像。该模型名为SDXL 0.9,可以根据基于文本的提示创建图像,这些图像比以前的模型更美观,并具有更多的构图细节。据悉,Stable Diffusion的下一...

Read More
2023-06-21 talkingdev

Clip2Protect项目:保护面部隐私的一种方法(GitHub仓库)

Clip2Protect项目引入了一种创新的两步方法,以确保面部隐私,特别是在强大的人脸识别系统的时代。它创建了看起来自然,但能欺骗人脸识别软件的'化妆'脸,相比之前的隐私增强方法,显示出更好的性能。

Read More
2023-06-01 talkingdev

Macaw-LLM:将图像、视频、音频和文本数据结合的多模态语言模型

CLIP、Whisper 和 LLaMA 的基础上,Macaw-LLM 探索性地开发了一种多模态语言模型,无缝结合了图像、视频、音频和文本数据。 以下是该新闻的三个核心要点: - Macaw-LLM 是一种多模态语言模型 - 它结合了图像、...

Read More
2023-05-16 talkingdev

视频问答技术取得突破性进展

近几个月来,视觉问答技术得到了广泛的应用和快速发展。这主要得益于像Blip和clip这样的预训练模型的出现。然而,将这些模型应用于视频问答仍然存在巨大的计算需求挑战。为了解决这个问题,研究人员引入了一系列不同...

Read More
2023-04-28 talkingdev

TextDeformer:使用文本引导进行几何形变

该研究介绍了一种技术,可以根据文本提示自动变形三角网格,利用可微分渲染和预训练图像编码器,如CLIP和DINO。通过使用雅可比矩阵进行网格变形表示,该方法实现了平滑变形,并避免了噪声梯度,从而实现了大的形状变...

Read More
2023-04-18 talkingdev

Multimodal C4:一个开放的、具有十亿级图像的文本语料库

以下是本新闻的三个核心要点: - Multimodal C4(mmc4)是一个公开可用的数据集,它将纯文本的c4语料库与交错的图像相结合,支持像Flamingo这样的上下文视觉和语言模型。该数据集使用带有CLIP特征的线性分配算法创...

Read More
2023-04-12 talkingdev

Google提出Video-kMaX:在线和近在线视频全景分割的简单统一方法

研究人员从Google提出了Video-kMaX,这是一种统一的在线和近在线视频全景分割方法,包括一个视频内分割器和一个视频间关联器。通过利用clip-kMaX和HiLA-MB这两个组件,该方法在KITTI-STEP、VIPSeg和VSPW数据集上建立...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5