CLIP的相关内容 - 漫话开发者

2023-06-23 talkingdev

Stability发布全新Stable Diffusion模型，新版将不再出现意大利面手

稳定性人工智能发布了一种新的人工智能模型，用于生成比以往更逼真的图像。该模型名为SDXL 0.9，可以根据基于文本的提示创建图像，这些图像比以前的模型更美观，并具有更多的构图细节。据悉，Stable Diffusion的下一...

2023-06-21 talkingdev

Clip2Protect项目引入了一种创新的两步方法，以确保面部隐私，特别是在强大的人脸识别系统的时代。它创建了看起来自然，但能欺骗人脸识别软件的'化妆'脸，相比之前的隐私增强方法，显示出更好的性能。

2023-06-01 talkingdev

在 CLIP、Whisper 和 LLaMA 的基础上，Macaw-LLM 探索性地开发了一种多模态语言模型，无缝结合了图像、视频、音频和文本数据。以下是该新闻的三个核心要点： - Macaw-LLM 是一种多模态语言模型 - 它结合了图像、...

2023-05-16 talkingdev

近几个月来，视觉问答技术得到了广泛的应用和快速发展。这主要得益于像Blip和clip这样的预训练模型的出现。然而，将这些模型应用于视频问答仍然存在巨大的计算需求挑战。为了解决这个问题，研究人员引入了一系列不同...

2023-04-28 talkingdev

该研究介绍了一种技术，可以根据文本提示自动变形三角网格，利用可微分渲染和预训练图像编码器，如CLIP和DINO。通过使用雅可比矩阵进行网格变形表示，该方法实现了平滑变形，并避免了噪声梯度，从而实现了大的形状变...

2023-04-18 talkingdev

以下是本新闻的三个核心要点： - Multimodal C4（mmc4）是一个公开可用的数据集，它将纯文本的c4语料库与交错的图像相结合，支持像Flamingo这样的上下文视觉和语言模型。该数据集使用带有CLIP特征的线性分配算法创...

2023-04-12 talkingdev

研究人员从Google提出了Video-kMaX，这是一种统一的在线和近在线视频全景分割方法，包括一个视频内分割器和一个视频间关联器。通过利用clip-kMaX和HiLA-MB这两个组件，该方法在KITTI-STEP、VIPSeg和VSPW数据集上建立...