漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-08-01 talkingdev

Flux:开源文本到图像模型,参数达到120亿

由 FAL 团队开发的 Flux 是一个新的文本到图像模型,它是一个参数量达到 120 亿的深度神经网络。这个模型能够从文本描述中生成高质量、多样性的图像,它会对输入的文本进行语义分析,并且能够根据文本描述生成精细的...

Read More
2024-07-11 talkingdev

论文:个性化文本到图像模型的新进展

研究人员引入了一个新的强化学习框架,以提高个性化文本到图像的生成效果。这种新的强化学习框架,是目前研究人员在个性化文本到图像模型领域的重要突破。这项技术的应用不仅可以大幅提高图像生成的质量,更可以实现...

Read More
2024-07-01 talkingdev

MUMU视觉模型:强势引领图像和文本的交织生成

MUMU视觉模型是一种创新的生成图像模型,它的特点在于能够将文本和图像交织在一起进行更强的条件化处理。这种独特的方法使得MUMU视觉模型在性能上超越了纯文本条件化模型。MUMU视觉模型的核心优势在于,它不仅仅是将...

Read More
2024-05-07 talkingdev

论文:利用遮蔽图像模型进行深度假象检测

最新的研究提出一种新的深度假象检测方法,这种方法主要关注于遮蔽图像模型,尤其是在频率域中。这种方法与传统的深度假象检测方法有所不同,对于识别由最新的AI生成技术制作的合成图像表现出显著的改进。遮蔽图像模...

Read More
2024-04-16 talkingdev

深度解析:视频扩散模型的生成与应用

本文深入探讨了如何训练扩散模型以生成视频,如何适配图像模型,甚至在无需额外训练的情况下,如何从图像模型中生成视频。扩散模型作为一种新兴的生成模型,已经在图像生成领域取得了显著的成果。文章首先介绍了扩散...

Read More
2024-03-12 talkingdev

VideoElevator:将文本转化为视频的新方法

VideoElevator引入了一种新的方法,通过利用文本到图像模型的优势来增强文本到视频扩散模型。这种即插即用的方法将增强过程分为了调整时间运动和提升空间质量两个部分,从而产生了帧质量和文本对齐得到了提高的视频...

Read More
2024-03-07 talkingdev

MobileClip:快速文本和图像生成模型

MobileClip是一个快速的文本和图像模型,与OpenAI的原始CLIP模型性能相同,但运行速度提高了7倍。它可以在设备上用于各种视觉和语言任务。

Read More
2024-03-07 talkingdev

稳定扩散 3:研究论文

稳定扩散 3 通过其新颖的多模态扩散转换器架构,通过文本和图像的分别处理权重,提高了提示理解和排版,优于领先的文本到图像模型,为AI生成的视觉内容带来了进步。

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page