漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-24 talkingdev

MM-Interleaved模型开源,可实现图文数据生成

近日,GitHub开源了MM-Interleaved模型,该模型在处理和生成交替的图文数据方面表现出色。MM-Interleaved模型能够根据输入的文本描述生成对应的图像,同时也可以从图像中提取文本。该模型使用了条件生成对抗网络(Co...

Read More
2024-01-22 talkingdev

腾讯开源PhotoMaker生成风格化人像

生成式图像模型最受欢迎的用途之一是个性化风格的图像生成。历史上,这需要训练LoRA或使用DreamBooth。现在,通过使用ID嵌入,您可以在仅使用单张图像的情况下大大提高质量并降低计算成本。

Read More
2024-01-20 talkingdev

CaC开源-将3D物体放置在图像生成

Compose and Conquer公司推出了一种条件扩散模型,该模型在生成的图像中的三维空间中放置物体方面表现出色。该模型可用于生成逼真的图像,例如虚拟世界中的景观和人物。条件扩散模型的优点在于其可以对图像进行分层...

Read More
2024-01-16 talkingdev

论文:采用潜在一致性模型实现快速可控图像生成

PixArt一直是流行的Stable Diffusion图像生成模型的并行研究方向。本研究采用潜在一致性模型实现更快的生成速度,并采用ControlNet样式提示实现更好的控制。

Read More
2024-01-08 talkingdev

HuggingFace与Stability AI合作开源复现MUSE

MUSE是一种使用Transformers的掩蔽图像生成模型。HuggingFace和Stability AI已经合作开源复现该模型,并发布了训练代码、模型检查点和论文。虽然这些模型的训练时间不如一些最好的图像扩散模型长,但它们显示出了很...

Read More
2023-12-25 talkingdev

Llava多模交互模型:聊天式文本、图像输入和输出

Llava是一个强大的多模型模型。该交互式设计现在允许聊天式交错文本、图像输入和图像输出。Llava是一个深度学习模型,能够对文本和图像数据进行联合建模,并产生准确的输出。与其他模型不同的是,Llava模型不仅考虑...

Read More
2023-12-25 talkingdev

论文:采用序列感知损失函数的图像生成技术

研究人员开发了一种“序列感知”损失函数,以改进去噪概率模型(DPM),解决了图像生成中时间步长相关性的问题。这种新方法不仅提供了更紧凑的损失估计,而且在诸如CIFAR10和CelebA等数据集上显示出显著的图像质量改进,...

Read More
2023-12-22 talkingdev

Midjourney V6发布:图片中可生成易读文本,提示功能得到全面升级

Midjourney V6已经发布alpha版。此次更新大幅提高了图像质量,并使模型能够在图像中生成易读文本。它还配备了全新的提示方法,更加灵敏,更加擅长理解用户。如果用户习惯于Midjourney V5提示,他们可能需要重新学习...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page