扩散模型的相关内容 - 漫话开发者

2024-01-08 talkingdev

HuggingFace与Stability AI合作开源复现MUSE

MUSE是一种使用Transformers的掩蔽图像生成模型。HuggingFace和Stability AI已经合作开源复现该模型，并发布了训练代码、模型检查点和论文。虽然这些模型的训练时间不如一些最好的图像扩散模型长，但它们显示出了很...

2023-12-22 talkingdev

Diff-Text是一种新的无需训练的框架，可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验，增强了稳定扩散模型的多语言能力。

2023-12-20 talkingdev

最近的一项研究表明，与解码器相比，使用UNet编码器在扩散模型中表现更加稳定。这一发现导致了一种新的编码器传播方案，显著加快了文本到图像和文本到视频生成等任务的速度。该研究成果已在GitHub上发布。

2023-12-19 talkingdev

本项目介绍了一种新的技术，用于估计图像中的光照，克服了当前依赖HDR全景数据集的现有方法的局限性。通过使用扩散模型将铬球渲染到标准图像中，该技术揭示了铬球与扩散噪声之间的独特关系。这种技术有助于提高图像...

2023-12-12 talkingdev

本项目引入了一种新颖的方法——多条件扩散模型，通过高效地将文本、动作和现有物体融合起来，为人体运动或房间设计等因素引导的场景创作带来了新的视角。该方法将不同条件下的扩散算法结合起来，以生成高质量的合成场...

2023-12-12 talkingdev

RAVE是一种利用现有文本到图像扩散模型来增强视频的视频编辑方法。这种方法可以在保持原始运动和结构的同时实现高质量的视频编辑。

2023-12-08 talkingdev

Stable Fast是HuggingFace扩散模型的推理引擎，通过它可以进行快速的Diffusers推理。该推理引擎在多种硬件上实现了出色的性能，包括CPU和GPU。此外，Stable Fast还兼容多个框架，包括PyTorch和TensorFlow。在GitHub...

2023-12-08 talkingdev

研究人员开发了Diffusion-SS3D，这是一种改进半监督3D物体检测的新方法，使用扩散模型添加噪声到3D空间中的物体大小和类别标签分布，然后使用扩散模型去噪和生成更好的边界框输出。