漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-08 talkingdev

HuggingFace与Stability AI合作开源复现MUSE

MUSE是一种使用Transformers的掩蔽图像生成模型。HuggingFace和Stability AI已经合作开源复现该模型,并发布了训练代码、模型检查点和论文。虽然这些模型的训练时间不如一些最好的图像扩散模型长,但它们显示出了很...

Read More
2023-12-22 talkingdev

论文:Diff-Text,无需训练的多语言场景文本生成技术

Diff-Text是一种新的无需训练的框架,可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验,增强了稳定扩散模型的多语言能力。

Read More
2023-12-20 talkingdev

基于UNet编码器实现更快的扩散模型

最近的一项研究表明,与解码器相比,使用UNet编码器在扩散模型中表现更加稳定。这一发现导致了一种新的编码器传播方案,显著加快了文本到图像和文本到视频生成等任务的速度。该研究成果已在GitHub上发布。

Read More
2023-12-19 talkingdev

利用扩散模型在图像中估计光照

本项目介绍了一种新的技术,用于估计图像中的光照,克服了当前依赖HDR全景数据集的现有方法的局限性。通过使用扩散模型将铬球渲染到标准图像中,该技术揭示了铬球与扩散噪声之间的独特关系。这种技术有助于提高图像...

Read More
2023-12-12 talkingdev

LSDM-多条件扩散模型实现场景合成

本项目引入了一种新颖的方法——多条件扩散模型,通过高效地将文本、动作和现有物体融合起来,为人体运动或房间设计等因素引导的场景创作带来了新的视角。该方法将不同条件下的扩散算法结合起来,以生成高质量的合成场...

Read More
2023-12-12 talkingdev

使用预训练文本到图像扩散模型进行视频编辑

RAVE是一种利用现有文本到图像扩散模型来增强视频的视频编辑方法。这种方法可以在保持原始运动和结构的同时实现高质量的视频编辑。

Read More
2023-12-08 talkingdev

StableFast开源,更快的Diffusers推理引擎

Stable Fast是HuggingFace扩散模型的推理引擎,通过它可以进行快速的Diffusers推理。该推理引擎在多种硬件上实现了出色的性能,包括CPU和GPU。此外,Stable Fast还兼容多个框架,包括PyTorch和TensorFlow。在GitHub...

Read More
2023-12-08 talkingdev

论文:使用扩散模型实现3D物体检测

研究人员开发了Diffusion-SS3D,这是一种改进半监督3D物体检测的新方法,使用扩散模型添加噪声到3D空间中的物体大小和类别标签分布,然后使用扩散模型去噪和生成更好的边界框输出。

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page