扩散技术的相关内容 - 漫话开发者

2024-05-13 talkingdev

音频扩散AudioDiff：ElevenLabs科学家新作开源

在科技日新月异的今天，ElevenLabs的一位研究科学家发布了一个名为音频扩散PyTorch的GitHub仓库，该仓库可能成为复制令人惊叹的结果的起点。这个仓库是基于PyTorch的音频扩散实验，旨在通过开源的方式，让更多的音频...

2024-04-15 talkingdev

最近，一个名为PanFusion的项目引起了业界的广泛关注。该项目采用了一种双分支扩散模型，可以直接从文本提示生成360度全景图像。该方法结合了稳定的扩散技术和专门的全景分支，并通过独特的交叉注意力机制来减少图像...

2024-04-11 talkingdev

策略引导扩散（Policy-Guided Diffusion）是一种新颖的训练代理的方法，适用于离线环境。该技术通过创建与行为和目标策略都非常接近的综合轨迹，从而生成更加真实的训练数据。这不仅有助于提高离线强化学习模型的性...

2024-03-12 talkingdev

最新的研究表明，新型Stealing Stable Diffusion (SSD)技术能够提高单目深度估计在低光或雨天等恶劣环境下的准确性。该技术通过稳定扩散过程，克服了在这些条件下深度估计的挑战，同时能够提供更好的细节捕捉和更精...

2024-02-27 talkingdev

GeneOH扩散技术是一种新的技术，它通过改正手部动作和与物体的关系中的错误来提高模型对物体的理解和交互。这种方法专注于使这些交互更加自然。

2024-01-24 talkingdev

这项工作展示了如何使用扩散技术在图像中克隆人脸。虽然深度伪造有很多方法可以实现，但扩散技术由于其根据需要修补图像中的其他部分的能力而变得更加有趣。

2023-11-30 talkingdev

科学家们开发出一种新方法，使用生成扩散技术创建代理数据集，这种数据集具有更好的代表性和更多样化，同时需要的计算资源更少。这种方法可以通过在代理数据集中训练神经网络来提高模型的性能。这种方法可以降低计算...

2023-10-25 talkingdev

单个提示生成单个图像通常很好，但在生成视频时由于帧之间的时间变化而失败。然而，更改文本时的一致性非常具有挑战性。这项工作解决了这两个问题，并利用扩散技术实现了长达512帧的生成。