漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-14 talkingdev

论文:SSMs-线性内存消耗与高质量的视频生成

这项研究介绍了一种创新的视频生成方法,使用状态空间模型(SSMs)克服了传统的基于注意力扩散模型的内存限制,重点关注线性内存消耗。在UCF101和MineRL Navigate数据集的测试中,SSMs能够创建具有竞争力质量的更长...

Read More
2024-03-13 talkingdev

V3D开源-视频扩散模型增强3D生成技术

这个项目引入了一种新颖的方法,通过单个图像生成高质量、详细的3D物体,增强了3D物体的生成。该方法基于视频扩散模型,利用深度学习技术从单个视角的2D图像生成高质量的3D模型。此方法可应用于各种领域,如游戏制作...

Read More
2024-03-12 talkingdev

VideoElevator:将文本转化为视频的新方法

VideoElevator引入了一种新的方法,通过利用文本到图像模型的优势来增强文本到视频扩散模型。这种即插即用的方法将增强过程分为了调整时间运动和提升空间质量两个部分,从而产生了帧质量和文本对齐得到了提高的视频...

Read More
2024-03-11 talkingdev

多视角图像生成技术 ViewFusion

近日,研究人员提出了一种名为 ViewFusion 的新算法,旨在改善扩散模型从新的视角生成图像的方式,确保图像在不同视角下保持一致。传统的扩散模型在处理多视角图像时,往往会产生不一致性,导致图像质量下降。ViewFu...

Read More
2024-03-05 talkingdev

Smooth Diffusion-增强文本到图像扩散模型的潜在空间平滑度

一种名为Smooth Diffusion的新方法解决了文本到图像扩散模型的潜在空间平滑度挑战。该方法确保在输入微小调整时,图像呈现出一致和逐渐的变化。

Read More
2024-03-04 talkingdev

扩散蒸馏的悖论

扩散模型将困难问题(比如图像生成)拆分成多个小问题(比如从图像中去除微小的噪点)。单步扩散生成已经得到了很多努力,但似乎这并不符合初衷。本文探讨了扩散蒸馏的悖论,并概述了许多可供研究的方向。

Read More
2024-02-28 talkingdev

FlowMDM实现长时间人体动作生成

FlowMDM是一种新的模型,用于从文本描述生成长时间连续的人体运动序列。这种首创的扩散模型使用混合位置编码进行逼真的运动创建,无需额外的去噪步骤,在关键数据集上表现出卓越的准确性和逼真度。

Read More
2024-02-23 talkingdev

多视角扩散+:生成引人入胜的3D视图

最近,一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图,然后将它们拼接在一起,形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分,然后在每个部分上...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page