扩散模型的相关内容 - 漫话开发者

2024-02-19 talkingdev

论文：如何使用扩散模型进行视频压缩

研究人员开发了一种新的视频压缩方法，使用扩散模型生成高质量的视频帧，同时保持低数据速率。该方法将视频压缩与机器学习相结合，能够在保持视频质量的同时减少数据传输的成本。研究人员在测试中发现，这种方法能够...

2024-02-06 talkingdev

AnimateLCM是一种新的方法，可以通过将学习过程分成两部分来快速创建高质量的视频和改进现有的视频扩散模型。AnimateLCM的第一步是利用低复杂度的运动补偿技术来生成一个低质量的视频序列。然后，利用一个基于自适...

2024-02-05 talkingdev

谷歌展示了一种潜在的一致性扩散模型，并进行了一些架构上的改变。该模型在移动设备上进行了训练，具有亚秒级的生成时间。

2024-02-02 talkingdev

本文介绍了一个基于场景和手写文本的基准测试和两个数据集。利用原始、损坏和辅助图像，全局结构引导扩散模型（GSDM）利用文本结构有效恢复清晰文本。该技术在识别准确度和图像质量方面显示出显著的改进。

2024-01-31 talkingdev

研究人员通过在训练手部注释图像中添加三个额外通道，改善了生成模型（例如GAN和扩散模型）创建逼真手部图像的能力。这种方法利用了手部形态的先验知识，可以应用于许多手部相关的任务，例如手语翻译和手势识别。此...

2024-01-31 talkingdev

CreativeSynth是一种艺术图像编辑方法，通过无缝集成文本和图像输入来实现。其扩散模型配备了定制化的注意机制，能够精确地处理风格和内容，同时保留原始艺术作品的本质。为艺术家和设计师提供了一个全新的创作维度...

2024-01-31 talkingdev

3D对象生成的一个关键挑战是可以创建的物品的多样性。本研究使用修改后的架构来提高样本效率，并将系统扩展到可以处理每个3D类别中更大的对象集。

2024-01-30 talkingdev

Pix2Gestalt是一种针对零样本全景分割的框架。它擅长在部分遮挡的情况下重建完整的物体形状和外观。利用大规模扩散模型，Pix2Gestalt在挑战性场景中表现出色，包括那些不符合通常模式的艺术图像。Pix2Gestalt的创新...