漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-25 talkingdev

开源RPG框架,改进文本到图像生成质量

最近,由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成,将复杂的图像创建任务分解为更简单的任务,从而在处理多个...

Read More
2024-01-25 talkingdev

论文:MMCbench新基准测试大型多模型

这篇技术报告介绍了MMCBench,这是一个新的基准测试,旨在测试各种任务如文本到图像和语音到文本等情况下大型多模型(LMMs)的一致性和可靠性。该测试涵盖了超过100个流行模型,旨在提高读者对这些AI系统在现实世界...

Read More
2024-01-25 talkingdev

Google Chrome增加AI功能

谷歌正在增强Chrome的功能,包括在线文本编辑助手、多标签页自动整理和基于文本到图像扩散模型的自定义主题创建器等AI功能。

Read More
2023-12-20 talkingdev

基于UNet编码器实现更快的扩散模型

最近的一项研究表明,与解码器相比,使用UNet编码器在扩散模型中表现更加稳定。这一发现导致了一种新的编码器传播方案,显著加快了文本到图像和文本到视频生成等任务的速度。该研究成果已在GitHub上发布。

Read More
2023-12-12 talkingdev

使用预训练文本到图像扩散模型进行视频编辑

RAVE是一种利用现有文本到图像扩散模型来增强视频的视频编辑方法。这种方法可以在保持原始运动和结构的同时实现高质量的视频编辑。

Read More
2023-12-06 talkingdev

DMP开源,可提升AI图像预测精度

Diffusion Models as Prior (DMP)是一种新的方法,它在AI生成的图像中提高了语义预测的准确性。该创新性方法巧妙地将预先训练的文本到图像模型应用于各种任务,例如3D属性估计和语义分割,在有限的训练数据下表现优...

Read More
2023-12-05 talkingdev

StyleGAN-嵌入式个性化图像生成技术

一种新的方法利用扩展的StyleGAN嵌入空间W+用于文本到图像扩散模型,提高了生成图像中的身份保留能力。这种技术可以为个性化的图像生成提供更多的可能性,更好地满足用户的需求。

Read More
2023-11-09 talkingdev

基于Transformer扩散模型的训练成本比基于UNet的模型便宜90%

PixArt是一种新的文本到图像模型,它使用T5文本编码、交叉注意力和扩散变压器,以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练快90%。PixArt模型的训练...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page