漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-10-30 talkingdev

AI OmniGen:一款视觉一致性的AI图像生成

AI OmniGen是一款新推出的AI图像生成器,旨在提供一致的视觉效果。该工具利用先进的深度学习技术生成高质量的图像,广泛应用于广告、设计和内容创作等领域。与其他图像生成器相比,AI OmniGen在生成过程中的视觉连贯...

Read More
2024-10-16 talkingdev

线性扩散变换器助力高效高分辨率图像合成

近日,研究人员提出了一种高效的线性扩散变换器(linear diffusion transformer),该技术显著提升了高分辨率图像合成的效率。传统的图像合成方法通常面临生成速度慢和计算资源消耗大的问题,而线性扩散变换器通过优...

Read More
2024-10-03 talkingdev

FLUX1.1 [pro]:Black Forest Labs推出全新SotA文本到图像模型

FLUX1.1 [pro]是由Black Forest Labs最新推出的文本到图像模型,代表了当前技术的前沿水平(SotA)。该模型通过先进的算法和深度学习技术,实现了更高质量和更快速度的图像生成能力。FLUX1.1 [pro]不仅在生成图像的...

Read More
2024-07-24 talkingdev

MINT-1T-拥有万亿令牌的多模态数据集

研究人员宣布了一个新的数据集,其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据,并可用于训练人工智能算法。通过使用这个数据集,研究人员可以更好地理解人类语言和视觉系统的工作...

Read More
2024-07-11 talkingdev

Paints UNDO:模拟绘画过程,UNDO生成模型开源

来自ControlNet、IC-Light等图像生成系统的创建者,发布了名为Paints UNDO的系统,它是一个模型创建笔触以重建图像的系统。与以往的笔触系统不同,该模型可以撤消笔触,并且在进行过程中经常完全重新思考其方法,这...

Read More
2024-07-11 talkingdev

论文:自动驾驶的3D数据生成,PerlDiff方法引领新潮流

PerlDiff方法将3D几何信息与街景图像生成相结合,进一步提高了街景图像生成的精确性。这种方法的提出,无疑为自动驾驶领域的3D数据生成提供了新的研究方向和方法。通过更精确的街景图像生成,自动驾驶技术的安全性和...

Read More
2024-07-11 talkingdev

论文:个性化文本到图像模型的新进展

研究人员引入了一个新的强化学习框架,以提高个性化文本到图像的生成效果。这种新的强化学习框架,是目前研究人员在个性化文本到图像模型领域的重要突破。这项技术的应用不仅可以大幅提高图像生成的质量,更可以实现...

Read More
2024-07-11 talkingdev

Chameleon模型增加图像生成能力的新进展

Anole是一款基于Meta的Chameleon模型构建的开放自回归多模态模型。近期,研究者们着重对该模型进行了微调,成功地将图像生成能力重新整合进了模型中。这一改进不仅提高了模型的功能性,也为未来的开发打开了新的可能...

Read More
2024-07-09 talkingdev

PartCraft:突破传统的视觉AI生成控制新方法

近期,一种名为PartCraft的新型视觉AI生成方法引起了业界的广泛关注。不同于传统的文本或素描基础方法,PartCraft允许用户通过部分选择视觉概念。这一创新的方式为视觉AI生成提供了更多可能性,使得用户可以更灵活、...

Read More
2024-06-26 talkingdev

EvalAlign:一种文本到图像生成模型评估指标

EvalAlign是一种新型的用于改进文本到图像生成模型评估的指标。与现有的评估指标不同,EvalAlign提供了细粒度的准确性和稳定性。它主要关注图像的真实性和文本与图像的对齐性。与其他评估指标不同的是,EvalAlign不...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page