漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-24 talkingdev

MINT-1T-拥有万亿令牌的多模态数据集

研究人员宣布了一个新的数据集,其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据,并可用于训练人工智能算法。通过使用这个数据集,研究人员可以更好地理解人类语言和视觉系统的工作...

Read More
2024-07-11 talkingdev

Paints UNDO:模拟绘画过程,UNDO生成模型开源

来自ControlNet、IC-Light等图像生成系统的创建者,发布了名为Paints UNDO的系统,它是一个模型创建笔触以重建图像的系统。与以往的笔触系统不同,该模型可以撤消笔触,并且在进行过程中经常完全重新思考其方法,这...

Read More
2024-07-11 talkingdev

论文:自动驾驶的3D数据生成,PerlDiff方法引领新潮流

PerlDiff方法将3D几何信息与街景图像生成相结合,进一步提高了街景图像生成的精确性。这种方法的提出,无疑为自动驾驶领域的3D数据生成提供了新的研究方向和方法。通过更精确的街景图像生成,自动驾驶技术的安全性和...

Read More
2024-07-11 talkingdev

论文:个性化文本到图像模型的新进展

研究人员引入了一个新的强化学习框架,以提高个性化文本到图像的生成效果。这种新的强化学习框架,是目前研究人员在个性化文本到图像模型领域的重要突破。这项技术的应用不仅可以大幅提高图像生成的质量,更可以实现...

Read More
2024-07-11 talkingdev

Chameleon模型增加图像生成能力的新进展

Anole是一款基于Meta的Chameleon模型构建的开放自回归多模态模型。近期,研究者们着重对该模型进行了微调,成功地将图像生成能力重新整合进了模型中。这一改进不仅提高了模型的功能性,也为未来的开发打开了新的可能...

Read More
2024-07-09 talkingdev

PartCraft:突破传统的视觉AI生成控制新方法

近期,一种名为PartCraft的新型视觉AI生成方法引起了业界的广泛关注。不同于传统的文本或素描基础方法,PartCraft允许用户通过部分选择视觉概念。这一创新的方式为视觉AI生成提供了更多可能性,使得用户可以更灵活、...

Read More
2024-06-26 talkingdev

EvalAlign:一种文本到图像生成模型评估指标

EvalAlign是一种新型的用于改进文本到图像生成模型评估的指标。与现有的评估指标不同,EvalAlign提供了细粒度的准确性和稳定性。它主要关注图像的真实性和文本与图像的对齐性。与其他评估指标不同的是,EvalAlign不...

Read More
2024-06-03 talkingdev

FABRIC:无训练提升图像生成质量的开源方案

近日,一个名为FABRIC的新方法在GitHub上引起了广泛关注。FABRIC是一种在推理阶段无需训练即可提升图像生成质量的方法。它通过使用评分函数或图像示例来指导输出质量,从而显著改善生成图像的视觉效果。该方法的最大...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page