漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-18 talkingdev

Clarity Upscaler:开源的前沿图像像素放大工具

Clarity Upscaler是一款集成了最新人工智能技术的图像放大工具,其GitHub页面已公开。该工具能够将低分辨率图像通过AI算法转换为高清晰度图像,有效改善了图像的放大过程中可能出现的模糊和像素化问题。Clarity Upsc...

Read More
2024-03-07 talkingdev

Vision-RWKV:处理高分辨率图像任务的高效模型

Vision-RWKV将NLP中的RWKV架构应用于视觉任务,为高分辨率图像处理提供了一个高效的解决方案。RWKV是一种基于注意力机制的架构,它在处理序列数据时表现出色,而Vision-RWKV则将其成功地应用于图像领域。该模型的表...

Read More
2024-02-23 talkingdev

多视角扩散+:生成引人入胜的3D视图

最近,一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图,然后将它们拼接在一起,形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分,然后在每个部分上...

Read More
2024-02-22 talkingdev

Flexible Vision Transformer开源,可生成任意分辨率图片

GitHub上发布了一个名为“Flexible Vision Transformer”的仓库,该架构设计用于创建任意分辨率和纵横比的图像。与传统模型不同,FiT将图像视为变量大小的标记序列,在训练和推理过程中更有效地适应不同的图像大小。这...

Read More
2024-02-07 talkingdev

CapH-单张照片3分钟生成多样化人像

CapHuman是一个框架,可以通过仅一张参考照片生成人物的多种表情和头部姿态。它巧妙地保持了人物的身份特征,让照片生成的多种人像看起来像是来自同一人。CapHuman使用的是神经网络技术,可以从单张照片中提取出关键...

Read More
2024-02-06 talkingdev

IMG2Music-图像转音乐方案

通过将图像转换为文本,文本转化为提示,提示转化为音乐,可以创建一个引人入胜的图像到音乐的流水线。

Read More
2024-02-06 talkingdev

Hugging Face的Diffusers 0.26新增视频处理和多IP使用功能,更多图像条件生成

Hugging Face的Diffusers 0.26版本增加了许多有趣的功能,其中包括视频处理和多IP适配器使用,可以在生成时对多个图像进行条件处理。

Read More
2024-01-31 talkingdev

论文:AI改写艺术图像编辑

CreativeSynth是一种艺术图像编辑方法,通过无缝集成文本和图像输入来实现。其扩散模型配备了定制化的注意机制,能够精确地处理风格和内容,同时保留原始艺术作品的本质。为艺术家和设计师提供了一个全新的创作维度...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page