漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-16 talkingdev

AnimateAnyone 开源视频控制模型复现成功

AnimateAnyone 是一款非常优秀的视频控制模型,它接受图像和骨架动作作为输入,然后将人物动画应用到控制图像上。这个开源仓库是对这项工作的复现,它实现了 AnimateAnyone 的主要功能,并在开发者社区中广受好评。

Read More
2024-01-03 talkingdev

图像伪造可影响人类感知,AI视觉系统与人类感知的相似性和差异性探究

近年来,人工智能技术的发展趋势,使得图像处理技术得以广泛应用,如在自动驾驶、安保领域等。然而,一些研究表明,AI视觉系统与人类感知存在差异。 研究人员发现,图像伪造可影响人类感知,同时也可能误导AI视觉系...

Read More
2023-12-21 talkingdev

TokenAny-可对任何事物进行标记

近日,GitHub仓库上线了一款全新的模型,可同时进行图像分割、识别和标注,超越了之前的能力。这个新模型的优势在于可以标记任何事物,不再局限于传统的图像和文本。目前,该模型已经在多个领域得到了广泛的应用,包...

Read More
2023-12-19 talkingdev

谷歌发布Gemini Pro,为Vertex AI提供图像和文本处理能力

谷歌推出了Gemini Pro,这是其先进的AI模型Gemini Ultra的轻量级版本,在Vertex AI中公开预览,提供文本和图像处理能力以及可定制的上下文,适用于各种用例。Gemini Pro是一个快速而灵活的解决方案,可以自定义模型...

Read More
2023-11-13 talkingdev

LM4Visual-基于AI文本模型来进行视觉任务

研究人员发现,尽管大型语言模型是为文本设计的,但它们可以成为处理视觉任务的强大工具。使用文本训练的模型的部分来直接处理图像和视频,研究人员在各种视觉任务中取得了改进的结果。该研究结果表明,基于文本的AI...

Read More
2023-10-27 talkingdev

RGM,一种多功能的图像像素匹配方法

研究介绍了RGM(Robust Generalist Matching),这是一种专为图像中的稀疏和密集像素匹配而设计的深度学习模型。该方法利用了一种独特的级联GRU模块和一个新的大规模数据集。该模型可以应用于多种场景,具有广泛的适...

Read More
2023-10-17 talkingdev

MosaicFusion:无需训练即可制作新图像的工具开源

MosaicFusion是一款神奇的工具,可以创建许多对象的新图片,而无需任何先前的学习。它分两步完成:首先制作图片,然后创建一个遮罩,显示每个对象的位置。

Read More
2023-10-11 talkingdev

Adobe全力加强Photoshop,搭载Firefly强大的AI工具

近日,Adobe发布了Photoshop的官方网络版本,这一版本配备了由Firefly提供动力的AI工具。这些AI工具将为用户提供更多创新的图像编辑功能,使Photoshop成为一个更加全面和强大的图像处理平台。Adobe的这次升级反映出...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page