漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-04 talkingdev

论文:使多模态大型语言模型适应各种任务

多模态大型语言模型在许多任务中表现优秀,但在定位图像中的特定对象方面往往存在困难。为了改善这一问题,研究人员已经开发出一种新的方法:将物体的位置转化为文本,并通过特殊任务进行模型的训练。这种方法的出现...

Read More
2023-10-04 talkingdev

视觉-语言模型DA-CLIP带来更优秀的图像修复效果

视觉-语言模型如CLIP在许多任务中表现出色,但在图像修复方面却面临一些挑战。因此,一项新的项目引入了DA-CLIP模型,该模型优化了CLIP的工作方式,使其更好地处理这些任务,从而带来更清晰的图像重建。DA-CLIP模型...

Read More
2023-10-03 talkingdev

Microsof的UniLM团队的Kosmos-2.5:将自然语言处理技术拓展至图像领域

近年来,Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件,并为该文件生成文本或标记。这与最近Meta为...

Read More
2023-10-03 talkingdev

高斯注意力(Gaussian Attention)改进光流的研究进展(GitHub Repo)

光流技术是帮助我们理解图像中物体运动的重要技术。一项新的研究利用高斯注意力(Gaussian Attention),专注于更细微的细节并更好地将它们匹配起来,从而研发出了一个名为GAFlow的模型。高斯注意力的使用,可以使光流...

Read More
2023-09-28 talkingdev

UnitedHuman:高质量人像图像生成方式开源

本项目推出了一款名为UnitedHuman的新工具,它能够使用来自多个不同来源的图像,并将它们进行组合,即使这些图像的大小不同或者关注的焦点不同。UnitedHuman的强大之处在于,它能够克服这些差异,生成出高质量的人像...

Read More
2023-09-28 talkingdev

全新的图像增强工具HMTF-Net开源

近日,一个名为HMTF-Net的全新图像增强工具在GitHub上公开。该工具的主要功能是提升照片的质量,其使用的方式相比其他方法更为易懂。HMTF-Net根据照片的不同部分,智能分析并确定最佳的增强方式进行处理。由于其操作...

Read More
2023-09-21 talkingdev

DFormer开源,更深入理解RGB-D图像

DFormer是一种独特的方法,可以同时研究图像的颜色和深度。与旧有的方法不同,DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息(R,G,B)和深度信息(D)的图像。DFormer的设计目标是提供一种更有效的...

Read More
2023-09-20 talkingdev

HF transformers,最新的背景移除技术

Matting是一种创建黑白掩膜以分割出图像重要部分的过程。它通常用于前景和背景的分割。智能手机的人像模式使用了一种与这里描述的ViTMatte相似的方法。这种技术发展现代化,为未来的图像处理技术开创了新的可能。此...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page