漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-09 talkingdev

新型图像增强方式:双聚合变换器(DAT)开源

研究人员已经开发出一种新的方法,叫做双聚合变换器(DAT),该方法通过空间和通道注意力来提升图像的超分辨率效果。DAT使用了诸如自适应交互模块和空间门前馈网络等特殊工具,其性能优于当前的其他方法。空间和通道...

Read More
2023-07-28 talkingdev

CFSum-提升多模态摘要的全新工具

一项新的研究论文介绍了一种名为粗细贡献网络(CFSum)的全新工具,旨在提升多模态摘要中对图像的使用效果。CFSum能有效地筛选出无关紧要的图像,只利用对摘要内容有帮助的图像。这一工具的研发,将推动多模态摘要领...

Read More
2023-07-11 talkingdev

创新模型DPC-DUN:使图像修复更快更好

这项研究介绍了动态路径可控的深度展开网络(DPC-DUN),这是一种创新的模型,优化了压缩感测(CS)中的图像重建,平衡了性能和复杂性,以提高效率和结果。DPC-DUN模型通过动态路径控制,实现了对算法的灵活配置和优化,...

Read More
2023-06-12 talkingdev

新技术:Matte Anything激发计算机视觉的新火花

近年来,自主车辆研究的减速使计算机视觉领域的进展似乎放缓了。但现在,一种新技术正在让人们看到希望。该技术使用三个图像模型的水螅来增强自然图像抠图的性能,效果非常引人注目。 ## 核心要点: - Matte Anyth...

Read More
2023-06-08 talkingdev

文本到图像模型中的紧急对应关系

最近,研究人员发现文本图像模型(如Stable Diffusion)可以具有紧急对应关系检测能力。这些对应关系是图像中的语义特征,即表示相同的事物,例如人的鼻子,动物的耳朵,汽车的轮胎等。通过巧妙的算法,可以从各种图...

Read More
2023-06-06 talkingdev

无需提示的扩散,文本转图像更进一步 (GitHub仓库)

最近,研究人员在文本转图像(T2I)领域中推出了一种新的方法,称之为“无需提示的扩散”。这种系统只依靠视觉输入生成图像,无需任何文本提示。其利用了一种称为“语义上下文编码器(SeeCoder)”的独特结构来解释参考...

Read More
2023-06-06 talkingdev

苹果:从未提及人工智能,却拥有大量AI技术

苹果公司或许是消费级人工智能的潜在领导者,虽然他们从未明确提及过AI技术,但在以下几个方面表现出色: - **变压器键盘**:苹果公司新推出的MacBook Pro配备了变压器键盘,这意味着每个键都有自己的处理器,可以...

Read More
2023-05-22 talkingdev

DragGAN: 交互式图像处理方法

研究人员开发出一种名为 DragGAN 的工具,使用户可以通过拖动图像中的任意点到目标位置来精确修改图像,从而实现姿势、形状、表情和布局的变化。它不仅在创建逼真结果方面表现优异,而且在跟踪变化方面也非常有效,...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page