漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-22 talkingdev

利用AI使视频游戏中的NPC更真实,Agency获1600万美元融资

前Google DeepMind的科学家在Artificial Agency揭示了一种用于视频游戏中动态NPC的AI行为引擎。他们已经筹集到了1600万美元,以提高游戏中的交互性。他们正在与知名的AAA工作室合作,并期待到2025年能够得到广泛的采...

Read More
2024-07-19 talkingdev

Flow Studio产品:塑造电影级质量的3分钟长视频

Flow Studio以其出色的技术实力,推出了全新的视频生成产品。这款产品能够生成完全制作完成、质量堪比电影的3分钟长视频。它以引人入胜的剧情、连贯的角色设定,以及自动匹配的背景音乐和音效,为用户提供了极致的视...

Read More
2024-07-18 talkingdev

ReasonVOS:基于世界知识的视频对象分割技术

推理视频对象分割(ReasonVOS)是一项新的任务,它使用隐式文本查询生成分割掩码。这需要复杂的推理和世界知识。在这个工作中,我们提出一个新的任务:基于世界知识的视频对象分割。这项任务的主要挑战在于,它需要...

Read More
2024-07-12 talkingdev

OVFormer-引领开放词汇视频实例分割突破

近日,一种名为OVFormer的新方法在开放词汇视频实例分割(VIS)领域引起了广泛关注。该方法解决了该领域的关键问题,改善了嵌入对齐,并利用基于视频的训练来提高时间一致性。OVFormer的核心优势在于它的开放性词汇...

Read More
2024-07-10 talkingdev

Video-STaR:自我训练助力视觉语言模型的提升

Video Self-Training with augmented Reasoning (Video-STaR)是一种新的方法,用于改进大型视觉语言模型(LVLMs)。通过自我训练和增强推理,Video-STaR能够提高模型的学习能力和预测准确性。这种方法的主要优势在于...

Read More
2024-07-09 talkingdev

论文:从休闲视频中无人监督估计类别级3D姿态

科研人员已经开发出一种新的方法,可以从休闲的,以对象为中心的视频中,无需人类监督就可以估计出类别级的3D姿态。这种新方法的开发,无疑为3D姿态估计领域带来了新的突破。在无人监督的情况下,能够从视频中准确估...

Read More
2024-07-03 talkingdev

解析器的寓言:CVPR的精彩主题演讲

在最近的CVPR(计算机视觉和模式识别会议)上,一场名为《解析器的寓言》的主题演讲引发了广泛的关注和热议。这份由28页PDF幻灯片构成的演讲,深入浅出地解释了解析器的重要性和它在现代科技领域中的应用。解析器是...

Read More
2024-07-02 talkingdev

UnSAM-无监督SAM自动图像分割技术开源

无监督SAM(UnSAM)是一种新型的全图像分割模型,它消除了对人工注释的需求。UnSAM通过结合自上而下和自下而上的聚类方法,识别视觉场景中的层次结构,采用一种分而治之的方法。在复杂的视觉场景中,这种方法可以更...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page