漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-11 talkingdev

利用大型语言模型提升视频理解能力——FAVOR新方法的引入

研究人员推出了一种名为FAVOR的新方法,该方法通过在帧级别精细融合音频和视觉细节,使大型语言模型能够理解视频。FAVOR方法的推出,为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...

Read More
2023-09-22 talkingdev

论文:模型如何理解声音和视觉的结合?

这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...

Read More
2023-06-09 talkingdev

中文视频理解领域的重量级数据集发布(GitHub仓库)

近日,一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍,这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下,借助这个数据集和创新的...

Read More
2023-05-12 talkingdev

VideoChat:一种更好地理解视频的新系统

研究人员发布了一个名为VideoChat的系统,该系统结合了理解视频和语言的人工智能技术,使视频更易于理解。研究人员还创建了大量的视频,配有详细的描述和对话,以帮助训练系统更好地理解视频中的事件序列和因果关系...

Read More
2023-05-01 talkingdev

ChatVideo: 一种多模态视频理解系统

## 新闻内容: ChatVideo是一个原型系统,用于多功能和多模态视频理解,采用基于轨迹的范式和视频基础模型(ViFMs)来注释属性。这种方法在解决现实场景中的各种视频相关问题方面表现出有效性。 ### 三个核心要点: - C...

Read More
  1. Prev Page