漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-16 talkingdev

SqueezeTime-移动视频理解的新进展

SqueezeTime是一款为移动视频理解设计的轻量级网络,其独特之处在于,它能够将视频的时间轴压缩到频道维度中,从而增强了时间分析的能力。SqueezeTime网络的设计理念是,通过压缩时间轴,可以在不牺牲视频内容质量的...

Read More
2024-04-03 talkingdev

论文:视频理解技术突破,R2-Tuning技术通过语音提示识别特定瞬间

研究人员最近开发了一种名为R2-Tuning的技术,这项技术能够通过识别口语提示来理解视频中的特定时刻。R2-Tuning技术的核心在于其能够对视频内容进行高效的分析和处理,使得机器能够像人类一样理解视频内容中的关键时...

Read More
2024-03-13 talkingdev

VideoMamba视频方案所有代码和模型开源

VideoMamba是一种解决视频理解复杂性的解决方案,它通过高效地管理本地冗余和全局依赖性来实现。该项目的创建者宣布,他们已经将代码和模型全部发布到GitHub上供公众使用。这个开源项目将提高人工智能在视频理解上的...

Read More
2024-03-04 talkingdev

探索LLMa的视频理解技术

这个仓库包含了一系列有用的资源,重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集,可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术,在视觉和...

Read More
2024-02-02 talkingdev

Norton开源,可大幅提高长视频理解能力

最新研究表明,长视频理解领域存在多粒度噪声对应问题,影响了视频语言研究的准确性。为了解决这一问题,研究人员开发了一种名为Norton的新方法,应用了最优传输算法来提高长期视频理解。该方法通过处理多粒度噪声对...

Read More
2024-01-21 talkingdev

DoraemonGPT:基于LLM的AI系统在视频理解方面迈出重要一步

最近,一种名为DoraemonGPT的新型AI系统基于大型语言模型取得了重要进展,它聚焦于视频任务,提升了对于动态现实场景的理解。DoraemonGPT将视频转换为符号记忆,以进行高效的时空查询,并利用专门的工具和新颖的规划...

Read More
2023-12-19 talkingdev

Meta开放首个大规模第一人称视频数据集

视频理解是一个古老的领域,现在才开始获得成功。成功的主要推动因素是高质量的数据集。Meta的这项工作包括许多传感器数据源和手势。它为现有方法提供了基准性能。

Read More
2023-11-01 talkingdev

TESTA开源,快速理解长视频方案

TESTA,一种旨在通过组合相似帧和补丁来加速理解长视频的方法。使用TESTA,研究人员成功地降低了计算负荷,并提高了匹配段落到视频以及回答关于长视频的问题的性能。

Read More
2023-10-11 talkingdev

利用大型语言模型提升视频理解能力——FAVOR新方法的引入

研究人员推出了一种名为FAVOR的新方法,该方法通过在帧级别精细融合音频和视觉细节,使大型语言模型能够理解视频。FAVOR方法的推出,为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...

Read More
2023-09-22 talkingdev

论文:模型如何理解声音和视觉的结合?

这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...

Read More
  1. Next Page