漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-04 talkingdev

探索LLMa的视频理解技术

这个仓库包含了一系列有用的资源,重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集,可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术,在视觉和...

Read More
2024-02-16 talkingdev

VideoAnnotator开源:结合人类专业知识的注释方法提高视频分类精度

近日,一种名为Video Annotator的框架已经在GitHub上发布。该框架通过将领域专家直接融入注释过程中,利用零样本学习和主动学习技术提高模型的精度和效率。这种注释方法不仅提高了模型的分类准确度,而且可以更好地...

Read More
2023-12-13 talkingdev

论文:探索空间-时间多样性,STDN视频分类技术

空间-时间多样化网络(STDN)是一种新型模型,通过探索帧内的空间特征和时间上的关联关系来捕捉视频中的多种线索。STDN模型可以同时捕捉视频中的动作、外观、场景和对象等多种信息,从而实现更准确的视频分类。此技...

Read More
2023-11-14 talkingdev

新注意力机制DG-SCT提升多模态任务音视频模型

近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...

Read More
2023-06-09 talkingdev

中文视频理解领域的重量级数据集发布(GitHub仓库)

近日,一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍,这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下,借助这个数据集和创新的...

Read More