漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

新注意力机制DG-SCT提升多模态任务音视频模型

talkingdev • 2023-11-14

894031 views

近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分支,两个分支共同作用于模型中的每个特征图。实验证明,该注意力机制在多任务学习、视频分类、音频分类等多个任务中都取得了显著的提升效果。目前,该项目已在GitHub上开源。

核心要点

  • DG-SCT注意力机制可用于增强预先训练的音频-视频模型,以用于多模态任务
  • DG-SCT具有空间通道分支和时间分支,共同作用于模型中的每个特征图
  • DG-SCT注意力机制在多任务学习、视频分类、音频分类等多个任务中都取得了显著的提升效果

Read more >