漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

VSP-LLM可视化语音识别框架开源

talkingdev • 2024-02-28

589266 views

Visual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。

核心要点

  • GitHub上开源的Visual Speech Recognition with Language Models(VSP-LLM)框架
  • 新方法:集成LLMs来高效处理视频输入
  • 新方法:通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练

Read more >