漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-22 talkingdev

如何训练语言模型听取多模态信息

本文探讨了当前主流的预训练语言模型加入多模态功能的范式。即,在编码器和文本模型之间对齐嵌入。该方法能够让语言模型更好地理解来自视觉和听觉等多个模态的信息,从而提高其自然语言处理的能力。近年来,语言模型...

Read More
2023-10-13 talkingdev

whispering-llama:最新开源多模态融合技术以增强语音识别

研究人员开发了一种新技术,将声音信息和语言数据结合起来,纠正自动语音识别系统中的错误。该技术基于交叉模态融合,使用视觉和语言信息来提供更准确的识别结果。此外,该技术还可以提供更好的语音合成能力。研究人...

Read More