漫话开发者 - UWL.ME Mobile
Loading more...
漫话开发者 - UWL.ME Mobile

谷歌近日发布了Gemini 3.5 Live Translate,这是一个全新的音频模型,专注于实现实时语音到语音的翻译。与传统的语音翻译相比,该模型支持超过70种语言,并致力于消除翻译过程中常见的尴尬停顿,同时保持语调和情感的连贯性。这得益于其基于Gemini 3.5架构的端到端音频处理能力,能够绕过多阶段级联(如先转文字再翻译再合成语音)所带来的延迟和信息损失。目前,该技术已逐步整合进谷歌产品生态中,包括在Google Meet上提供私人预览版,以及在Android和iOS端的Google Translate应用中部署。这标志着人机交互和多语言沟通领域迈出了重要一步,尤其是在降低实时对话障碍方面具有显著潜力,有望重塑跨国协作与文化交流的模式。

核心要点

  • Gemini 3.5 Live Translate是谷歌推出的实时语音到语音翻译音频模型,支持70多种语言,用于消除翻译延迟和语调失真。
  • 该模型基于Gemini 3.5架构,实现了端到端的实时翻译,保持了自然语调和情感表达,极大提升了跨语言沟通的流畅度。
  • 新技术已开始在Google Meet(私人预览版)和Google Translate应用(Android/iOS)中部署,旨在增强多语言实时通信效率。

Read more >