漫话开发者 - UWL.ME Mobile
Loading more...
漫话开发者 - UWL.ME Mobile

法国研究机构Kyutai Labs近日开源其文本转语音(TTS)系统Kyutai TTS,该技术凭借L40S GPU实现32请求并行处理时仅350毫秒的延迟表现,达到行业领先水平。系统创新性地提供单词级时间戳输出功能,英语和法语的字错误率(WER)分别低至2.82%和3.29%,说话者相似度达77.1%-78.7%,展现出色的语音合成质量。其流式文本处理架构支持长篇文章合成,目前覆盖英法双语,为实时语音合成应用开辟新可能。开源地址已通过社交平台公布,预计将对语音交互、无障碍服务等领域产生显著影响。

核心要点

  • 采用L40S GPU实现350毫秒超低延迟,支持32路请求并行处理
  • 创新输出单词级时间戳,英法语WER低于3.3%,相似度超77%
  • 开源架构支持流式文本处理,适用于长文本英法语合成场景

Read more >