开源|Sopro TTS：仅1.69亿参数，支持零样本语音克隆的轻量级CPU端模型

近日，GitHub上开源了一个名为Sopro的轻量级文本转语音（TTS）模型，其核心亮点在于仅包含1.69亿参数，却实现了零样本语音克隆能力，并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布，迅速在技术社区引发关注，在Hacker News上获得了188点热度与80条评论，显示出业界对高效、易用语音合成技术的强烈需求。 Sopro模型的技术突破在于其“零样本语音克隆”功能。这意味着用户只需提供一段短至数秒的目标说话人音频样本，模型无需针对该说话人进行额外训练，即可合成出具有该说话人音色特征的任意文本语音。这一能力极大地降低了定制化语音合成的门槛和数据要求。同时，模型采用轻量化设计，参数量控制在1.69亿，使其无需依赖高性能GPU，在消费级CPU上也能进行推理，这为边缘计算、移动设备部署和资源受限场景下的语音应用开辟了新的可能性。该项目的开源标志着语音合成技术正朝着更高效、更易获取的方向发展。与动辄数十亿参数、需要海量数据和强大算力的大模型相比，Sopro在模型效率与合成效果之间取得了有意义的平衡。它有望应用于有声内容创作、语音助手个性化、教育工具、辅助技术等多个领域，推动语音交互技术的普及和创新。其开源性质也鼓励了社区进一步研究、优化和应用，共同推进轻量级语音AI的边界。

周刊订阅 - Newsletter

开源|Sopro TTS：仅1.69亿参数，支持零样本语音克隆的轻量级CPU端模型

核心要点