漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-29 talkingdev

SpeechGPT:高质量语言和声音合成新能力

近日,研究人员推出了一种名为SpeechGPT-Gen的新语音合成模型,该模型能够高效地处理语言和声音特性的复杂性。SpeechGPT-Gen是一种基于GPT-2架构的语音合成模型,通过对大量语言数据进行训练,使得模型能够预测下一...

Read More
2023-09-15 talkingdev

Coqui发布新一代文本转语音模型

科技公司Coqui近日公布了其新型文本转语音模型xtts的权重参数。该模型能够克隆语音参数,并能进行多语种的合成。此项技术的出现,无疑是对人工智能领域的一大贡献,预计将在语音合成、语音识别等多个应用领域发挥巨...

Read More
2023-08-29 talkingdev

AudioLDM2-声音与音乐生成模型开源

近日,一款出色的开源声音与音乐生成模型在GitHub上引发关注。这款模型运行速度快,能生成节拍、音效和基础对话。操作简单,且对提示样式具有较强的鲁棒性。该模型的出现,无疑为音频处理领域的发展注入了新的活力,...

Read More
2023-08-17 talkingdev

Uber货运和Airbnb前员工共同推出AI经纪人服务,助力货运业务升级

尽管近年来自动化技术已经得到广泛应用,但每年仍有超过10亿个电话用于协调美国的货运业务。FleetWorks是一种新型的自动化系统,它利用语音合成技术、生成式AI以及与传统物流系统的集成,来自动处理这些电话。比如,...

Read More
2023-08-14 talkingdev

Racast:把你想阅读的文章转变为音频摘要

再造(Recast)是一款颠覆性的新产品,它可以将您想阅读的文章转化为丰富的音频摘要。这款产品通过先进的语音合成技术,将文字信息转化为音频,使用户可以在忙碌的日程中随时随地获取信息。无论是在通勤路上,健身房中...

Read More