漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-07 talkingdev

HelixNet:开源三合一模型显著提升生成性能

最近,一项名为HelixNet的新研究显示,如果微调Mistral基础架构的三个任务特定模型,一个用于生成,一个用于批判,最后一个用于再生,则整个系统的生成性能显着提高。该研究使用合成数据来调整这些模型。HelixNet的...

Read More
2023-10-13 talkingdev

whispering-llama:最新开源多模态融合技术以增强语音识别

研究人员开发了一种新技术,将声音信息和语言数据结合起来,纠正自动语音识别系统中的错误。该技术基于交叉模态融合,使用视觉和语言信息来提供更准确的识别结果。此外,该技术还可以提供更好的语音合成能力。研究人...

Read More
2023-09-25 talkingdev

EmoPP模型开源:实现情感感知的自然语音合成

近日,一篇研究论文介绍了一个名为EmoPP的模型,该模型融入了情感线索,以实现更准确的韵律分词预测。作者强调了韵律分词在实现自然 sounding Text-to-Speech(文本到语音)过程中的重要性。韵律分词是一种基于语音...

Read More
2023-09-15 talkingdev

Coqui发布新一代文本转语音模型

科技公司Coqui近日公布了其新型文本转语音模型xtts的权重参数。该模型能够克隆语音参数,并能进行多语种的合成。此项技术的出现,无疑是对人工智能领域的一大贡献,预计将在语音合成、语音识别等多个应用领域发挥巨...

Read More
2023-09-14 talkingdev

StabilityAI推出Stability Audio:一款简单易用的文本转音频生成器

稳定性AI最近发布了一款名为“稳定音频”的产品,这是一款文本转音频生成器。它能让任何人通过简单的文本提示生成短音频剪辑。用户只需输入文本,然后通过其转换能力,就可以轻松转化为音频。这款新工具的推出,无疑将...

Read More
2023-08-29 talkingdev

AudioLDM2-声音与音乐生成模型开源

近日,一款出色的开源声音与音乐生成模型在GitHub上引发关注。这款模型运行速度快,能生成节拍、音效和基础对话。操作简单,且对提示样式具有较强的鲁棒性。该模型的出现,无疑为音频处理领域的发展注入了新的活力,...

Read More
2023-08-17 talkingdev

Uber货运和Airbnb前员工共同推出AI经纪人服务,助力货运业务升级

尽管近年来自动化技术已经得到广泛应用,但每年仍有超过10亿个电话用于协调美国的货运业务。FleetWorks是一种新型的自动化系统,它利用语音合成技术、生成式AI以及与传统物流系统的集成,来自动处理这些电话。比如,...

Read More
2023-08-14 talkingdev

Racast:把你想阅读的文章转变为音频摘要

再造(Recast)是一款颠覆性的新产品,它可以将您想阅读的文章转化为丰富的音频摘要。这款产品通过先进的语音合成技术,将文字信息转化为音频,使用户可以在忙碌的日程中随时随地获取信息。无论是在通勤路上,健身房中...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page