漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-12 talkingdev

单个非自回归Transformer实现掩码音频生成

大多数音频生成技术使用扩散或自回归模型来生成声音。而这项研究并不使用多步骤或复杂的Transformer。相反,它使用了一个掩码语言模型来生成音频令牌。

Read More
2024-01-11 talkingdev

SpeechAgents-多模态LLMs实现人类沟通模拟

SpeechAgents是一个多模态人工智能系统,能够以惊人的真实度模拟人类的交流。这个系统由多模态LLM支持,可以处理多达25个代理人。它可以通过模仿人类对话,包括连贯的内容、真实的节奏和表达丰富的情感,来创造戏剧...

Read More
2024-01-02 talkingdev

谷歌发布VideoPoet论文:合成高质量音视频

VideoPoet是一种语言模型,能够从各种各样的条件信号中合成高质量的视频和相应的音频

Read More
2023-12-22 talkingdev

MossFormer2模型在单声道语音分离方面取得新进展

MossFormer2模型是MossFormer的改进版,该模型在单声道语音分离方面具有更好的性能。在MossFormer2中,通过引入一个基于复数的非线性激活函数和一个基于深度可分离卷积的上下采样结构,从而提高了模型的分离能力。此...

Read More
2023-12-21 talkingdev

VideoPoet:谷歌语言模型在视频创作中大放异彩

Google的VideoPoet是一种开创性的语言模型,它在处理文本到视频,视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...

Read More
2023-12-13 talkingdev

Meta发布可控制风格的音频AI基础模型

Meta最近发布了一篇关于音频AI基础模型的论文,并发布了更多的样本和引人入胜的演示。该项目的主要目标是生成可控制风格的音频内容,所有风格都来自同一个模型。

Read More
2023-12-11 talkingdev

OneLLM: 一种理解八种不同模态的多模态AI

一种名为OneLLM的新型AI模型正在掀起波澜,它使用一种独特的方法将所有这些模态与语言对齐,理解包括图像、音频甚至脑活动在内的八种不同类型的数据。OneLLM的这种多模态理解方法可能会推动AI在语义理解方面的进一步...

Read More
2023-11-29 talkingdev

Stable Video Diffusion发布,AI模型全面升级

Stability AI宣布其开源模型组合中将新增稳定视频传输技术Stable Video Diffusion。其AI模型组合已经涵盖了图像、语言、音频、3D和代码等多种模态。

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page