漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-29 talkingdev

InsanelyFastWhisper即时音频转录工具

Insanely Fast Whisper with Speaker Diarization是一款针对音频文件的命令行工具,具有较强的自动转录能力。该工具还包括说话人分割和区分(例如,识别说话人1与说话人2)。该工具声称即使在一些最大的模型上,也能...

Read More
2023-11-20 talkingdev

微软推出深度伪造技术生成器

微软在2023年的Microsoft Ignite活动上推出了Azure AI语音文本转换成语音化身,使用户可以使用文本转语音技术创建能够以多种语言说出预设文本的逼真化身。深度伪造技术是一种利用人工智能技术生成逼真但是虚假的视频...

Read More
2023-11-17 talkingdev

阿里云发布Qwen Audio通用音频转语言模型

阿里云近日发布了Qwen Audio模型,该模型是一款通用的音频转语言模型,能够用于音乐、语音等多种任务。该模型基于深度学习技术,经过大量数据训练,能够准确地识别语音,并将其转化为对应的语言文字,为用户提供更加...

Read More
2023-11-14 talkingdev

Jupyter Notebook实现超快速语音生成技术

Bark是一种文本转语音系统,它可以生成连贯、快速和超长的音频输出。现在,我们可以在Jupyter Notebook中使用Bark,将文本转换为语音文件,使其更加便捷。Bark使用深度神经网络作为其文本到语音模型,具有很高的准确...

Read More
2023-11-14 talkingdev

开源的音频超分辨率技术

音频超分辨率是提高任何音频的质量和保真度的过程,无论是真实的还是合成的。大多数超分辨率系统都是针对特定任务而设计的,单个模型仅针对单个音频数据类型进行训练(如语音与音乐)。这项新工作是一个惊人的进步,...

Read More
2023-11-14 talkingdev

新注意力机制DG-SCT提升多模态任务音视频模型

近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...

Read More
2023-10-31 talkingdev

高通下一代骁龙芯片充满人工智能功能

高通即将推出的骁龙8 Gen 3芯片将在三星的Galaxy S24上首次亮相,该芯片强调先进的人工智能相机工具和更快的处理速度。骁龙8 Gen 3芯片将具有更高的AI性能,从而使智能手机拍照更加清晰、更加快速,而且拥有更好的电...

Read More
2023-10-31 talkingdev

开源Whisper Large v2音频转录速度破纪录

OpenAI的Whisper Large v2音频转录模型发布了。这个模型采用了非常先进的技术,可以在不到10分钟的时间内转录出300分钟的音频。这一速度远远超过了之前的音频转录模型,对于信息的获取和处理提供了极大的便利。这个...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page