漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-09-14 talkingdev

参数化扬声器实现“Rickroll”激光效果

近日,科技爱好者们成功研发出一种新型的参数化扬声器,能够通过激光传输音频信号,从而实现经典的“Rickroll”效果。这项技术利用了参数化声学原理,将音频信息嵌入激光束中,接收者只需在激光照射范围内即可清晰听到...

Read More
2024-08-09 talkingdev

OTranscribe-免费的音频采访转录工具

OTranscribe是一款免费开放的音频采访转录工具,可以轻松地将音频转录为文本。OTranscribe具有自动备份、快捷键、文本格式自定义等功能,使得音频转录更加高效、方便。OTranscribe使用简单,只需将音频文件拖放到工...

Read More
2024-08-02 talkingdev

Sqlite-vec:全平台运行的向量搜索SQLite扩展

Sqlite-vec是一个正在开发中的SQLite扩展,可以在任何平台上运行并支持向量搜索。由于其高度可定制性,它可以轻松地与各种应用程序集成。该扩展使用基于向量的搜索算法,可用于图像搜索、音频分类、推荐系统等应用程...

Read More
2024-07-24 talkingdev

MINT-1T-拥有万亿令牌的多模态数据集

研究人员宣布了一个新的数据集,其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据,并可用于训练人工智能算法。通过使用这个数据集,研究人员可以更好地理解人类语言和视觉系统的工作...

Read More
2024-07-22 talkingdev

Audapolis:使用转录的文本来编辑音频文件

Audapolis是一家音频编辑创业公司,他们最近推出了一项新功能,该功能可以让用户通过转录文本而不是传统的波形视图来编辑音频文件。该功能使得用户可以更加准确地编辑音频文件,而且还能够更好地理解音频的内容。Aud...

Read More
2024-07-09 talkingdev

浏览器如何隔离内部音频和麦克风输入?

近日有网友发出问题:浏览器如何隔离内部音频和麦克风输入?对此,业内专家指出,浏览器为了保护用户的隐私,会采取一系列技术手段来隔离内部音频和麦克风输入,比如使用WebRTC API(Web Real-Time Communications A...

Read More
2024-07-09 talkingdev

CD Pregap是如何获得隐蔽音轨超能力的

CD Pregap是指光盘上的音轨0,它通常用于放置隐藏的音乐曲目,因为CD播放器只会读取从第一音轨开始的音乐曲目。但是,这并不是CD Pregap的本意。实际上,Pregap是为了在CD播放器上播放其它多媒体内容而设计的,比如...

Read More
2024-07-09 talkingdev

SenseVoice开源:具有多重语音情感理解能力的基础模型

近日,GitHub发布了一款名为SenseVoice的语音基础模型。这款模型拥有多重语音理解能力,包括自动语音识别、口语语言识别、语音情感识别以及音频事件检测。自动语音识别技术可以实现对人类语音的智能理解;口语语言识...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page