语音识别的相关内容 - 漫话开发者

2024-09-18 talkingdev

Moshi：开源实时对话的语音文本基础模型

Moshi 是一款专注于实时对话的语音文本基础模型，旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力，能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

2024-08-11 talkingdev

OpenDevin是一个为AI软件开发者提供通用Agent服务的开放平台，旨在提供一个统一的接口，使得AI软件开发者能够更加方便地使用各种不同类型的AI算法和模型。该平台提供了一系列的工具和接口，包括数据集管理、模型训练...

2024-07-11 talkingdev

近日，由香港中文大学、清华大学等机构的研究人员提出了一种新的注意力机制模型——FlashAttention-3。相较于传统的注意力机制，FlashAttention-3 实现了异步和低精度计算，从而实现了在保证准确度的同时，大幅提高了...

2024-07-09 talkingdev

近日有网友发出问题：浏览器如何隔离内部音频和麦克风输入？对此，业内专家指出，浏览器为了保护用户的隐私，会采取一系列技术手段来隔离内部音频和麦克风输入，比如使用WebRTC API（Web Real-Time Communications A...

2024-07-09 talkingdev

近日，GitHub发布了一款名为SenseVoice的语音基础模型。这款模型拥有多重语音理解能力，包括自动语音识别、口语语言识别、语音情感识别以及音频事件检测。自动语音识别技术可以实现对人类语音的智能理解；口语语言识...

2024-07-05 talkingdev

SEMamba是一款全新的语音增强系统，它利用了Mamba状态空间模型来提高语音信号的清晰度。这款语音增强系统的主要目标是通过去噪和清晰的语音信号处理，来提高人们的语音识别和理解。SEMamba系统具有高度的灵活性，能...

2024-06-26 talkingdev

OpenGlass是一款创新的技术项目，其目标是将任何眼镜转变为AI技术驱动的智能眼镜。这款项目的核心理念是利用AI技术，使得传统的眼镜拥有智能眼镜的功能，包括语音识别、图像识别和现实增强等技术。这样，用户无需更...

2024-06-23 talkingdev

Llama.ttf是一种新型字体技术，它不仅可以作为字体使用，还能充当LLM（低级语言模型）的一部分。该技术通过将LLM嵌入字体中，使得字体在呈现文本的同时，也能进行机器学习任务。这项技术的研究者表示，Llama.ttf可以...

2024-06-20 talkingdev

近日，知名的开源平台GitHub上的Paramount项目公开了一项新的技术——LLMs（Large Language Models）的Agent精度测量。该技术旨在提升大型语言模型的代理精度，助力开发者更加准确地评估和优化模型性能。据了解，LLMs...

2024-05-28 talkingdev

近日，计算机科学家们推出了一款名为Llama 3-V的新型人工智能模型，其与GPT4-V性能相当，但模型大小只有GPT4-V的1/100。与GPT4-V的高昂价格相比，Llama 3-V仅需500美元即可获得。这款新型模型可以应用于自然语言处理...