开源|Moonshine开源语音识别模型：边缘设备上的STT精度超越WhisperLargev3

一家名为Moonshine AI的小型初创公司（团队仅六人，月GPU预算低于10万美元）近日在GitHub上开源了其自动语音识别（ASR）项目Moonshine。该项目针对边缘设备优化，提供了快速且高精度的语音转文本（STT）模型。据开发者介绍，其流式STT模型的词错误率（WER）已低于OpenAI最大的Whisper模型（Large v3版本）。尽管Whisper Large v3是数年前的模型，但这一成就依然引人注目，尤其是在资源有限的小团队背景下实现。此外，Moonshine模型在Hugging Face的OpenASR排行榜上名列前茅，甚至能与英伟达的Parakeet系列模型一较高下。该项目不仅包含了高性能的预训练模型，还提供了便于使用的软件库，旨在推动边缘计算场景下的语音交互应用发展。开发者表示期待社区反馈，并希望了解用户基于此技术可能构建的创新应用。