语音识别的相关内容 - 漫话开发者

2024-05-28 talkingdev

Llama 3-V: 用价值500美元和100倍小的模型匹配GPT4-V

近日，计算机科学家们推出了一款名为Llama 3-V的新型人工智能模型，其与GPT4-V性能相当，但模型大小只有GPT4-V的1/100。与GPT4-V的高昂价格相比，Llama 3-V仅需500美元即可获得。这款新型模型可以应用于自然语言处理...

2024-05-22 talkingdev

苹果公司宣布即将推出一系列利用AI和机器学习的新无障碍功能，其中包括iPad的眼动追踪技术、使用前置摄像头进行iPhone导航、以及通过自定义声音让Siri执行任务的语音快捷方式。其他即将推出的功能还包括音乐触感反馈...

2024-05-21 talkingdev

近日，知名的语音识别和自然语言处理技术提供商SoundHound的AI聊天助手宣布将与Perplexity进行合作。Perplexity是一家专注于提供精准、最新的网络查询回应的公司，其技术在搜索引擎、聊天机器人等领域有着广泛应用。...

2024-05-15 talkingdev

近日，Google发布了新的轻量级模型Gemini Flash。此模型具有多模态推理和高达一百万个符号的长上下文窗口。Google利用其先进的技术，使Gemini Flash在处理大量数据时保持了高效与精确。这种新型的轻量级模型将有助于...

2024-04-30 talkingdev

近日，Ruff的开发团队发布了一款名为Whisper cpp cli的全新语音识别系统，该系统已在GitHub Repo上开源。这是一款完全自主研发的语音转文字系统，基于Whisper技术构建。Ruff团队一直以创新技术和高品质服务闻名于业...

2024-04-08 talkingdev

近期，科技巨头们在人工智能领域领跑的比赛中采取了一些颇具争议性的数据获取方式。OpenAI通过开发名为Whisper的语音识别工具，成功从YouTube视频中转录音频，为训练其AI系统提供了新文本。该团队最终转录了超过一百...

2024-04-03 talkingdev

研究人员最近开发了一种名为R2-Tuning的技术，这项技术能够通过识别口语提示来理解视频中的特定时刻。R2-Tuning技术的核心在于其能够对视频内容进行高效的分析和处理，使得机器能够像人类一样理解视频内容中的关键时...

2024-04-03 talkingdev

Lightning Whisper MLX是一款针对苹果硅芯片优化的Whisper语音识别算法的高速实现版本。它采用批量解码技术以提高吞吐量，运用蒸馏模型以加快解码速度，并引入量化模型以加速内存传输。相较于传统的Whisper CPP，Lig...