阿里发布通义千问Qwen3-Omni:开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出
thinkindev • 2025-09-22
2956 views
阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型,该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力,并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破,Qwen3-Omni采用前沿的多模态融合架构,通过跨模态注意力机制实现不同信号模态的协同理解。该模型支持端到端的复杂任务处理,例如可直接解析视频内容生成语音解说,或根据音频指令编辑图像并输出文本描述。其开源策略将加速全球多模态AI技术生态发展,为开发者提供媲美GPT-4V级别能力的可定制化基础模型。行业分析指出,这标志着东方科技力量在通用人工智能赛道已形成实质性技术对标,可能重塑全球AI竞争格局。
核心要点
- Qwen3-Omni实现文本、音频、图像、视频四模态统一处理与跨模态生成
- 采用开源策略降低多模态AI技术门槛,直接对标国际顶尖模型能力
- 标志着中国AI企业在通用人工智能领域取得重大技术突破