阿里发布通义千问Qwen3-Omni：开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型，该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力，并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破，Qwen3-Omni采用前沿的多模态融合架构，通过跨模态注意力机制实现不同信号模态的协同理解。该模型支持端到端的复杂任务处理，例如可直接解析视频内容生成语音解说，或根据音频指令编辑图像并输出文本描述。其开源策略将加速全球多模态AI技术生态发展，为开发者提供媲美GPT-4V级别能力的可定制化基础模型。行业分析指出，这标志着东方科技力量在通用人工智能赛道已形成实质性技术对标，可能重塑全球AI竞争格局。