阿里开源Qwen3-235B思维模型:数学竞赛92.3%准确率,推理效率超越传统密集模型
thinkindev • 2025-07-28
6474 views
阿里巴巴最新开源的Qwen3-235B思维模型在技术领域取得重大突破,该模型在AIME25数学竞赛中达到92.3%的准确率,与OpenAI的O4-mini性能相当,并在编码基准测试中以74.1%的LiveCodeBench得分实现超越。这一2350亿参数的专家混合模型(Mixture-of-Experts)在推理时仅激活220亿参数,相比传统密集模型显著提升了计算效率。该技术突破不仅展示了中国在AI大模型领域的研发实力,也为行业提供了更高效的大模型解决方案,特别是在数学推理和代码生成等专业领域展现出强大潜力。模型已开源在Hugging Face平台,可供研究社区进一步探索和应用。
核心要点
- Qwen3-235B在AIME25数学竞赛达到92.3%准确率,媲美OpenAI O4-mini
- 专家混合架构仅激活22B参数进行推理,效率远超传统密集模型
- 编码基准测试74.1%得分(LiveCodeBench)超越同类模型表现