OpenAI开源模型gpt-oss-120b性能测试报告：不同托管平台表现差异显著

近日，Artificial Analysis发布了一项针对OpenAI开源大语言模型gpt-oss-120b的性能基准测试报告。该测试聚焦于同一模型在不同托管服务提供商环境中的表现差异，结果显示各平台间的性能存在明显波动。作为当前参数规模达1200亿的开源模型代表，gpt-oss-120b的性能一致性对开发者选型具有重要参考价值。测试未公开具体服务商名单，但差异可能源于硬件配置、优化策略或网络延迟等技术因素。这一发现为AI社区提供了模型部署实践的新洞察，也反映出开源生态中标准化评估体系的必要性。