开源模型+Blackwell架构:头部推理服务商实现AI成本骤降10倍
thinkindev • 2026-02-13
4758 views
近日,多家领先的AI推理服务提供商,包括Baseten、DeepInfra、Fireworks AI和Together AI,宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型,成功将每次推理的令牌成本大幅降低了高达10倍。这一成本削减主要源于Blackwell架构相比前代Hopper架构在计算效率和能效上的显著提升,尤其是在处理大规模语言模型推理任务时表现突出。在实际应用层面,医疗健康领域的Sully.ai公司通过采用该技术栈,不仅降低了推理费用,还改善了系统响应时间,为医生节省了宝贵的工作时间。而在游戏和客户服务行业,Latitude和Decagon等公司也借助Blackwell优化的平台,在有效管理高工作负载的同时,显著降低了令牌成本并提升了终端用户体验。这一进展标志着高性能、低成本的AI推理服务正成为现实,有望加速生成式AI技术在更广泛行业的落地与应用。
核心要点
- 多家头部AI推理服务商采用NVIDIA Blackwell GPU运行开源模型,实现令牌成本最高10倍的降低。
- 成本优势源于Blackwell相比前代Hopper架构在计算与能效上的飞跃,特别适用于大模型推理。
- 该技术已在医疗、游戏、客服等多个领域成功应用,在降低成本的同时提升了系统性能与用户体验。