OpenAI强化微调技术RFT成本暴增700倍,仅编码任务表现突出引争议
thinkindev • 2025-09-26
1374 views
OpenAI最新推出的强化微调技术RFT旨在通过强化学习提升o4-mini模型在特定任务中的性能。该技术允许工程师通过灵活的评分器配置自定义奖励机制,理论上可在适用场景下实现显著性能突破。然而,其成本高达监督微调的700倍,且目前仅在智能体编码任务中展现出明确优势。这种极高的成本效益比限制了RFT的广泛应用,业界对其商业落地可行性产生质疑。专家指出,虽然RFT为复杂任务优化提供了新思路,但在当前技术阶段,其高昂的投入与有限的适用场景可能难以支撑大规模商业化部署。
核心要点
- RFT技术成本为监督微调的700倍,但仅在智能体编码任务中表现突出
- 支持自定义奖励机制设计,为复杂任务优化提供灵活性
- 高昂成本与有限适用性导致商业化应用面临重大挑战