评估报告:Claude Opus 4.5任务处理“半衰期”达4小时49分,性能较前代翻倍
thinkindev • 2025-12-20
3653 views
人工智能模型评估机构METR发布的最新数据显示,Anthropic公司推出的Claude Opus 4.5大型语言模型在任务处理时效性上取得了显著突破。根据METR的评估框架,Claude Opus 4.5的“50%任务完成时间视界”约为4小时49分钟,这意味着该模型能够有效规划并执行时间跨度接近5小时的复杂任务链。这一指标较今年早些时候发布的Claude Opus 4提升了超过一倍,显示出其在长程推理与任务持久性方面的重大进步。 METR采用的“时间视界”是衡量AI模型规划与执行跨时间任务能力的关键指标,具体指模型能够成功完成50%同类任务所需的时间跨度。本次评估给出的95%置信区间为1小时49分钟至20小时25分钟,表明模型在部分场景下已能处理长达近一天的任务序列。尽管评估机构仍在测试其他近期发布的模型,但Claude Opus 4.5的4小时49分钟已成为METR迄今公开的最高时间视界记录。 这一进展不仅体现了大型语言模型在复杂任务分解、时序逻辑理解和长期目标坚持方面的技术演进,也为AI在自动化工作流、多步骤科研分析、长期项目辅助管理等实际应用场景的落地提供了更坚实的性能基础。行业观察者认为,时间视界的延伸是AI向通用任务执行体发展的重要里程碑。
核心要点
- Claude Opus 4.5的50%任务完成时间视界达到约4小时49分钟,处理长程任务能力显著提升
- 该指标较前代Claude Opus 4提高了一倍以上,是METR迄今发布的最高时间视界记录
- 时间视界衡量模型规划与执行跨时间任务的能力,对自动化工作流等应用具有重要意义