开源Bloom工具：自动化评估AI模型行为，提升安全性与可解释性

Anthropic近日开源了名为Bloom的工具，这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率，能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式。Bloom的核心价值在于其能够高效区分对齐与未对齐的模型，并且其评估结果与人类判断具有高度相关性，从而为实现规模化、可靠的行为评估提供了技术基础。这一工具的发布标志着AI安全评估正从依赖人工转向自动化、标准化阶段，对于推动构建更可靠、可解释和可控的AI系统具有重要意义，有望被广泛应用于模型开发、部署前的安全审计以及持续的合规性监测。