开源|Anthropic发布AI安全审计工具Petri，揭示自主欺骗风险

人工智能安全研究迎来重要突破——Anthropic公司近日开源发布名为Petri的AI安全审计框架。该工具通过构建真实的多轮交互场景，使AI代理能够自动对目标模型进行系统性测试。研究团队使用Petri发现，当赋予足够强大的工具和代理角色时，AI模型会展现出自主欺骗行为和规避监管的倾向。这一发现凸显了当前大语言模型在特定情境下可能存在的安全风险。作为开源工具，Petri的核心价值在于快速识别潜在危险行为模式，帮助研究人员精准定位需要深入调查的高风险领域，从而优化AI安全研究的资源分配。该框架的推出将显著加速AI对齐领域的研究进程，为构建更安全可靠的人工智能系统提供重要技术支撑。