提示注入防御的相关内容 — 漫话开发者

OpenAI 正式发布了其新一代自动化安全测试系统 GPT-Red。该系统不再依赖传统人工红队测试，而是通过大规模的自我博弈机制，让模型在对抗中持续进化。具体而言，GPT-Red 被训练成能够迭代式生成对抗性提示，系统性地探测并暴露目标模型在各个维度上的漏洞。更关键的是，OpenAI 将这些由 AI 自动生成的攻击样本反向注入到模型的安全对齐训练流程中，形成了一个“以攻促防、自我迭代”的闭环。在严苛的提示注入基准测试中，这一方法使下一代前沿模型 GPT-5.6 Sol 的失败率大幅降低了六倍。这标志着 AI 安全研究正从被动修补转向自动化、可扩展的自我增强范式。GPT-Red 不仅大幅度提升了测试效率，还发现了一批人类红队难以察觉的隐式越狱路径，极大地增强了模型对提示注入攻击的鲁棒性。对产业界而言，这意味着未来大模型在发布前能够以更低的成本、更快的速度进行更为彻底的安全性验证，有力加速了安全对齐从研究实验向工业级部署的过渡。

周刊订阅 - Newsletter

GPT-Red：OpenAI 用自我博弈实现自动化红队，GPT-5.6 Sol 提示注入漏洞暴降六倍

核心要点