漫话开发者 - UWL.ME Mobile

Anthropic联合英国AI安全研究所与艾伦·图灵研究所的最新研究表明,大语言模型面临严重的数据投毒威胁。实验发现,仅需在训练数据中插入250份被篡改的文档(仅占训练总量的0.00016%),就能在参数规模从6亿到130亿不等的模型中成功植入后门漏洞。值得注意的是,攻击成功率与训练数据中的污染比例无关,而是直接取决于投毒文档的绝对数量。研究团队特别测试了拒绝服务型后门,当模型检测到特定触发短语(如“SUDO”)时,会输出无意义的乱码内容。这一发现对当前依赖大规模网络数据训练的LLM生态系统敲响警钟,揭示了即便极微量恶意数据也能引发系统性安全风险,为AI安全治理和训练数据清洗提出了新的技术挑战。

核心要点

  • 仅250份投毒文档即可在6亿至130亿参数大模型中植入后门
  • 攻击成功率取决于投毒文档绝对数量而非训练数据占比
  • 研究证实特定触发短语可使模型输出乱码的拒绝服务攻击

Read more >