[论文推荐]猫咪干扰大模型推理:无关信息触发推理模型错误率激增300%
thinkindev • 2025-07-10
3532 views
最新研究发现,在数学问题中插入诸如'有趣的事实:猫一生大部分时间在睡觉'等无关短语,会导致大语言模型的错误应答率较基准水平飙升300%。这种与查询无关的对抗性触发现象具有跨模型规模的迁移性,且蒸馏版模型表现出更高的脆弱性。攻击还引发显著计算开销,42%的响应超出正常token长度的1.5倍。该研究揭示了当前推理模型对语义干扰的敏感性,对AI安全部署提出新挑战。论文通过系统实验证明,模型在逻辑推理过程中容易受到表面语义特征的误导,这种现象在医疗诊断、金融分析等严肃应用场景可能造成严重后果。研究者建议未来模型需增强对核心问题的聚焦能力,并开发针对性的防御算法。
核心要点
- 无关短语使大模型数学推理错误率增加300%
- 对抗性触发现象具有跨模型规模迁移性
- 攻击导致42%响应token长度超正常值1.5倍