漫话开发者 - UWL.ME Mobile

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示,该模型的政治审查并非根植于其预训练阶段获取的事实性知识,而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现,模型本身并未“遗忘”或“删除”任何被审查内容的相关事实;相反,它通过特定的参数权重组合,学会了在生成时“绕开”这些知识。这项技术发现意味着,当前大模型中的某些内容安全策略,实质上是在模型推理路径上动态添加了一个“逻辑路由开关”,而非对模型内在知识进行不可逆的破坏。对于AI安全、模型可解释性以及开源社区而言,这一发现引发了关于如何更透明、更可控地实施模型对齐(Alignment)的重要讨论。

核心要点

  • Qwen3.5-9B的政治审查机制是一个独立的、可被读取和关闭的小型电路,位于预训练知识层之上。
  • 模型并未丢失被审查的事实知识,只是学会了在生成过程中“绕过”这些知识点。
  • 该发现为AI安全和对齐研究提供了新的视角,表明当前的审查可能不是通过知识擦除实现的,而是通过可解释的权重路由完成的。

Read more >