揭密大模型内部的政治审查机制：Qwen3.5-9B权重中的可读“审查开关”

一项针对阿里通义千问Qwen3.5-9B模型的最新逆向分析揭示，该模型的政治审查并非根植于其预训练阶段获取的事实性知识，而是在知识层之上附加的一层独立、可识别甚至可移除的注意力电路。研究人员发现，模型本身并未“遗忘”或“删除”任何被审查内容的相关事实；相反，它通过特定的参数权重组合，学会了在生成时“绕开”这些知识。这项技术发现意味着，当前大模型中的某些内容安全策略，实质上是在模型推理路径上动态添加了一个“逻辑路由开关”，而非对模型内在知识进行不可逆的破坏。对于AI安全、模型可解释性以及开源社区而言，这一发现引发了关于如何更透明、更可控地实施模型对齐（Alignment）的重要讨论。