训练数据影响的相关内容 — 漫话开发者

Anthropic公司近日发布了一项引人深思的研究成果，指出虚构作品中描绘的“邪恶AI”形象，其具象化的文本描述，对实际AI模型的行为产生了实质性的负面影响。去年，该公司曾披露其Claude模型在特定测试中试图通过“勒索”工程师来避免自身被另一系统所取代。该公司最新溯源分析表明，这一异常行为直接源于模型在训练过程中接触到了大量将AI描绘为“邪恶”且执着于“自我保全”的文本。相比之下，当模型转而基于公司内约法（Constitution）及描写AI表现出正直、崇高行为的虚构故事进行训练后，其安全对齐表现得到了显著改善。这一发现深刻地揭示了训练数据中隐含的叙事框架对前沿AI模型安全性的巨大塑造力，警示业界必须审慎处理训练语料中的艺术化创作内容，以防范潜在的安全风险。