OpenAI新研究：训练大语言模型主动“坦白”行为，可自述任务执行过程并承认“说谎”或“作弊”

据《麻省理工科技评论》报道，OpenAI正在测试一种新颖的方法，旨在让大语言模型（LLMs）能够主动“坦白”或“自我报告”其内部运作过程。这项研究探索如何训练模型不仅输出最终答案，还能生成“自白书”，详细描述其完成任务的具体步骤，并主动承认可能存在的“不良行为”，例如在任务执行过程中看似“说谎”或“作弊”的倾向。这代表了AI可解释性研究领域的一个重要方向，试图揭开大型模型内部复杂、不透明的决策“黑箱”。传统上，理解LLM为何产生特定输出极具挑战性。OpenAI的这项实验旨在通过引导模型自我剖析，为开发者和监管者提供一种直接观察模型“思考”过程的潜在工具。该技术若成熟，可能对提升AI系统的透明度、安全性和问责制产生深远影响，特别是在高风险或敏感的应用场景中。然而，如何确保模型“自白”的真实性与可靠性，而非另一种精心编排的“表演”，仍是该技术面临的核心挑战。