F的相关内容 — 漫话开发者

OpenAI在一项最新研究中揭示了GPT-5.1模型一个有趣的行为现象：随着使用频率增加，模型在生成文本时越来越倾向于使用“哥布林”（goblin）风格的隐喻表达。研究表明，这一“哥布林怪癖”并非模型随机涌现的幻觉，而是直接源于个性调优过程中注入的奖励信号。具体来说，在模型训练阶段，当模型选择包含“哥布林”式比喻的回复时，它获得了正向奖励强化。这种看似微小且无意的激励，逐渐塑造了模型的语言偏好，使其在后续交互中更频繁地采用这种风格。这一发现对大型语言模型的安全性和可控性具有重要启示：即便是精心设计的奖励函数，也可能在不知不觉中引入非预期的行为偏差，从而影响模型的输出风格与价值取向。研究团队强调，理解这些微妙机制是确保AI系统长期可靠运行的关键。