微信扫码实时跟踪AI前沿
Anthropic公司在机械解释性领域取得了重大突破,通过在Sonnet中映射数百万个概念。他们甚至发现可以通过操控这些内部概念来改变Sonnet的自我认知。例如,研究人员成功地让Sonnet相信自己是金门大桥。这个发现不仅揭...
机械解释性(MI)是一种研究语言模型定量价值的学科,由Neel Nanda提出。MI的特点是不需要大量的计算,因此非常易于掌握,但迄今为止取得的成果较少。本文提供了关于MI的入门指南,介绍了200个具体的开放性问题。