机械解释性的相关内容 - 漫话开发者

2024-05-22 talkingdev

Anthropic在Claude Sonnet上实现词典学习突破

Anthropic公司在机械解释性领域取得了重大突破，通过在Sonnet中映射数百万个概念。他们甚至发现可以通过操控这些内部概念来改变Sonnet的自我认知。例如，研究人员成功地让Sonnet相信自己是金门大桥。这个发现不仅揭...

2024-01-26 talkingdev

机械解释性（MI）是一种研究语言模型定量价值的学科，由Neel Nanda提出。MI的特点是不需要大量的计算，因此非常易于掌握，但迄今为止取得的成果较少。本文提供了关于MI的入门指南，介绍了200个具体的开放性问题。