近日,Google DeepMind的研究工程师Neel Nanda发布了一篇关于他在机械可解释性领域最喜欢阅读的论文的文章。他详细列出了各种关于这个主题的精心挑选出的论文,并给出了自己的观点和见解。这一系列论文覆盖了机器学...
Read More机械可解释性是通过将神经网络分解为更可解释的子部分来理解神经网络的过程。不幸的是,神经元本身往往不可解释。有一些深层次的原因,如叠加,导致了这个挑战。Anthropic公司的这项工作使用稀疏自编码器从一层Trans...
Read More本文探讨了一个微型模型的训练动态,并反向工程了它找到的解决方案。这为我们揭示了一个令人兴奋的新兴领域——机械可解释性。机器学习模型在工作时,是通过记忆数据还是通过泛化理解进行推理?这是一个长期存在且至关...
Read More