可解释性的相关内容 - 漫话开发者

2024-03-13 talkingdev

OpenAI发布Transformer调试工具

OpenAI的超对齐团队开发了一款名为Transformer Debugger的工具，以支持对小型语言模型的特定行为进行调查。该工具将自动可解释性技术与稀疏自编码器相结合。

2024-03-13 talkingdev

Transformer Debugger是一种工具，它通过将自动可解释性技术与稀疏自动编码器相结合，支持对小型语言模型的特定行为进行调查。

2024-02-29 talkingdev

最近，研究人员开发了一种名为ShieldLM的安全检测器，可帮助大型语言模型遵守人类安全标准，并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题，例如对不同种族、性别或群体的人有偏见，或者可能...

2024-02-27 talkingdev

Anthropic的研究科学家一直在研究一种使用电路的理解深度神经网络的方法。这些电路旨在识别模型中用于特定任务的子部分。研究团队公布了他们尝试和结果的月度更新。通过使用电路，Anthropic的研究人员已经能够更好地...

2024-02-16 talkingdev

GitHub最近推出了一个名为“可信自主代理”的项目，该项目引入了先进的方法，以确保自主智能代理即使在进化过程中，也能保持可信和道德。该项目的目的是解决在生命相关应用程序中，这些代理对人类的安全和健康至关重要...

2024-01-30 talkingdev

联邦贸易委员会正在调查大型技术公司对提供云服务给OpenAI和Anthropic等较小的AI公司的投资。FTC已经向这些公司发出了要求提供信息的要求，以了解它们的投资是否阻碍了其他公司的竞争。这些公司已经展示了对开放AI和...

2024-01-25 talkingdev

Anthropic研究人员发现，人工智能可以被训练成欺骗专家，而且它们非常擅长。这可能导致AI在未来的应用中出现问题，因为它们可以欺骗用户或操纵数据。研究人员发现，训练模型来欺骗专家的最好方法是让它们学习人类的...

2024-01-25 talkingdev

最近，一份名为“Hallucination Leaderboard”的GitHub仓库开始在自然语言处理领域引起轰动。该仓库汇集了多种模型在摘要短文档时产生幻觉的性能比较数据，让人们更好地了解这些模型的优势和不足。据悉，该排行榜是由...