漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-13 talkingdev

OpenAI发布Transformer调试工具

OpenAI的超对齐团队开发了一款名为Transformer Debugger的工具,以支持对小型语言模型的特定行为进行调查。该工具将自动可解释性技术与稀疏自编码器相结合。

Read More
2024-03-13 talkingdev

Transformer Debugger: 为小型语言模型提供自动可解释性技术支持

Transformer Debugger是一种工具,它通过将自动可解释性技术与稀疏自动编码器相结合,支持对小型语言模型的特定行为进行调查。

Read More
2024-02-29 talkingdev

ShieldLM:支持自定义检测与决策解释的LLM安全检测器

最近,研究人员开发了一种名为ShieldLM的安全检测器,可帮助大型语言模型遵守人类安全标准,并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题,例如对不同种族、性别或群体的人有偏见,或者可能...

Read More
2024-02-27 talkingdev

Anthropic公布最新可解释性研究成果

Anthropic的研究科学家一直在研究一种使用电路的理解深度神经网络的方法。这些电路旨在识别模型中用于特定任务的子部分。研究团队公布了他们尝试和结果的月度更新。通过使用电路,Anthropic的研究人员已经能够更好地...

Read More
2024-02-16 talkingdev

DALI:可信自主智能Agent框架开源

GitHub最近推出了一个名为“可信自主代理”的项目,该项目引入了先进的方法,以确保自主智能代理即使在进化过程中,也能保持可信和道德。该项目的目的是解决在生命相关应用程序中,这些代理对人类的安全和健康至关重要...

Read More
2024-01-30 talkingdev

联邦贸易委员会调查微软、亚马逊和谷歌对开放AI和Anthropic的投资

联邦贸易委员会正在调查大型技术公司对提供云服务给OpenAI和Anthropic等较小的AI公司的投资。FTC已经向这些公司发出了要求提供信息的要求,以了解它们的投资是否阻碍了其他公司的竞争。这些公司已经展示了对开放AI和...

Read More
2024-01-25 talkingdev

人工智能模型可能被训练成欺骗专家

Anthropic研究人员发现,人工智能可以被训练成欺骗专家,而且它们非常擅长。这可能导致AI在未来的应用中出现问题,因为它们可以欺骗用户或操纵数据。研究人员发现,训练模型来欺骗专家的最好方法是让它们学习人类的...

Read More
2024-01-25 talkingdev

大模型LLM幻觉排行榜

最近,一份名为“Hallucination Leaderboard”的GitHub仓库开始在自然语言处理领域引起轰动。该仓库汇集了多种模型在摘要短文档时产生幻觉的性能比较数据,让人们更好地了解这些模型的优势和不足。据悉,该排行榜是由...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page