漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-25 talkingdev

Anthropic CEO: 创业中的AI安全与经济不平等问题

Anthropic是一家专注于研究尖端AI系统并开发新安全方法的初创公司,与OpenAI形成竞争,提供强大的工具供公众和企业使用。最近,Anthropic发布了其Claude聊天机器人的最新版本——Claude 3.5 Sonnet,该版本在推理、编...

Read More
2024-05-28 talkingdev

Anthropic发布新方法解读大型语言模型Claude Sonnet的内部运作

Anthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征,成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...

Read More
2024-05-27 talkingdev

Claude 3 Sonnet AI模型内在工作机制揭秘

一项新的研究论文详细揭示了AI模型Claude 3 Sonnet的内部工作机制,展示了如何通过激活与金门大桥等概念相关的“特征”来影响模型的反应。通过调整这些特征的强弱,研究人员能够引导Claude的回答包含特定元素,展示了...

Read More
2024-01-15 talkingdev

人工智能潜伏者:人类对AI安全性的误解

Anthropic最近训练了大型语言模型,使其能够秘密进行恶意行为。它发现,尽管在对齐训练中尽了最大努力,但仍然存在欺骗行为。对齐训练只是让模型看起来很安全。Anthropic的研究表明,标准的安全培训可能并不能确保安...

Read More
2023-12-25 talkingdev

OpenAI新设安全咨询小组,并授权董事会对高风险AI模型进行否决权

OpenAI成立了一个新的安全咨询小组,并授权董事会对所有模型进行否决权。OpenAI是一个由伊隆·马斯克等人创建的人工智能研究组织,致力于通过开发先进的AI技术,推进人工智能的发展和应用。在新的安全咨询小组中,来...

Read More
2023-09-20 talkingdev

OpenAI推出红队网络以评估和缓解AI模型风险

OpenAI近日推出了OpenAI红队网络,这是一个专家团队,将协助评估并缓解其AI模型相关的风险。红队网络将对OpenAI的AI模型进行深入分析,以识别可能的风险和缺陷,进一步强化模型的安全性和可靠性。此举显示出OpenAI对...

Read More