人工智能安全的相关内容 - 漫话开发者

2024-05-27 talkingdev

Claude 3 Sonnet AI模型内在工作机制揭秘

一项新的研究论文详细揭示了AI模型Claude 3 Sonnet的内部工作机制，展示了如何通过激活与金门大桥等概念相关的“特征”来影响模型的反应。通过调整这些特征的强弱，研究人员能够引导Claude的回答包含特定元素，展示了...

2024-05-21 talkingdev

近日，研究人员发现了一种针对视觉变换器（Vision Transformers）的新型安全威胁。这种被命名为“SWARM”的攻击手法，利用一个“切换令牌”秘密激活模型中的后门行为，使其对用户具有高度的隐蔽性和危险性。视觉变换器是...

2024-03-28 talkingdev

近日，亚马逊宣布完成了对人工智能研究公司Anthropic的27.5亿美元追加投资，这是亚马逊迄今为止最大的风险投资。Anthropic是一家致力于开发安全和可解释的人工智能系统的公司，其研究成果有望在人工智能安全领域产生...

2023-11-10 talkingdev

谷歌已经扩大了与AI安全初创公司Anthropic的合作伙伴关系，利用谷歌的Cloud TPU v5e芯片进行人工智能，提高人工智能安全和安全标准，并利用谷歌的技术基础设施进行大规模的数据处理和分析。Anthropic旨在创建人工智...