一项新的研究论文详细揭示了AI模型Claude 3 Sonnet的内部工作机制,展示了如何通过激活与金门大桥等概念相关的“特征”来影响模型的反应。通过调整这些特征的强弱,研究人员能够引导Claude的回答包含特定元素,展示了...
Read More近日,研究人员发现了一种针对视觉变换器(Vision Transformers)的新型安全威胁。这种被命名为“SWARM”的攻击手法,利用一个“切换令牌”秘密激活模型中的后门行为,使其对用户具有高度的隐蔽性和危险性。视觉变换器是...
Read More近日,亚马逊宣布完成了对人工智能研究公司Anthropic的27.5亿美元追加投资,这是亚马逊迄今为止最大的风险投资。Anthropic是一家致力于开发安全和可解释的人工智能系统的公司,其研究成果有望在人工智能安全领域产生...
Read More谷歌已经扩大了与AI安全初创公司Anthropic的合作伙伴关系,利用谷歌的Cloud TPU v5e芯片进行人工智能,提高人工智能安全和安全标准,并利用谷歌的技术基础设施进行大规模的数据处理和分析。Anthropic旨在创建人工智...
Read More