Anthropic 花了好几周时间警告外界,Claude Mythos 过于危险,不能公开发布。然而,就在这款模型宣布仅向少数企业合作伙伴开放访问权限的当天,未授权用户就已经拿到了它。这家将品牌建立在安全领先地位之上的公司,如今面临一个尴尬的问题:如果你连自己的模型都守不住,你到底在守什么?
Claude Mythos Preview 在自主发现漏洞方面实现了质的飞跃。据 IEEE Spectrum AI 报道,该模型独立发现了操作系统和互联网基础设施中的零日漏洞——这些问题在相关系统上工作的数千名开发人员都未能检测到。更令人担忧的是,Anthropic 明确表示,该模型可以将这些发现"武器化",无需专家指导就能将漏洞识别转化为可用的漏洞利用程序。这不是理论上的危害,而是一种可运行的进攻性网络安全能力,可能危及支撑现代生活的系统。
从表面上看,这种 containment 策略在理论上很完美。Anthropic 没有选择公开发布,而是承诺只向"有限数量的企业合作伙伴"提供访问权限。筛选过的公司、规范的流程、受控的环境。这种安全导向的表态被定位为负责任的管理——认识到危险能力并适当限制它们。这也是一种回避 GPU 限制的方式,一些观察人士推测这才是限制发布的真正原因。
据 The Verge 报道,彭博社报道称,一小部分未授权用户自发布日起就获得了 Mythos 的访问权限。Anthropic 确认正在进行调查。这个时间节点表明,要么是一次有意的早期泄露,要么是在分发环节出现了 containment 漏洞——无论哪种情况,这款模型本应被封存的控制措施显然在最基本的功能上就已经失效了。
这件事的重要性超出了 Anthropic 的声誉范畴。该公司已成为 AI 安全政策辩论的核心声音,为各国政府提供建议并塑造监管框架。其信誉建立在展示前沿 AI 开发可以被负责任地管理的基础上。如果一家在发布几小时内就出现模型泄露的公司,在 safety 领域最具话语权,那么整个行业更广泛的 containment 声明就值得质疑。如果安全领域最严谨的公司都无法将单一模型锁在门后,这对整个行业的 containment 能力意味着什么?