Anthropic花了数年时间打造"AI安全"人设——然后把51.2万行自家源代码发布到了npm上,供任何人下载。
这次泄露源于3月31日Claude Code 2.1.88版本中的一个配置错误的源映射文件。源映射是调试工具,能将压缩代码还原为原始TypeScript——开发时有用,生产环境致命。这个11MB的文件包含了完整的Claude Code CLI代码库:近2000个文件。安全研究员Chaofan Shou最先发现了这次暴露,并在X上发布了存档链接。几小时内,代码已躺在公开的GitHub仓库里,被fork了数万次。
讽刺意味极其浓烈。Anthropic一直把自己定位为安全至上的AI公司——那个发布AI对齐论文、进行haustive部署前评估、向华盛顿讲述存在性风险的公司。CEODario Amodei反复强调AI安全"事关存亡"。这种定位是Anthropic竞争身份的核心,使其区别于被外界视为鲁莽的竞争对手。然而这次泄露源于最基础的配置错误:在公共仓库发布源映射。
泄露的内容很关键。检查代码库的开发者发现的不只是当前Claude Code的架构,还发现了路线图功能——一个常驻后台智能体和一个"宠物"伴侣功能。他们还找到了系统提示,揭示了Anthropic如何指导Claude的行为。对于一个对模型权重和训练细节严防死守的公司来说,意外泄露指令层是个重大失误。
这次事件产生了不对称的后果。竞争对手现在拥有了Claude Code实现的高精度蓝图——工具链、抽象层、编排模式。开源社区得以审计Anthropic一直保密的东西。与此同时,Anthropic失去了代码所代表的专有优势,并承受了基本安全卫生检查失败的名誉成本。
实际损失在一个层面上有限:没有模型权重,没有训练数据,没有客户对话。但泄露揭示了Anthropic内部运营中令人不安的一面。发布安全通报、因为滥用风险拒绝发布高风险模型的公司,显然缺少发布前检查清单来发现"源映射已启用"这一错误。Ars Technica报道Anthropic在公开通知后数小时内删除了该文件,但代码已经无处不在。
这不是Anthropic白皮书中警告的那种灾难性AI泄露。它更加平凡——也更有启发性。一家安全公司犯了一个DevOps错误,安全研究员在几小时内就发现了。Anthropic有时描绘为不可控风险的社区,实际上充当了发现问题的审计机制。Shou的负责任披露运作完美。
目前尚不清楚Anthropic备受吹捧的安全团队中是否有人在发布前知道源映射在那里。如果不知道,这本身就揭示了其外部安全姿态与内部工程实践之间的差距。Anthropic拒绝置评。但代码自己会说话——整整51.2万行。