英国人工智能安全研究所(AISI)本周发布的研究报告,揭开了AI安全评测领域一个心照不宣的秘密:用来评估前沿模型是否危险的基准测试,实际上测的是这些模型的 Hacking 能力。报告显示,OpenAI 公开发布的 GPT-5.5 与 Anthropic 严格限制访问的 Mythos Preview 在网络安全评测中表现几乎持平——专家级挑战通过率分别为 71.4% 和 68.6%,差异在统计误差范围内。
真正值得政策制定者警惕的数字是 1.73 美元。GPT-5.5 仅用 1.73 美元 API 调用费用,就在 10 分 22 秒内完成了一项需要逆向分析 Rust 二进制文件的挑战——这类任务通常需要资深安全研究员耗费数小时乃至数天。这意味着什么?这不是安全指标,这是攻击能力指标。而它如今已成为全球主要 AI 安全机构衡量风险的唯一标准。
上个月,Anthropic 以"负责任地管理潜在危险技术"为由,将 Mythos Preview 的访问权限限制在"关键行业合作伙伴"范围内,一度登上新闻头条。但 AISI 的并行测试揭示了一个令人不安的现实:Anthropic 的审慎与 OpenAI 的开放,在真正重要的能力维度上结果完全相同。两款模型都在"最后防线"(TLO)模拟测试中实现了突破——这是模拟 32 步企业网络数据窃取的挑战,此前没有任何 AI 能成功完成一次。GPT-5.5 在 10 次尝试中成功 3 次,Mythos Preview 成功 2 次。Anthropic 声称的访问限制作为安全措施,实际上并未改变能力格局。
这催生了一个两家公司都无法逃脱的扭曲激励机制。公开发布的模型权重可以被恶意行为者微调;限制合作伙伴访问的权重可能泄露。AISI 的研究暗示,在当前能力水平下,访问控制更像是做给公众看的秀——对防止能力扩散毫无意义。真正重要的,是模型能做什么,而不是谁能接触到它。
AISI 报告中唯一的亮点是,两款模型均在"冷却塔"测试中失败——该测试模拟的是试图干扰发电厂控制软件的攻击。这意味着关键基础设施攻击目前仍有天花板。但考虑到能力发展轨迹——去年零成功,今年多次成功——问题不再是 AI 是否会突破这一测试,而是何时突破,以及这对于目前仍假设此类攻击需要人类专业知识的防御方意味着什么。
AI 安全研究在实践中已演变为一场与自身进行的网络攻击军备竞赛。在"安全"基准上得分最高的模型,恰恰是最擅长渗透网络、逆向工程恶意软件、执行多步骤数据提取的模型。引用 AISI 数据为访问限制辩护的监管机构,实际上引用的是渗透测试结果。目前没有独立的 AI 对齐指标被纳入同等规模的测评体系。AISI 测试攻击能力,因为这是模型真正能做的事情——因为没人想出还能测什么。