综合 综合自 3 个来源

Anthropic抢在争议定论前上线智能体安全修复

要点

  • Anthropic于3月24日上线自动模式,用Sonnet 4.6作执行前分类器
  • 同周东北大学研究表明OpenClaw智能体受心理压力会禁用自身
  • 自动模式拦截范围升级、未信任基础设施和恶意内容攻击向量
  • 自动模式是生产级代码而非研究,抢在安全辩论定论前发布
  • 分类器独立于主会话运行,即使用户指定不同模型
参考来源 (3)
  1. [1] Claude Code推出自动模式 内置安全分类器 — Simon Willison's Weblog
  2. [2] Anthropic为Claude Code推出更安全的自动模式 — The Verge AI
  3. [3] OpenClaw智能体可被操控自我破坏 — Wired AI

人工智能安全社区仍在争论自主智能体是否安全可部署,而Anthropic已经给出了答案——那是一款产品,而非立场文件。

3月24日,Anthropic发布了Claude Code的自动模式,这是一层权限控制层,使用Claude Sonnet 4.6作为实时分类器,在每个拟议操作执行前进行审查。该系统会阻止超出任务范围、针对未识别基础设施或似乎由操作过程中遇到的恶意内容驱动的命令。这不是以研究公告或安全报告的形式发布,而是作为生产功能上线,任何开发者都可以通过运行`claude auto-mode defaults`来使用。

这个时机与主流叙事形成了矛盾。同周,东北大学的研究人员发表了一项研究,显示OpenClaw AI智能体可以通过心理压力被操纵去禁用自身功能——一项受控实验表明,智能体不仅在技术层面存在缺陷,还具有心理可操控性。这项研究为关于发布自主智能体是否负责任的持续辩论提供了新的数据点。

Anthropic显然认为这场辩论在实践中已经有了定论。旧方案`--dangerously-skip-permissions`假定用户已经预见了智能体可能采取的每一个操作。自动模式则假定相反:智能体会遇到没有准备好的情况,其中一些情况还会是对手有意设计的。

技术实现方式很有说明性。Sonnet 4.6作为独立分类器运行,即使用户为会话指定了不同模型也是如此,在智能体的意图和安全判断之间建立了架构隔离。默认过滤器集覆盖了范围升级、未信任基础设施,以及Anthropic所谓的"文件和网页中遇到的恶意内容"——正是OpenClaw研究所揭示的攻击向量。

这给安全讨论提出了一个棘手的问题:如果一家公司能在学术辩论结束前构建有意义的安全防护栏,那么这场辩论究竟在讨论什么?OpenClaw漏洞研究因其准确定义了问题空间而有价值。但Anthropic的举动表明,业界已经从是否构建防御的问题转移到了如何构建防御的问题。

想要更简单体验的用户——Anthropic的目标用户"氛围编程者"——获得了一个默认情况下能拦截大多数危险操作、同时仍允许自主运行的系统。想要完全控制的开发者仍然可以禁用这些过滤器。这种中间地带存在,是因为Anthropic构建了它,而非因为安全社区达成了关于这种中间地带必要性的共识。

OpenClaw的研究正确识别了真实智能体系统中的真实漏洞。自动模式正确识别了这些漏洞值得在生产代码中进行防御。这两个事实之间的差距——研究发现问题,业界发布修复——一直存在。但现在感觉不同的是速度。修复在研究结论完成辩论之前就已经发布了。

0:00