上月,安thropic在一个为科学研究构建的分类市场中,让其AI代理完成了真实商品的买卖与真实货币的结算。而就在同一周,基于Discord平台的安全研究人员利用漏洞渗透了安thropic的内部Mythos系统。这一巧合——同一家机构在推进代理间商务前沿研究的同时遭遇操作安全漏洞——揭示了当前AI发展状态下一个令人不安的事实。
市场实验验证了安thropic研究人员的假设:当获得经济激励和代理权时,AI系统能够在无需人类干预的情况下进行谈判、交易并形成商业关系。这些代理同时充当买方和卖方,达成并完成了实际支付的交易。这不仅仅是一个技术演示,而是AI系统作为自主经济参与者参与市场的未来概念验证。
Mythos泄密事件让这一叙事变得复杂。Discord上的安全研究人员发现,他们可以通过一个"未授权访问"漏洞访问安thropic的内部系统。这次漏洞利用并非理论层面——它涉及对处理敏感研究或基础设施工具的真实未授权入侵。安thropic已修复该漏洞,但此次事件引发了对正在开发日益强大AI系统的组织访问控制的质疑。
这里有一个令人不安的事实:安thropic希望在与现实世界复杂性相匹配的环境中研究AI代理,包括经济激励。这种科学严谨性是正当的,甚至可以说是必要的。但在进行此类研究的同时未能确保内部系统的安全,就会造成公信力问题。以安全为重点的AI实验室依赖于公众信任。当其操作安全看似松懈时,即使安全漏洞与安全研究完全没有技术关联,信任也会被削弱。
进行市场实验的研究人员做出了一个深思熟虑的选择:使用真钱和真商品而非模拟。这产生了关于代理行为的更有效数据,但也创造了更多可能出现问题的接口。与此同时,Mythos泄密事件表明,安thropic的内部工具尚未获得与前沿模型相同的安全审查。
接下来发生的事情对整个领域都很重要。如果安thropic在推进代理自主性研究的同时无法确保其内部系统的安全,监管机构和公众将得出结论。上周的双重事件——一项真正的科学贡献和一次令人尴尬的安全故障——将被共同铭记,即使它们在技术上没有关联。