OpenAI最新发布的《模型规范》和“安全漏洞赏金计划”,表面上看是负责任的透明度举措,实则是一场让公司在不受外部监督约束的情况下掌控叙事的话语操控游戏。
《模型规范》于3月25日公开发布,阐述了OpenAI模型如何在安全性、用户自由度和问责制之间取得平衡。“安全漏洞赏金计划”则邀请研究人员寻找包括代理漏洞、提示注入攻击和数据泄露渠道在内的技术缺陷。这两项举措都为OpenAI赢得了正面的舆论报道。但它们都没有改变一个根本事实:验证权仍牢牢掌握在OpenAI手中。
问题的核心在于核查机制。《模型规范》是OpenAI自行定义、自行执行、自我报告的框架。OpenAI创建了这套准则,培训团队遵循它,并发布相关说明来描述执行效果。公司外部没有任何机构来核实这份规范是否真正约束了行为,还是仅仅充当一份公关文件。赏金计划向研究人员支付报酬,让他们报告特定的技术漏洞,但该计划明确没有赋予参与者审计OpenAI是否遵守自身治理承诺的权利。研究人员可以因报告一个提示注入漏洞而获得现金奖励,却无法委托独立机构评估OpenAI的安全流程是否真正降低了系统性风险。
这种机制结构对OpenAI有利,而且这种利处意义重大。公司因透明度而获得赞誉,却完全掌控着“透明度”意味着什么的定义权。它可以突出有利数据、以有利角度解读模糊决策,并在外部观察者注意到问题时纠正记录。质疑OpenAI做法的批评者,可以用《模型规范》作为回应,创造出一种结构化问责的假象,却没有任何执行机制来支撑这种假象。
OpenAI可能会辩称,这种做法符合企业治理的标准做法。公开框架确实会引发审视,赏金计划在软件安全领域也被证明有效。这些观点并非毫无道理。但它们混淆了两个截然不同的问题:发现特定技术漏洞,与核实一家组织的实际运营是否与其声称的一致。赏金计划适用于前者,对后者却毫无意义。
在其他受监管的行业中,独立审计机构的存在自有其道理。金融机构不会自我认证是否符合会计准则。制药公司不会仅仅发布安全协议就宣称完成了任务。在每个案例中,外部验证都提供了某种保证——确保公开框架反映的是实际做法。AI开发目前尚无类似的要求,而OpenAI的新计划也没有创造这样的要求。
随着AI开发越来越多地塑造关键基础设施、医疗决策和经济稳定,谁来验证安全声明将成为一个公共利益问题。那些将验证权保留在私域的自愿透明度计划,服务的是公司利益,而非公众利益。OpenAI的最新公告并非恶意姿态,但它们只回应了表面症状——对问责制的呼声——而没有触及使“问责制表演”成为可能的结构性条件:缺乏任何外部机构拥有核实这些表演是否符合剧本的权利和能力。
OpenAI可以永远发布框架。但只要没有独立机构能够走进OpenAI、评估这些框架是否约束了实际决策、并发布公司无法压制的调查结果,《模型规范》就始终只是一份文件,而非一道检验。