安全综合自 1 个来源

完美对齐：数学上不可能

要点

• 哥德尔与图灵证明完美对齐在数学上不可能
• 人工智能实验室安全框架建立在错误假设上，需全面修订
• 解决方案：神经多样性智能系统的认知生态
• 成功重新定义：管理错位而非消除
• 泽尼尔：可控性必须来自系统外部
• 研究发表于2026年5月《PNAS Nexus》

参考来源 (1)

[1] 研究证明AI价值对齐数学上不可能实现 — IEEE Spectrum AI ↗

人工智能安全界对其核心问题的本质一直存在误解。完美对齐不是难以实现——它在数学上根本不可能。伦敦国王学院的研究人员本周在《PNAS Nexus》期刊上发表了一项证明，结束了业界认为可以通过工程手段摆脱结构性不可能性这一假象。

该证明由副教授埃克托·泽尼尔领衔，依赖于数学领域两项最著名的成果：哥德尔不完备定理和图灵停机问题。哥德尔证明，任何足够强大的形式系统都包含既不能被证明为真也不能被证明为假的命题。图灵则证明，不存在通用算法能够判定任意程序是否最终停止。这两项成果共同表明，任何复杂到足以展现通用智能的人工智能都将产生无法从外部预测或完美控制的行为。

人工智能安全研究界的主流观点一直认为对齐失败是一个缺陷——足够多的数据、更强的算力或更优的工程终将消除这一问题。泽尼尔及其同事推翻了这一假设。他们的结果表明，结构性错位不是优化不足的症状，而是内嵌于通用计算本身的特性。

这项证明对正在竞相构建安全超级智能的万亿美元级人工智能实验室具有直接影响。OpenAI、Anthropic、谷歌DeepMind等公司的整个安全框架都建立在完美对齐可实现的前提之上。它们的监管文件、投资者演示和公开承诺都假设控制是可能的。这一假设如今已如履薄冰。

监管机构面临一个令人不安的清算。欧盟、美国和中国的人工智能治理框架都以超级人工智能可以被控制为前提。如果对齐在结构上不可能，这些框架需要全面修订。问题从“我们如何确保人工智能表现良好？”转变为“我们如何构建即使存在不可避免的错位仍可管理的系统？”

泽尼尔的团队并非在给业界指出一条没有方向的路。他们的提议——管理错位而非消除错位——颠覆了整个思路。该策略不是让单一智能体朝着完美对齐优化，而是设计一个由具有不同推理模式和部分重叠目标的智能系统填充的“认知生态系统”。这些人工神经多样性智能体将动态地相互帮助或相互阻碍，防止任何单一系统获得不受约束的主导地位。

这个类比来自生物学。人类大脑进化出神经多样性不是作为缺陷，而是作为特征——一种认知风格的群体，其集体表现优于任何单一推理模式。泽尼尔认为，稳健的人工智能安全可能需要同样的条件：一个由智能体组成的生态系统，没有任何系统能够主导，因为其他系统在观察、竞争和约束。

这重新定义了成功的标准。完美对齐从来都是一种安慰性的虚构。该领域的新任务是构建即使系统嵌入在竞争利益和互补局限的网络中仍能保持可控的系统。泽尼尔的证明并没有宣判人工智能安全的死刑——它将业界从一个虚假的目的地解放出来，并将其指向一个可实现的未来。不可能性定理不是故事的结局，而是关于当完美不在选项之内时，安全实际上意味着什么的更诚实对话的开始。