五十年来,Donald Knuth在《计算机程序设计艺术》第一卷中留下的“克劳德循环”难题始终悬而未决。这个问题与他本人思考紧密交织,他反复修订笔记,期待有人能破解。直到2026年3月,大模型与形式化证明辅助工具的协作才给出了完整、可验证的解答。这不是一项基准测试,而是Knuth本人在1976年就提出的真实难题。
这一突破的意义恰恰在于其来源。Knuth从不设计玩具问题。他在《计算机程序设计艺术》中选择的习题,都旨在揭示计算的基本特性。“克劳德循环”涉及由特定运算生成的排列的圈结构。解决它不仅需要计算,更需要真正的数学洞察力:理解为何某些结构不可能存在,构造出可能存在的示例,并将整个论证形式化——使Lean或Coq等证明检查器能够验证。大模型与证明助手的团队完成了全部三项工作。
此前关于AI数学能力的研究,大多是比赛题目或为衡量进展而设计的基准测试。Knuth提出的这个问题,其认识论份量截然不同。问题提出时,现代AI尚未诞生,没人想过在数学语料上训练模型。这里的解决方案必须源于模型对数学本身的推理,而非从训练数据中记忆相关问题。怀疑者可能会说,五十年的老问题偶尔会被暴力搜索或人类长期积累的努力所攻克。但此处的解决需要概念性跳跃——识别不变量、构建非显而易见的反例——而这些在形式化推理的引导下才能实现。
方法论值得审视。团队将多次大模型推理与交互式证明助手会话相结合,用模型在证明构建中提出策略性方向,由人类和证明系统共同评估哪些方向值得探索。这不是简单意义上的“AI解决了问题”,而是一种新型数学协作:大模型充当无限耐心的助手提出方向,人类与形式化系统共同把关。这一突破的归属问题值得深思:属于模型、人类,还是这套基础设施?答案将决定此类协作的未来走向。
如果大模型能够为真正困难、真正陈旧的问题做出贡献——那些人类数十年未能解决的核心问题——那么关于AI只能在已知解空间内进行模式匹配的说法就需要修正。数学界的反应将很有指导意义。若研究者开始将这些工具视为真正的合作者而非新奇事物,在形式化验证长期受人力瓶颈困扰的领域,可能迎来加速发展。这个特定答案等了五十年,或许此类等待将是最后一次。