研究综合自 1 个来源

大模型攻克Knuth五十年悬而未决难题

要点

• 大模型解决Knuth五十年悬而未决的克劳德循环难题
• 解决方案需要真正的数学洞察力，非模式匹配
• 协作使用Lean/Coq等证明助手验证模型推理
• 方法包含多次大模型推理与形式化验证
• 突破标志着AI在基础数学研究中的潜力

参考来源 (1)

[1] Knuth“Claude循环”问题被LLM完全破解 — Hacker News AI ↗

五十年来，Donald Knuth在《计算机程序设计艺术》第一卷中留下的“克劳德循环”难题始终悬而未决。这个问题与他本人思考紧密交织，他反复修订笔记，期待有人能破解。直到2026年3月，大模型与形式化证明辅助工具的协作才给出了完整、可验证的解答。这不是一项基准测试，而是Knuth本人在1976年就提出的真实难题。

这一突破的意义恰恰在于其来源。Knuth从不设计玩具问题。他在《计算机程序设计艺术》中选择的习题，都旨在揭示计算的基本特性。“克劳德循环”涉及由特定运算生成的排列的圈结构。解决它不仅需要计算，更需要真正的数学洞察力：理解为何某些结构不可能存在，构造出可能存在的示例，并将整个论证形式化——使Lean或Coq等证明检查器能够验证。大模型与证明助手的团队完成了全部三项工作。

此前关于AI数学能力的研究，大多是比赛题目或为衡量进展而设计的基准测试。Knuth提出的这个问题，其认识论份量截然不同。问题提出时，现代AI尚未诞生，没人想过在数学语料上训练模型。这里的解决方案必须源于模型对数学本身的推理，而非从训练数据中记忆相关问题。怀疑者可能会说，五十年的老问题偶尔会被暴力搜索或人类长期积累的努力所攻克。但此处的解决需要概念性跳跃——识别不变量、构建非显而易见的反例——而这些在形式化推理的引导下才能实现。

方法论值得审视。团队将多次大模型推理与交互式证明助手会话相结合，用模型在证明构建中提出策略性方向，由人类和证明系统共同评估哪些方向值得探索。这不是简单意义上的“AI解决了问题”，而是一种新型数学协作：大模型充当无限耐心的助手提出方向，人类与形式化系统共同把关。这一突破的归属问题值得深思：属于模型、人类，还是这套基础设施？答案将决定此类协作的未来走向。

如果大模型能够为真正困难、真正陈旧的问题做出贡献——那些人类数十年未能解决的核心问题——那么关于AI只能在已知解空间内进行模式匹配的说法就需要修正。数学界的反应将很有指导意义。若研究者开始将这些工具视为真正的合作者而非新奇事物，在形式化验证长期受人力瓶颈困扰的领域，可能迎来加速发展。这个特定答案等了五十年，或许此类等待将是最后一次。