2026年5月10日,数学界炸开了锅。当晚,2006年菲尔兹奖得主陶哲轩分享了一个耗时17分钟的实验结果:他在一个数学问题上测试OpenAI的ChatGPT 5.5 Pro,在不到煮一杯咖啡的时间内产出了论文级成果。
陶哲轩的分量让这件事超越了一般性新闻。这位UCLA数学家是当今最具影响力的纯数学家之一,在数论、调和分析和偏微分方程领域的工作塑造了整个学科方向。当他认真测试AI时,数学界没有理由忽视。
17分钟这个数字之所以关键,因为它代表着前沿AI在数学领域实现了质的飞跃。数学研究历来有自己独特的时间尺度——验证一个证明需要数小时,构建一个论证需要数天,而一个实质性成果往往耗费数周乃至数月。陶哲轩所展示的意味着这个尺度正在被压缩。
这一实验的深层含义超越了单个案例本身。GPT-5.5 Pro达到论文级输出,意味着前沿AI能够生成被顶尖从业者认为符合发表标准的高严谨性数学推理。这与在MATH或竞赛题等标准基准测试上取得高分有本质区别——那些测试衡量的是AI能否解决有标准答案的问题,而陶哲轩测试的是AI能否产出达到专业水准的推理。答案是肯定的。
但陶哲轩本人也给出了关键修正。他对结果表示认可,同时指出人类对AI输出的"消化"仍然不可或缺。"论文级"输出不等于完整论文——数学发表需要将结果整合到更广泛的理论背景中,需要对呈现方式做出战略性选择,还需要专业判断来评估发现的实际意义。AI可以生成证明框架,但人类必须判断它是否成立,以及它意味着什么。
更深层的问题是:17分钟这个门槛是否标志着一个真正的转折点?单次实验不能确立能力,但陶哲轩的公开验证具有分量。他发出的信号是:前沿AI现在是一个正当的数学研究工具——不是猎奇对象,而是需要严肃对待的事物。顶尖研究者在自己的专业领域测试前沿模型,似乎正在成为一种趋势。
这对数学意味着什么?如果前沿AI能在20分钟内产出论文级推理,问题就从"AI能否做数学"转变为"数学家应该怎样使用AI"。答案很可能涉及一种伙伴关系:AI负责快速推理和假设生成,人类负责验证、诠释和引导方向。17分钟属于AI,但理解仍然属于人类。
陶哲轩测试的真正意义在于,它证明了前沿AI已经跨越了需要数学界认真回应的门槛。这个基准不是孤例,它确立了一个事实:这项技术已经进入了将重塑数学研究方式的领域。