研究综合自 1 个来源

八款顶级模型全输体育博彩

要点

• 八款主流模型测试英超投注，零盈利
• xAI Grok 3亏损速度超随机下注基准
• 凯利公式管理资金仍无法逆转亏损
• 时序推理仍是AI未解决的难题
• 排名高分不等于实用预测能力

参考来源 (1)

[1] 研究：大模型赌球亏钱 — Ars Technica AI ↗

八款顶级AI模型，在英超赛季的模拟投注中全部亏损。

伦敦初创公司General Reasoning开发了一套名为KellyBench的测试系统，让主流AI模型在2023-24赛季的虚拟环境中进行投注博弈。每款模型都获得了相同的历史数据——球队表现、伤病报告、主客场战绩、往绩交锋记录——并被要求运用凯利公式建立预测模型、管理资金。测试对象包括来自Google、OpenAI、Anthropic和xAI的八款前沿模型。结果：零盈利。大多数模型的亏损速度足以在数周内亏光本金。

xAI的Grok 3表现最差，亏损速度甚至超过随机下注。这一结果与"模型越新越强"的叙事相悖。General Reasoning团队推测，新一代模型可能吸收了过多体育媒体的噪音——过度反应、近期偏差——这些正是人类投注者最容易犯的错误。

这项研究的影响力远超足球预测本身。英超博彩是数据最完整、边界最清晰的预测问题之一：结果明确、数据丰富、市场活跃。如果AI连这类任务都无法可靠盈利，"令人惊艳"与"真正有用"之间的鸿沟便值得深思。当前模型架构在时序推理上存在短板——无法追踪球队实力在赛季中的动态演变、无法及时修正因伤停或战术调整带来的预期变化。这些恰恰是人类在预测市场中占据优势的核心能力。

研究还暴露了基准测试的局限性。MMLU、HumanEval等推理测试评分接近满分，但这些任务定义清晰、环境静态、结果可独立验证。真实世界的预测问题更加复杂：推理过程中环境持续变化，犯错代价随时间累积。KellyBench提供了一种反向验证——揭示了单纯追求排名高分的局限。

对AI行业而言，结论令人不安。盲目堆叠参数和算力或许能改善某些任务的表现，但构建能在持续、高风险的现实问题中可靠超越人类判断的系统，目前仍是无解难题。英超预测研究告诉我们：前方路还很长。