研究综合自 1 个来源

大模型通关宝可梦需数月人类数小时搞定

要点

• Gemini 2.5 Pro通关宝可梦耗时七个月人类不足二十小时完成
• 编程即时反馈循环无法迁移到电子游戏学习
• AlphaZero尽管游戏结构相似仍需为每款游戏完全重新训练
• LLM通关宝可梦靠记忆人类攻略非通用推理能力
• 需要外部脚手架弥补文本推理与游戏输入之间的差距

参考来源 (1)

[1] LLM游戏能力差：编程强不代表游戏行 — IEEE Spectrum AI ↗

2025年5月，Gemini 2.5 Pro成为首个通关《宝可梦：红》的LLM。这段旅程耗时七个月。人类儿童通常在二十小时内就能完成同一款游戏。这个差距暴露了一个根深蒂固的假设的致命缺陷：AI在编程领域的突破会自动迁移到其他认知领域。

纽约大学游戏创新实验室主任朱利安·托格利乌斯多年来一直在研究AI究竟如何在游戏中失败。他的研究以及近期发表的论文得出了一个直白的结论：编程成功与游戏能力是完全不同的问题。托格利乌斯在接受IEEE Spectrum采访时表示：「编程具有极好的规范性。你有任务，像关卡一样。你获得规格说明，编写代码，然后运行它。奖励是即时且精细的。」电子游戏无法提供这样的奢侈体验。它们要求通过游玩来学习——通过当前架构无法复制的试错和探索来发现机制。

这一区别至关重要，因为它挑战了行业普遍流传的叙事。各公司一直在推销能够导航软件界面、执行多步骤任务并从失败中「学习」的AI代理。如果LLM能编写生产级代码，推理是这样的，它当然也能导航数字环境。托格利乌斯实验室的数据给出了相反的答案。当他的团队根据游戏基准测试LLM时，这些模型在空间推理、长期规划和适应性策略方面持续受阻——这些正是编程以不同方式不需要的技能。

部分问题在于架构本身。AI已经超越的国际象棋和围棋，将游戏呈现为具有合法走法的定义明确的状态空间。电子游戏则更加混乱。它们在彼此之上叠加物理引擎、叙事系统、道具管理和涌现机制。每款游戏基本上都需要自己的学习方案。谷歌的AlphaZero常被引用为通用游戏AI的证据，实际上它在学习每款游戏——围棋、国际象棋、将棋——时都需要完全重新训练，尽管这些游戏在结构上相似。对于真正不同的游戏，工程需求成倍增加。

还有一个基准测试无法解决的数据问题。《我的世界》和《宝可梦》等热门游戏积累了数百万小时的人类生成的攻略、流程和论坛讨论。LLM从这些数据中继承了对人类游戏的模糊记忆。一款不太知名的独立游戏几乎没有任何可用的数据。当模型遇到没有已建立解决方案语料库的游戏时，它会陷入困境，揭示其「理解」的贫乏。通关《宝可梦：红》不是通用能力的证据——而是一个模型记住了人类解决方案的证据。

业界试图用脚手架来掩盖这一局限性。Gemini 2.5 Pro需要定制软件才能与《宝可梦：红》交互——翻译层弥补了模型基于文本的推理与游戏按钮输入环境之间的差距。这不是玩游戏。这是在外部系统处理实际输入的同时进行关于玩游戏的「对话」。托格利乌斯直白地说：「我们没有通用游戏AI。」

这并不意味着这项研究毫无价值。游戏环境仍然是宝贵的试验场，因为它们以编程基准测试无法做到的方式考验AI。但推销「代理型」AI系统的公司应该清楚这些系统能做什么、不能做什么。一个能写出正确Python代码的模型，不一定是一个能导航操作系统、预订旅行或完成需要实时适应的任务的模型。句法与能动性之间的鸿沟仍然巨大。

目前，七个月的宝可梦通关记录作为AI炒作与AI现实之间差距的有用基准仍然屹立不倒。

大模型通关宝可梦需数月 人类数小时搞定

要点

大模型通关宝可梦需数月人类数小时搞定