研究综合自 1 个来源

OpenAI新研究：让AI写代码学决策

要点

• AI生成Python文件而非更新权重来学习决策策略
• 学习到的行为成为可移植、可审计的代码工件
• 推理从权重计算转向代码生成和执行
• 分离模型知识与智能体行为是核心理念转变
• 推理芯片市场可能需要重新思考优化方向

参考来源 (1)

[1] OpenAI提出免参数更新的强化学习新范式 — 量子位 QbitAI ↗

AI推理芯片行业或许正在为一个错误的问题建设未来。OpenAI研究员翁家翌提出了一种新范式：AI系统不通过调整数十亿神经网络的权重来学习决策，而是通过编写和执行Python文件来实现——这一转变可能使当前的AI推理基础设施架构变得过时。

在传统强化学习中，AI智能体通过反复更新参数来改进决策。每个与环境的交互都会轻微调整模型权重，使其向更好表现的方向优化。这个过程需要昂贵的GPU集群，消耗大量能源，并产生一个难以审计或共享的黑盒子。学习到的行为与底层模型架构紧密绑定，意味着为一个任务学习的策略无法轻易提取并部署到其他地方。

翁家翌的方法被称为“无参数学习”，它彻底打破了这种依赖。AI不是修改权重，而是生成一个编码其决策策略的Python脚本。这个脚本可以独立运行，作为单个文本文件分享，并逐行检查。“模型”变成了代码执行器加上策略文件，而不是为特定能力训练的单一神经网络。

这对推理基础设施的影响是深远的。当前的AI部署需要在每次推理时运行数十亿参数的模型。如果学习可以外部化为代码，推理步骤就变成了：读取Python文件，根据环境反馈执行，可能生成更新后的脚本。繁重的工作从神经网络推理转移到代码生成和执行——这是一个根本不同的计算工作负载。

这并不意味着这种方法纯粹是理论性的。翁家翌已经发布了开源实现，展示了该方法在基准测试任务上的效果。生成的Python文件包含可读的逻辑：条件分支、奖励计算、从环境反馈中推导出的决策规则。开发者可以检查脚本，理解智能体为何选择特定动作，甚至手动修改逻辑。长期困扰强化学习研究的可复现性问题，在“学习”变成可以提交到版本控制的文本文件后，变得直截了当。

批评者会合理地问：这真的算学习吗？生成的代码仍然必须建立在底层模型具备的能力之上——翁家翌并非声称从零构建智能。而且对于高度复杂的任务，Python脚本可能变得庞大笨拙。与最先进的微调模型相比，性能比较仍然有限。该方法还要求基础模型具有强大的代码生成能力，这意味着推理中节省的计算可能以生成策略文件的计算投入来抵消。

然而，即使有这些保留意见，这一范式仍然意义重大。如果AI智能体能够将学习到的行为作为可移植代码外部化，模型能力与部署功能之间的关系将完全改变。一个通用的代码生成模型原则上可以为任何领域生成专门的决策脚本，无需专门的微调基础设施。策略变成了软件工件而不是神经快照。

推理硬件市场在高效运行大语言模型上押下重注。数十家初创公司的定制芯片针对矩阵乘法、注意力机制和令牌生成进行优化。在一个AI学习通过代码执行而非权重更新实现的世界里，会奖励完全不同的芯片——擅长运行Python的处理器，也许是针对动态代码优化的解释器。没有现有路线图为此可能性做好准备。

翁家翌的研究表明，该领域应更仔细地区分AI模型知道什么和AI智能体做什么。当前的微调混淆了这些，将行为嵌入权重。无参数学习将它们分离，使AI系统更加透明和可部署。这种特定实现能否扩展到现实世界的复杂性仍是开放问题，但它所代表的理念转变——学习作为代码生成而非权重修改——是基础设施构建者不能再忽视的。