研究综合自 1 个来源

苹果按步分配信用，革新多工具LLM推理

要点

参考来源 (1)

当多工具LLM代理链接五个工具解决问题时，我们能否准确知道哪个步骤值得成功赞誉或失败责任？

这正是苹果ML研究团队试图用PORTool回答的问题，而他们的答案代表的意义远超增量改进：对如何训练AI代理使用工具的彻底重新思考。核心洞见在于PORTool能够按步分配信用评分——不仅告诉代理成功或失败，还明确指出具体哪个工具调用和推理步骤贡献了多少。

当前多工具LLM系统面临“信用分配模糊性”问题。当代理链接多个工具——比如代码执行器、网络搜索和数据库查询——解决问题时，仅基于结果的奖励只能告诉它“你成功了”或“你失败了”。中间发生了什么、哪个工具调用和推理步骤真正推动了这一结果，依然不透明。这种模糊性使代理几乎无法从错误中有效学习。

PORTool通过在每个推理步骤生成奖励树来解决这一问题。不同于单一的结果信号，该方法为每个步骤和工具调用分配独立的信用分数——“这个工具贡献了X，这个推理步骤贡献了Y，这个工具有负面影响”。这种精细的反馈让代理能够精确识别有效的工具调用模式，并系统性地削弱问题行为。

苹果ML团队的方法代表了一种与标准强化学习根本不同的训练信号。传统方法只告诉代理“做得好”或“做得差”，PORTool则明确将成功和失败分解为各部分贡献。早期实验表明，PORTool训练的代理在多工具任务上显著优于使用标准RL方法的代理。

这些改进的信用分配机制可能改变科学研究、自动化工作流和医疗诊断系统——这些领域都依赖可靠的多步骤工具链。如果这些发现在更复杂的场景中得到验证，PORTool可能标志着一个转折点。苹果公开发布研究成果的态度可能推动集体进步，而更深层的转变在于哲学层面：从监督最终结果转向理解推理过程中的因果关系。