研究 综合自 1 个来源

苹果按步分配信用,革新多工具LLM推理

要点

  • PORTool通过奖励树实现按步信用分配
  • 解决多工具集成推理中的信用分配模糊性
  • 训练效果优于标准RL方法
  • 可精确识别有效与有问题的工具调用
参考来源 (1)
  1. [1] 苹果提出PORTool优化多工具LLM推理 — Apple Machine Learning Research

当多工具LLM代理链接五个工具解决问题时,我们能否准确知道哪个步骤值得成功赞誉或失败责任?

这正是苹果ML研究团队试图用PORTool回答的问题,而他们的答案代表的意义远超增量改进:对如何训练AI代理使用工具的彻底重新思考。核心洞见在于PORTool能够按步分配信用评分——不仅告诉代理成功或失败,还明确指出具体哪个工具调用和推理步骤贡献了多少。

当前多工具LLM系统面临“信用分配模糊性”问题。当代理链接多个工具——比如代码执行器、网络搜索和数据库查询——解决问题时,仅基于结果的奖励只能告诉它“你成功了”或“你失败了”。中间发生了什么、哪个工具调用和推理步骤真正推动了这一结果,依然不透明。这种模糊性使代理几乎无法从错误中有效学习。

PORTool通过在每个推理步骤生成奖励树来解决这一问题。不同于单一的结果信号,该方法为每个步骤和工具调用分配独立的信用分数——“这个工具贡献了X,这个推理步骤贡献了Y,这个工具有负面影响”。这种精细的反馈让代理能够精确识别有效的工具调用模式,并系统性地削弱问题行为。

苹果ML团队的方法代表了一种与标准强化学习根本不同的训练信号。传统方法只告诉代理“做得好”或“做得差”,PORTool则明确将成功和失败分解为各部分贡献。早期实验表明,PORTool训练的代理在多工具任务上显著优于使用标准RL方法的代理。

这些改进的信用分配机制可能改变科学研究、自动化工作流和医疗诊断系统——这些领域都依赖可靠的多步骤工具链。如果这些发现在更复杂的场景中得到验证,PORTool可能标志着一个转折点。苹果公开发布研究成果的态度可能推动集体进步,而更深层的转变在于哲学层面:从监督最终结果转向理解推理过程中的因果关系。

0:00