开发工具 综合自 5 个来源

AWS破除RL训练门槛:零基础设施调优Agent

要点

  • Qwen 2.5 7B上RLVR实现未见工具57%工具调用准确率提升
  • 无服务器模式消除GPU采购和内存协调等运维负担
  • 分级奖励评分针对幻觉、错误参数和请求澄清失败等问题
  • 支持Nova、Llama、Qwen、DeepSeek和GPT-OSS等模型系列
  • 留出数据评估证明学到的是可泛化模式而非记忆
参考来源 (5)
  1. [1] AWS Quick推出无代码HR入职代理 — AWS Machine Learning Blog
  2. [2] AWS优化AI工具调用 Qwen准确率提升57% — AWS Machine Learning Blog
  3. [3] AWS详解Bedrock混合RAG搜索方案 — AWS Machine Learning Blog
  4. [4] AI Maritime AI加速海上异常分析 — AWS Machine Learning Blog
  5. [5] AWS发布Bedrock Gateway连接MCP服务器教程 — AWS Machine Learning Blog

工具调用准确率提升57%,这个数字很亮眼。但真正值得关注的数字是零——实现这一提升所需的GPU基础设施数量。

AWS本周发布了在SageMaker无服务器平台上运行强化学习与可验证奖励(RLVR)的技术指南。这57%的提升来自对Qwen 2.5 7B指令模型在从未见过的工具调用任务上的微调。更重要的是,整个训练流程无需任何团队管理GPU、协调 rollout 与训练阶段之间的内存,或从零构建奖励基础设施。

这才是真正的故事:AWS正在将强化学习在Agent调优领域实现民主化。

Agentic工具调用是AI Agent在生产环境中发挥作用的关键——查询数据库、触发工作流程、代表用户执行操作。但基础模型频繁出现工具幻觉、传递错误参数、在应请求澄清时贸然行动。这些故障阻碍生产部署,侵蚀用户信任。RLVR通过让模型生成候选响应、接收质量奖励信号、更新行为模式来强化有效动作,从而解决这一问题。

由于工具调用具有天然可验证的目标——模型是否以正确参数调用了正确函数——它与RLVR高度契合。传统强化学习的痛点在于运维开销。GPU采购、内存协调、奖励基础设施、检查点保存,每个环节都在累积复杂度。对于大多数团队而言,这些障碍将RLVR拒之门外。

SageMaker AI的无服务器模型定制改变了这一局面。团队只需选择模型、配置RLVR、指向数据集和奖励函数,平台自动处理剩余工作。AWS指南详细介绍了三种不同Agent行为的数据集准备、带分级评分的奖励函数设计——正确函数调用得高分、部分尝试得低分、幻觉得零分——以及在未见工具的留出数据上的评估。这57%的结果正是来自这种评估,证明了模型学到的是可泛化的模式,而非特定示例的记忆。

该方法支持多模型系列:Amazon Nova、Llama、Qwen、DeepSeek和GPT-OSS,以及监督微调和直接偏好优化等技术。AWS尚未披露无服务器定价细节,但其模式遵循典型的无服务器计费逻辑——成本随用量伸缩,无需预留容量承诺。

对于当前构建生产Agent的开发者而言,SageMaker上的RLVR提供了一条无需ML平台团队即可提升可靠性的实用路径。这项技术无法修复所有Agent故障,但它直接针对那些让Agent在企业工作流中无法使用的错误类型。57%的提升是证明,无服务器交付模式是通往普及的道路。

0:00