开发工具综合自 5 个来源

AWS破除RL训练门槛：零基础设施调优Agent

要点

• Qwen 2.5 7B上RLVR实现未见工具57%工具调用准确率提升
• 无服务器模式消除GPU采购和内存协调等运维负担
• 分级奖励评分针对幻觉、错误参数和请求澄清失败等问题
• 支持Nova、Llama、Qwen、DeepSeek和GPT-OSS等模型系列
• 留出数据评估证明学到的是可泛化模式而非记忆

参考来源 (5)

[1] AWS Quick推出无代码HR入职代理 — AWS Machine Learning Blog ↗
[2] AWS优化AI工具调用 Qwen准确率提升57% — AWS Machine Learning Blog ↗
[3] AWS详解Bedrock混合RAG搜索方案 — AWS Machine Learning Blog ↗
[4] AI Maritime AI加速海上异常分析 — AWS Machine Learning Blog ↗
[5] AWS发布Bedrock Gateway连接MCP服务器教程 — AWS Machine Learning Blog ↗

工具调用准确率提升57%，这个数字很亮眼。但真正值得关注的数字是零——实现这一提升所需的GPU基础设施数量。

AWS本周发布了在SageMaker无服务器平台上运行强化学习与可验证奖励（RLVR）的技术指南。这57%的提升来自对Qwen 2.5 7B指令模型在从未见过的工具调用任务上的微调。更重要的是，整个训练流程无需任何团队管理GPU、协调 rollout 与训练阶段之间的内存，或从零构建奖励基础设施。

这才是真正的故事：AWS正在将强化学习在Agent调优领域实现民主化。

Agentic工具调用是AI Agent在生产环境中发挥作用的关键——查询数据库、触发工作流程、代表用户执行操作。但基础模型频繁出现工具幻觉、传递错误参数、在应请求澄清时贸然行动。这些故障阻碍生产部署，侵蚀用户信任。RLVR通过让模型生成候选响应、接收质量奖励信号、更新行为模式来强化有效动作，从而解决这一问题。

由于工具调用具有天然可验证的目标——模型是否以正确参数调用了正确函数——它与RLVR高度契合。传统强化学习的痛点在于运维开销。GPU采购、内存协调、奖励基础设施、检查点保存，每个环节都在累积复杂度。对于大多数团队而言，这些障碍将RLVR拒之门外。

SageMaker AI的无服务器模型定制改变了这一局面。团队只需选择模型、配置RLVR、指向数据集和奖励函数，平台自动处理剩余工作。AWS指南详细介绍了三种不同Agent行为的数据集准备、带分级评分的奖励函数设计——正确函数调用得高分、部分尝试得低分、幻觉得零分——以及在未见工具的留出数据上的评估。这57%的结果正是来自这种评估，证明了模型学到的是可泛化的模式，而非特定示例的记忆。

该方法支持多模型系列：Amazon Nova、Llama、Qwen、DeepSeek和GPT-OSS，以及监督微调和直接偏好优化等技术。AWS尚未披露无服务器定价细节，但其模式遵循典型的无服务器计费逻辑——成本随用量伸缩，无需预留容量承诺。

对于当前构建生产Agent的开发者而言，SageMaker上的RLVR提供了一条无需ML平台团队即可提升可靠性的实用路径。这项技术无法修复所有Agent故障，但它直接针对那些让Agent在企业工作流中无法使用的错误类型。57%的提升是证明，无服务器交付模式是通往普及的道路。