开发工具 综合自 2 个来源

七个AI智能体替代QA团队:Docker发布Fleet自主开发流水线

要点

  • Docker Fleet包含7个AI智能体角色,在CI和本地终端自主运行
  • 技能以角色描述而非脚本定义,智能体可自主判断
  • 同一技能文件先在本地运行(迭代耗时秒级),再部署至CI
  • 通过microVM沙箱隔离:每个智能体拥有独立守护进程、网络和文件系统
  • Adam CAD报告GPT 5.5和Opus 4.7空间推理能力显著提升
  • 人类角色从执行者转变为智能体角色定位的审计员
参考来源 (2)
  1. [1] Docker团队用七个AI智能体实现自动化测试发布 — Docker Blog
  2. [2] Adam AI CAD助手发布beta版 支持Onshape和Fusion — Hacker News AI

Docker Coding Agent Sandboxes团队用七个AI智能体自主完成产品测试、问题分类、发布说明撰写和缺陷修复——他们称之为Fleet。这一实践揭示了AI开发工具的演进方向:从辅助人类决策的副驾驶,走向人类仅需审计的自主流水线。

痛点对任何规模化工程团队都不陌生:每次发布需要在macOS、Linux和Windows三个平台测试,在持续负载下捕捉资源泄漏,保持对发布内容的日常可见性,同时还要处理不断增长的问题积压。传统方案是编写测试脚本和报告工具。Docker的sbx团队选择了不同的路径:构建能够自主处理这些任务的智能体角色,同时在开发者笔记本和CI环境中运行。

Fleet构建于Claude Code技能之上——这些技能以markdown文件形式定义智能体的角色定位、职责范围和可用工具。「不要把技能想象成执行步骤的脚本,而要理解为角色描述——告诉你'你是一名构建工程师,这是你需要掌握的知识以及决策方式',」团队在博客中解释道。这个区别至关重要:智能体需要判断力,而不仅仅是指令。当测试意外失败时,脚本会停止,而角色会主动调查原因。

关键设计原则是:每个技能先在本地运行。构建/cli-tester技能时,团队没有从GitHub工作流开始,而是直接在终端调用它。他们观察它如何构建二进制文件、练习CLI命令、发现问题并报告结果,不断调整技能直到行为正确。只有在这之后才接入CI。「当技能先在本地运行时,每次迭代只需几秒钟,」团队指出,「你能看到智能体如何思考,看到它在哪里困惑,修复技能文件,再次调用,然后重试。」

CI不过是同一技能的另一个运行时。在macOS、Linux和Windows运行器上夜间运行的/cli-tester,与从开发者终端调用的版本完全一致。工作流负责环境设置和代码检出,然后调用技能——仅此而已。没有独立的CI版本,没有翻译层。同一技能,两种运行环境。

在Docker安全的microVM沙箱中运行,每个智能体都拥有完整自主权——独立的Docker守护进程、网络和文件系统——而不触及主机系统。这种隔离使智能体能够真正运用判断力,而不仅仅是执行脚本,测试命令是否成功的同时,也验证产品在不预期条件下的行为是否正确。机械工程领域也出现了类似的转变。Adam公司——一家构建AI CAD集成的初创企业——报告称GPT 5.5和Opus 4.7的空间推理能力实现了显著飞跃,支持模型无关的路由机制,能为不同任务选择最合适的顶级模型。Adam的harness直接集成到PTC Onshape和Autodesk Fusion 360,读取现有特征树并自主编辑——重命名特征提升可读性、合并冗余操作、参数化模型、或批量应用倒圆角。

两个案例指向同一趋势:AI开发工具正从辅助人类决策的copilot,演进为自主执行流水线的agent。人类角色从执行者转变为审计员——观察智能体思考、捕捉失败、优化角色描述。无论是测试软件还是编辑CAD几何体,工作流程完全相同:定义角色、在本地运行直到行为正确、然后部署到任意环境。技能文件成为真相来源,而非脚本或工作流本身。

对开发者而言,这意味着调试心智模型的彻底改变:你不再追踪自动化逻辑,而是调试角色定位。你要问的是:「我的智能体对自己的工作有什么认知?」然后调整描述直到它做对。

0:00