行业 综合自 5 个来源

英伟达万人部署Codex:百万Token成本降至原来的1/35

要点

  • 英伟达一万余名员工在GB200 NVL72上生产运行Codex
  • GB200 NVL72每百万Token成本比上代降低35倍
  • 调试周期从数天压缩至数小时,功能隔夜交付
  • 企业安全模式:云虚拟机、零数据保留、只读权限
  • 英伟达IT在部署前为每位员工配置了专用虚拟机
  • API仍待发布,生产部署比API早数周落地
参考来源 (5)
  1. [1] GPT-5.5驱动Codex,基于NVIDIA GB200成本降35倍 — NVIDIA AI Blog
  2. [2] OpenAI详解Codex:超越对话的任务自动化工具 — OpenAI Blog
  3. [3] Codex支持定时触发自动化任务 — OpenAI Blog
  4. [4] Codex插件与技能系统实现工作流自动化 — OpenAI Blog
  5. [5] GPT-5.5可通过Codex访问,API仍在开发中 — Simon Willison's Weblog

OpenAI最新模型发布的真正新闻,不在于GPT-5.5本身,而在于支撑它运转的基础设施。

英伟达刚刚在超过一万名员工中部署了由GPT-5.5驱动的Codex,运行在GB200 NVL72机架级系统上。结果是:每百万Token成本比上一代基础设施降低了35倍,每兆瓦每秒Token吞吐量提升了50倍。这些不是预测数据,而是实实在在运行在一家三万人公司内部的数字。

思考一下这对于英伟达内部软件开发意味着什么。过去需要数天的调试周期,现在在数小时内就能收尾。过去需要数周迭代的功能开发,正在实现隔夜交付。自然语言提示词能够生成端到端功能,且可靠性足以让团队将这些工具视为生产级基础设施,而非研究实验。

黄仁勋发出全员邮件,敦促每一位英伟达员工采用Codex。他写道:“让我们跃入光速时代。欢迎来到AI纪元。”这不是CEO的营销话术——这是一名创始人在用自己的劳动力押注这项技术。

GB200 NVL72架构才是关键所在。这些机架级系统专为高密度企业级推理工作负载而设计。英伟达建造了它们,如今正在用唯一重要的规模来验证它们:真实工程师在真实代码库上做真实工作。

安全模型同样具有启发性。英伟达IT部门为每位员工配置了云虚拟机,允许Codex智能体在沙盒环境中运行,通过SSH访问经过审批的云基础设施。部署采用零数据保留策略。智能体以只读权限访问生产系统。这是企业级智能体AI应有的样子——不是后期附加的安全措施,而是从底层架构设计的系统。

35倍这个数字就是论点的核心。在过去的成本结构下,向一万名知识工作者部署前沿模型推理,会是一场预算讨论,而非部署决策。而在成本改善35倍后,它就变成了基础设施。

这指向了企业AI即将到来的两极分化。能够访问下一代推理基础设施的公司,将以完全不同的成本结构运营,远优于那些被困在旧GPU集群中的公司。差距不是边际性的,而是根本性的。今天每年在AI推理上投入一千万美元的组织,如果使用当前代际的机架级系统,可能只需不到三十万美元就能达到同等产出。

OpenAI与英伟达的合作关系可追溯至2016年,当时黄仁勋亲自将第一台DGX-1交付给OpenAI的旧金山办公室。十年的共同演进,催生了任何一方单独都无法构建的东西:一个拥有前沿能力的模型提供商,加上一个拥有可扩展部署经济性的基础设施供应商。

API仍在保密中——OpenAI表示,在更广泛开放之前需要额外的安全措施——但这几乎无关宏旨。里程碑不在于开发者下个月能否通过API访问GPT-5.5,而在于一万名工程师已经在生产环境中运行它,并有用数据证明它确实有效。

0:00