综合综合自 8 个来源

英伟达全栈AI基础设施升级

要点

• 英伟达与Thinking Machines Lab合作部署1GW Vera Rubin
• AIConfigurator自动化LLM部署优化
• CUDA 13.2带来增强的tile支持和Python功能
• Nemotron 3 Nano领跑SWE Bench Verified、AIME 2025基准
• 英伟达计划推出开源AI代理平台

参考来源 (8)

[1] NVIDIA与Thinking Machines Lab达成千兆瓦级AI基础设施合作 — NVIDIA AI Blog ↗
[2] 在Amazon Bedrock上运行NVIDIA Nemotron 3 Nano完全托管无服务器模型 — AWS Machine Learning Blog ↗
[3] Nvidia Is Planning to Launch an Open-Source AI Agent Platform — Wired AI ↗
[4] NVIDIA's AI Engineers: Agent Inference at Planetary Scale and "Speed of Light" — Nader Khalil (Brev), Kyle Kranen (Dynamo) — Latent Space ↗
[5] CUDA 13.2 Introduces Enhanced CUDA Tile Support and New Python Features — NVIDIA Technical Blog ↗
[6] Implementing Falcon-H1 Hybrid Architecture in NVIDIA Megatron Core — NVIDIA Technical Blog ↗
[7] Enhancing Distributed Inference Performance with the NVIDIA Inference Transfer Library — NVIDIA Technical Blog ↗
[8] NVIDIA推出AIConfigurator实现LLM部署自动化优化 — NVIDIA Technical Blog ↗

英伟达全栈AI基础设施全面升级

英伟达本周发布了一系列重大公告，展示了其端到端的AI基础设施战略，涵盖从前沿模型训练到边缘部署的完整领域。这些公告共同代表了英伟达迄今为止最全面的AI开发全栈推进。

千兆瓦级合作

英伟达宣布与Thinking Machines Lab建立多年战略合作伙伴关系，部署至少一个千兆瓦的下一代Vera Rubin系统用于前沿模型训练。这是迄今为止最大的AI基础设施承诺之一。英伟达还向Thinking Machines Lab进行了重大投资，支持其长期增长。该合作伙伴关系旨在扩大前沿AI对企业、研究机构和科学界的可及性。

LLM部署新工具

为解决大型语言模型部署的复杂性，英伟达推出了AIConfigurator，这是一款新工具，旨在自动优化涉及硬件配置、并行策略以及预填充/解码分割的大规模多维搜索空间。该工具解决了手动或穷举测试无法探索的挑战，使高性能服务更加普及。

CUDA 13.2与推理性能

CUDA 13.2带来了增强的CUDA Tile支持和新的Python功能，继续英伟达核心开发平台的快速迭代节奏。同时，英伟达推理传输库详细介绍了提升分布式推理性能的方案，满足了规模化模型服务日益增长的需求。

亚马逊Bedrock上的Nemotron 3 Nano

英伟达Nemotron 3 Nano现已在亚马逊Bedrock上作为完全托管的无服务器模型提供。该小型语言模型采用混合专家(MoE)架构，结合了Transformer和Mamba，提供高计算效率。该模型在编码和推理任务方面表现出色，在SWE Bench Verified、AIME 2025和Arena Hard v2等基准测试中领先。值得注意的是，它提供开放的权重、数据集和配方以确保透明度。

开源代理平台

英伟达计划推出开源AI代理平台，进一步扩展其开发者生态系统。结合英伟达工程师讨论"行星规模代理推理"和实现"光速"性能的见解，该公司正将自己定位为新兴代理AI范式的中心。

为何重要

这些公告共同展示了英伟达掌控完整AI开发生命周期的战略。从提供原始计算能力（Vera Rubin），到优化部署（AIConfigurator），再到实现高效推理（推理传输库），再到提供随时可部署的模型（Nemotron 3 Nano），英伟达正在努力降低AI管道每个阶段的摩擦。与Thinking Machines Lab的合作表明，该公司还在投资确保其硬件有软件生态系统能够大规模利用。