综合 综合自 8 个来源

英伟达全栈AI基础设施升级

要点

  • 英伟达与Thinking Machines Lab合作部署1GW Vera Rubin
  • AIConfigurator自动化LLM部署优化
  • CUDA 13.2带来增强的tile支持和Python功能
  • Nemotron 3 Nano领跑SWE Bench Verified、AIME 2025基准
  • 英伟达计划推出开源AI代理平台
参考来源 (8)
  1. [1] NVIDIA与Thinking Machines Lab达成千兆瓦级AI基础设施合作 — NVIDIA AI Blog
  2. [2] 在Amazon Bedrock上运行NVIDIA Nemotron 3 Nano完全托管无服务器模型 — AWS Machine Learning Blog
  3. [3] Nvidia Is Planning to Launch an Open-Source AI Agent Platform — Wired AI
  4. [4] NVIDIA's AI Engineers: Agent Inference at Planetary Scale and "Speed of Light" — Nader Khalil (Brev), Kyle Kranen (Dynamo) — Latent Space
  5. [5] CUDA 13.2 Introduces Enhanced CUDA Tile Support and New Python Features — NVIDIA Technical Blog
  6. [6] Implementing Falcon-H1 Hybrid Architecture in NVIDIA Megatron Core — NVIDIA Technical Blog
  7. [7] Enhancing Distributed Inference Performance with the NVIDIA Inference Transfer Library — NVIDIA Technical Blog
  8. [8] NVIDIA推出AIConfigurator实现LLM部署自动化优化 — NVIDIA Technical Blog

英伟达全栈AI基础设施全面升级

英伟达本周发布了一系列重大公告,展示了其端到端的AI基础设施战略,涵盖从前沿模型训练到边缘部署的完整领域。这些公告共同代表了英伟达迄今为止最全面的AI开发全栈推进。

千兆瓦级合作

英伟达宣布与Thinking Machines Lab建立多年战略合作伙伴关系,部署至少一个千兆瓦的下一代Vera Rubin系统用于前沿模型训练。这是迄今为止最大的AI基础设施承诺之一。英伟达还向Thinking Machines Lab进行了重大投资,支持其长期增长。该合作伙伴关系旨在扩大前沿AI对企业、研究机构和科学界的可及性。

LLM部署新工具

为解决大型语言模型部署的复杂性,英伟达推出了AIConfigurator,这是一款新工具,旨在自动优化涉及硬件配置、并行策略以及预填充/解码分割的大规模多维搜索空间。该工具解决了手动或穷举测试无法探索的挑战,使高性能服务更加普及。

CUDA 13.2与推理性能

CUDA 13.2带来了增强的CUDA Tile支持和新的Python功能,继续英伟达核心开发平台的快速迭代节奏。同时,英伟达推理传输库详细介绍了提升分布式推理性能的方案,满足了规模化模型服务日益增长的需求。

亚马逊Bedrock上的Nemotron 3 Nano

英伟达Nemotron 3 Nano现已在亚马逊Bedrock上作为完全托管的无服务器模型提供。该小型语言模型采用混合专家(MoE)架构,结合了Transformer和Mamba,提供高计算效率。该模型在编码和推理任务方面表现出色,在SWE Bench VerifiedAIME 2025Arena Hard v2等基准测试中领先。值得注意的是,它提供开放的权重、数据集和配方以确保透明度。

开源代理平台

英伟达计划推出开源AI代理平台,进一步扩展其开发者生态系统。结合英伟达工程师讨论"行星规模代理推理"和实现"光速"性能的见解,该公司正将自己定位为新兴代理AI范式的中心。

为何重要

这些公告共同展示了英伟达掌控完整AI开发生命周期的战略。从提供原始计算能力(Vera Rubin),到优化部署(AIConfigurator),再到实现高效推理(推理传输库),再到提供随时可部署的模型(Nemotron 3 Nano),英伟达正在努力降低AI管道每个阶段的摩擦。与Thinking Machines Lab的合作表明,该公司还在投资确保其硬件有软件生态系统能够大规模利用。

0:00