开源 综合自 1 个来源

英伟达开源120B模型的算计:权重开放,训练权封闭

要点

  • 120B总量/12B活跃参数,全程NVFP4 4比特预训练,开源模型首创
  • LatentMoE架构通过潜在空间压缩实现稀疏推理
  • 开源权重≠开源训练:NVFP4配方复制需要英伟达CUDA生态
  • 战略意图:扩大开源模型市场,掌控推理基础设施层
  • 100万上下文、多语言支持、Apache 2.0许可
参考来源 (1)
  1. [1] 英伟达开源Nemotron-3-120B首发NVFP4训练 — Interconnects

英伟达刚发布了一个120B参数的大模型,但推理时只激活12B。更值得关注的是:它全程采用4比特精度训练。这不是慈善,是基础设施建设。

这个名为Nemotron-3-Super-120B-A12B-NVFP4的模型具备100万token上下文窗口、多语言支持、LatentMoE架构,并附带完整的训练数据集。权重开放、技术报告公开、预训练数据全部放出——看起来很慷慨。但让这一切work的NVFP4预训练配方,作为核心专利技术,被牢牢锁在英伟达的生态里。

技术层面,NVFP4在预训练阶段就做量化这件事,在开源模型中是真正的首创。传统做法是后训练量化——先把模型训好,再压缩到低精度。英伟达更进一步,从训练一开始就采用4比特。这需要定制CUDA内核、对Hopper GPU张量核行为的深度了解,以及大多数机构根本不具备的训练基础设施。结果是:一个120B的模型,benchmark表现看起来远超实际投入的算力。

LatentMoE架构是实现120B总量/12B活跃参数分离的关键。模型不再每次推理激活全部120B参数,而是通过压缩的潜在空间路由,只激活12B。这就是DeepSeek等人推广的稀疏MoE技巧——但NVFP4预训练让它在这个规模上高效运转成为可能。

对开发者而言,现实很残酷:你可以下载120B权重在自有硬件运行。但NVFP4训练创造了一个性能鸿沟:这样训练的模型,其benchmark表现与原始算力投入不成比例。复制这个训练过程需要英伟达的技术栈;高效运行模型需要理解量化与推理硬件的交互方式。

放大了看,策略就很清晰了。随着开源权重生态系统扩张——Meta的Llama系列、DeepSeek的R1、Mistral的发布——开发者面临一个选择:用谁的推理基础设施?英伟达的答案是:让他们成为唯一合理的选项。开放权重、公开数据、把工具链标准化到CUDA。当每个高效开源模型都能追溯到英伟达优化训练时,推理层就成了不可协商的依赖。

这不意味着发布不合法。Nemotron-3-120B确实有用——100万上下文、出色的多语言能力、MoE的效率。从业者完全可以使用它。但这个发布传递的信号是:英伟达把开源权重视为其云API业务的补充,而非竞争。训练出最好的开源模型、在最高效的技术栈上运行——无论这些权重是开源还是闭源,英伟达都是赢家。

对更广泛的开源生态而言,教训很扎心:"开源权重"和"开源训练"是两回事。英伟达开放了一个,保留了另一个。当量化感知训练成为标准,期待看到更多这种不对称的发布——令人印象深刻的模型,但配方专有,只能在一家厂商的硬件上高效运行。

0:00