开源综合自 1 个来源

英伟达开源120B模型的算计：权重开放，训练权封闭

要点

• 120B总量/12B活跃参数，全程NVFP4 4比特预训练，开源模型首创
• LatentMoE架构通过潜在空间压缩实现稀疏推理
• 开源权重≠开源训练：NVFP4配方复制需要英伟达CUDA生态
• 战略意图：扩大开源模型市场，掌控推理基础设施层
• 100万上下文、多语言支持、Apache 2.0许可

参考来源 (1)

[1] 英伟达开源Nemotron-3-120B首发NVFP4训练 — Interconnects ↗

英伟达刚发布了一个120B参数的大模型，但推理时只激活12B。更值得关注的是：它全程采用4比特精度训练。这不是慈善，是基础设施建设。

这个名为Nemotron-3-Super-120B-A12B-NVFP4的模型具备100万token上下文窗口、多语言支持、LatentMoE架构，并附带完整的训练数据集。权重开放、技术报告公开、预训练数据全部放出——看起来很慷慨。但让这一切work的NVFP4预训练配方，作为核心专利技术，被牢牢锁在英伟达的生态里。

技术层面，NVFP4在预训练阶段就做量化这件事，在开源模型中是真正的首创。传统做法是后训练量化——先把模型训好，再压缩到低精度。英伟达更进一步，从训练一开始就采用4比特。这需要定制CUDA内核、对Hopper GPU张量核行为的深度了解，以及大多数机构根本不具备的训练基础设施。结果是：一个120B的模型，benchmark表现看起来远超实际投入的算力。

LatentMoE架构是实现120B总量/12B活跃参数分离的关键。模型不再每次推理激活全部120B参数，而是通过压缩的潜在空间路由，只激活12B。这就是DeepSeek等人推广的稀疏MoE技巧——但NVFP4预训练让它在这个规模上高效运转成为可能。

对开发者而言，现实很残酷：你可以下载120B权重在自有硬件运行。但NVFP4训练创造了一个性能鸿沟：这样训练的模型，其benchmark表现与原始算力投入不成比例。复制这个训练过程需要英伟达的技术栈；高效运行模型需要理解量化与推理硬件的交互方式。

放大了看，策略就很清晰了。随着开源权重生态系统扩张——Meta的Llama系列、DeepSeek的R1、Mistral的发布——开发者面临一个选择：用谁的推理基础设施？英伟达的答案是：让他们成为唯一合理的选项。开放权重、公开数据、把工具链标准化到CUDA。当每个高效开源模型都能追溯到英伟达优化训练时，推理层就成了不可协商的依赖。

这不意味着发布不合法。Nemotron-3-120B确实有用——100万上下文、出色的多语言能力、MoE的效率。从业者完全可以使用它。但这个发布传递的信号是：英伟达把开源权重视为其云API业务的补充，而非竞争。训练出最好的开源模型、在最高效的技术栈上运行——无论这些权重是开源还是闭源，英伟达都是赢家。

对更广泛的开源生态而言，教训很扎心："开源权重"和"开源训练"是两回事。英伟达开放了一个，保留了另一个。当量化感知训练成为标准，期待看到更多这种不对称的发布——令人印象深刻的模型，但配方专有，只能在一家厂商的硬件上高效运行。