行业综合自 1 个来源

英伟达承认推理时代已至

要点

• 英伟达采用每Token成本取代GPU性能成为AI基础设施核心指标
• 推理已超越训练成为主导工作负载，AI从一次性项目转向持续服务经济
• 云厂商定制芯片迫使英伟达在效率而非峰值性能上竞争
• 每Token成本标准化加速AI计算商品化进程
• 全栈整合成为英伟达应对推理经济商品化的核心战略

参考来源 (1)

[1] 英伟达：每Token成本才是王道 — 量子位 QbitAI ↗

英伟达将AI基础设施的价值衡量标准转向每Token成本，这个转变的本质是承认训练时代已经结束。当全球最大的AI芯片公司开始使用推理经济学的语言来重新定义产品价值，整个行业都需要认真倾听。

证据清晰得不容忽视。过去几年，AI基础设施讨论始终围绕训练展开——构建基础模型的一次性资本投入。各家公司竞相比较FLOPS、内存带宽和集群规模。但随着模型激增、推理请求覆盖数十亿次日常交互，经济逻辑已经完全颠倒。每个生成Token的边际成本决定了AI业务的规模化是盈利还是亏损。这是运行大规模生产负载的运营商真正关心的指标。

多重力量共同促成了这个临界点。首先，模型效率的提升超出所有人预期——曾经需要700亿参数模型才能实现的能力，现在可以用更小的架构实现，降低了训练成本，同时将支出集中在推理环节。其次，竞争格局在英伟达脚下发生了变化——谷歌、亚马逊的定制芯片，以及一波专注于推理的初创公司，开始进攻AI市场最高利润的领域。第三，根本性的商业模式转变：训练是一个项目，推理是一项服务。衡量项目和衡量服务的方式截然不同。

反对意见也很直接：英伟达在训练和推理性能上仍保持领先，每Token成本只有在成本受约束时才重要。英伟达可以承受长期博弈，因为其硬件优势依然存在。这没错，但忽视了战略背景。当英伟达采用每Token框架时，它使一个有利于自身全栈整合故事的指标合法化——CUDA优化、TensorRT推理引擎和DGX系统在输出层面的定价比规格参数更容易解释英伟达不是在向新经济学投降，而是在定位自己成为新规则下的最佳选择。

更深层的含义是，AI基础设施正以比行业预期更快的速度成熟为大宗商品市场。一旦市场标准化为单一计量单位，竞争就归结为成本效率和规模——这些领域，半导体晶圆厂和云服务商比无晶圆厂芯片设计商拥有结构性优势。英伟达的转向既是对这一趋势的认可，也是一种赌注：赌集成解决方案即使在单位经济学大宗商品化后仍能保持溢价。

接下来的走向并不复杂。如果每Token成本成为评估基础设施的行业标准，对模型提供商的优化压力将进一步加剧。定制芯片将获得又一波推动力。云定价模式将进一步从订阅制转向消耗制。英伟达下一代的GPU将不再按照训练基准测试来评判，而是按照在不同批处理大小和上下文长度下的每Token成本来评判。公司深知这一点。这正是它率先行动的原因。