行业综合自 1 个来源

黄仁勋的新算盘

要点

• 英伟达将企业AI指标从FLOPS/美元转向Token成本
• FLOPS衡量理论算力，Token成本衡量实际运营费用
• H100/B200架构优势在Token吞吐量分母中被放大
• 框架同时有利于英伟达和需要财务可读指标的CFO
• 尚无第三方基准测试验证行业最低Token成本说法

参考来源 (1)

[1] 英伟达：成本/token是AI基础设施关键指标 — NVIDIA AI Blog ↗

英伟达想让首席财务官们停止问"我的钱能买多少算力"，转而问"每次AI回答实际成本几何"。这是判断，也是黄仁勋最露骨的算盘——同时却是行业真正需要的运营指标。

英伟达最新基础设施博客的核心论点：FLOPS每美元衡量的是理论峰值吞吐量，而Token成本衡量的是企业实际消耗。两者天差地别。一款芯片即便峰值规格亮眼，也可能因内存带宽限制、软件效率低下或利用率不足而Token输出惨淡。当采购团队盯着FLOPS优化时，他们优化的是幻象；盯着Token成本优化时，他们优化的是现实。

英伟达的框架逻辑自洽：Token成本=(GPU小时成本)/(每小时Token产出)。分子是硬件价格，可见、可比、易谈判。但分母——Token吞吐量——才是硬件差异被放大的地方。这就是黄仁勋所说的"推理冰山"：水面上是GPU小时费率，引人注目；水面下是内存架构、互联带宽、软件栈优化，决定沉浮。而英伟达的H100和B200恰好在水面下处处领先。

这背后的利益算计几乎坦荡得让人意外。通过将对话从算力价格转向Token成本，英伟达把架构优势——内存带宽、NVLink互联、CUDA生态成熟度——转化成可量化的经济价值。一瞬间，一小时2.10美元的AMD MI300X实例，如果Token每秒产出低于2.50美元的H100，就显得昂贵。那些用FLOPS每美元自称性价比对手的定制芯片厂商，叙事空间瞬间蒸发。Token成本让英伟达的芯片在另一个维度显得便宜。

但真相同样令人不安：这个论点是正确的。构建AI应用的CFO们不在乎浮点运算，他们在乎月度账单。如果账单随生成的Token增长——大多数推理API定价模式正是如此——那么Token成本就是映射实际运营费用的指标。这是第一个让财务团队觉得"我懂我买的是什么"的基础设施指标。无论谁受益，这本身就有价值。

真正的问题是：英伟达会在数字上自圆其说吗？博客承诺"行业最低Token成本"，但没有第三方基准测试。企业买家在让英伟达重塑采购框架前，应该要求证据。当基础设施厂商定义指标时，行业得到的就是服务于该厂商的结果。这不是阴谋，只是激励。英伟达的Token成本框架足够有说服力，可能会成为标准——但行业应该先验证再采纳。