行业 综合自 1 个来源

黄仁勋的新算盘

要点

  • 英伟达将企业AI指标从FLOPS/美元转向Token成本
  • FLOPS衡量理论算力,Token成本衡量实际运营费用
  • H100/B200架构优势在Token吞吐量分母中被放大
  • 框架同时有利于英伟达和需要财务可读指标的CFO
  • 尚无第三方基准测试验证行业最低Token成本说法
参考来源 (1)
  1. [1] 英伟达:成本/token是AI基础设施关键指标 — NVIDIA AI Blog

英伟达想让首席财务官们停止问"我的钱能买多少算力",转而问"每次AI回答实际成本几何"。这是判断,也是黄仁勋最露骨的算盘——同时却是行业真正需要的运营指标。

英伟达最新基础设施博客的核心论点:FLOPS每美元衡量的是理论峰值吞吐量,而Token成本衡量的是企业实际消耗。两者天差地别。一款芯片即便峰值规格亮眼,也可能因内存带宽限制、软件效率低下或利用率不足而Token输出惨淡。当采购团队盯着FLOPS优化时,他们优化的是幻象;盯着Token成本优化时,他们优化的是现实。

英伟达的框架逻辑自洽:Token成本=(GPU小时成本)/(每小时Token产出)。分子是硬件价格,可见、可比、易谈判。但分母——Token吞吐量——才是硬件差异被放大的地方。这就是黄仁勋所说的"推理冰山":水面上是GPU小时费率,引人注目;水面下是内存架构、互联带宽、软件栈优化,决定沉浮。而英伟达的H100和B200恰好在水面下处处领先。

这背后的利益算计几乎坦荡得让人意外。通过将对话从算力价格转向Token成本,英伟达把架构优势——内存带宽、NVLink互联、CUDA生态成熟度——转化成可量化的经济价值。一瞬间,一小时2.10美元的AMD MI300X实例,如果Token每秒产出低于2.50美元的H100,就显得昂贵。那些用FLOPS每美元自称性价比对手的定制芯片厂商,叙事空间瞬间蒸发。Token成本让英伟达的芯片在另一个维度显得便宜。

但真相同样令人不安:这个论点是正确的。构建AI应用的CFO们不在乎浮点运算,他们在乎月度账单。如果账单随生成的Token增长——大多数推理API定价模式正是如此——那么Token成本就是映射实际运营费用的指标。这是第一个让财务团队觉得"我懂我买的是什么"的基础设施指标。无论谁受益,这本身就有价值。

真正的问题是:英伟达会在数字上自圆其说吗?博客承诺"行业最低Token成本",但没有第三方基准测试。企业买家在让英伟达重塑采购框架前,应该要求证据。当基础设施厂商定义指标时,行业得到的就是服务于该厂商的结果。这不是阴谋,只是激励。英伟达的Token成本框架足够有说服力,可能会成为标准——但行业应该先验证再采纳。

0:00